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数据 库 领 域 的 殿堂 级 作品 
夯实 数据 库 理 论 基 础 ， 增 强 数据 库 技术 内 功 的 必 备 之 先 
对 深入 理解 数据 库 ， 深 入 研究 数据 库 ， 深 入 操作 数据 库 都 具有 极 强 的 指导 作用 |! 


本 书 是 数据 库 系统 方面 的 经 典 教材 之 一 ， 其 内 容 由 浅 入 深 ， 既 包含 数据 库 系统 基本 概念 ， 又 反映 数据 库 
技术 新 进展 。 它 被 国际 上 许多 著名 大 学 所 采用 ， 包 括 斯 坦 福 大 学 、 耶 鲁 大 学 、 得 克 萨 斯 大 学 、 康 奈 尔 大 学 、 
伊利 诺 伊 大 学 等 。 我 国 也 有 多 所 大 学 采用 本 书 作为 本 科 生 和 研究 生 数据 库 课 程 的 教材 和 主要 教学 参考 书 ， 收 
到 了 良好 的 效果 。 

第 6 版 保持 了 前 5 版 的 总 体 风格 ， 同 时 对 内 容 进行 了 扩充 ， 对 结构 进行 了 调整 ， 以 更 好 地 符合 数据 库 教学 
的 需求 和 反映 数据 库 设计 、 管 理 与 使 用 方式 的 发 展 和 变化 。 具 体 更 新 内 容 如 下 : 

@ 调整 了 内 容 组 织 结构 ， 将 SQL 内 容 提 前 ， 并 集中 进行 介绍 。 

@ 采用 一 个 新 的 模式 ( 基于 大 学 的 数据 ) 作为 贯穿 全 书 的 运行 实例 。 

o 修订 和 更 新 了 对 数据 存储 、 索 引 和 查询 优化 以 及 分 布 式 数据 库 的 涵盖 。 

@ 修订 了 E-R 模 型 、 关 系 设计 和 事务 管理 等 内 容 。 

@ 扩充 了 关于 应 用 开发 和 安全 性 的 素材 。 


本 书 配套 网 站 ( http:/www.db-book.com ) 提供 的 教 辅 资源 包括 : 

e 书 中 各 章 的 教学 课件 。 

@ 实践 练习 的 答案 。 

e 未 放 入 纸 版 书 中 的 四 个 附录 ( 高 级 关系 数据 库 设计 、 其 他 关系 查询 语言 、 网 状 模型 、 层 次 模型 ) 。 
© 实验 素材 ( 包括 大 学 模式 和 习题 中 用 到 的 其 他 关系 的 SQL DDL 和 样 例 数据 ， 以 及 关于 建立 和 使 用 各 
种 数据 库 系 统 和 工具 的 说 明 书 ) 。 

最 新 勘误 表 。 
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本 书 是 经 典 的 数据 库 系统 教科 书 《Database System Concepts) 的 最 新 修订 版 ， 全 面 介绍 数据 库 系统 的 各 
种 知识 ， 透 彻 阐释 数据 库 管理 的 基本 概念 。 本 书 内 容 丰 富 ， 不 仅 讨论 了 关系 数据 模型 和 关系 语言 、 数 据 库 
设计 过 程 、 关 系数 据 库 理论 、 数 据 库 应 用 设计 和 开发 、 数 据 存储 结构 、 数 据 存 取 技 术 、 查 询 优化 方法 、 事 
务 处 理 系统 和 并 发 控制 、 故 障 恢复 技术 、 数 据 仓库 和 数据 挖掘 ， 而 且 对 性 能 调整 、 性 能 评测 标准 、 数 据 库 
应 用 测试 和 标准 化 、 空 间 和 地 理 数 据 、 时 间 数 据 、 多 媒体 数据 、 移 动 和 个 人 数据 库 管 理 以 及 事务 处 理 监 控 
器 、 事 务工 作 流 、 电 子 商务 、 高 性 能 事务 系统 、 实 时 事务 系统 和 持续 长 时 间 的 事务 等 高 级 应 用 主题 进行 了 
广泛 讨论 。 

本 书 既 可 作为 高 年 级 本 科 生 或 低 年 级 研究 生 的 数据 库 课程 教材 ， 也 可 供 数据 库 领域 的 技术 人 员 参 考 。 

Abraham Silberschatz, Henry F. Korth, S. Sudarshan; Database System Concepts, Sixth Edition (ISBN 978- 
0-07-352332-3). 

Copyright © 2011 by The McGraw-Hill Companies, Inc. 
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文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 各 个 领域 
取得 了 垄断 性 的 优势 ; 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 家 全 出 、 独 领 风 骚 。 
在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 学 科 中 的 许多 泰山 北斗 同时 身 
处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 获 划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 
既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ,我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 益 迫 切 。 
这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 人 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 上 显得 举足轻重 。 
在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 发 展 的 几 十 年 间 积淀 和 发 展 
的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 
发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真 正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ” 。 自 1998 年 开始 ， 我 们 就 将 工作 重点 
放 在 了 壕 选 、 移 译 国 外 优秀 教材 上。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson，McGraw-Hill Elsevier, 
MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教 
材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, Brain W. Kernighan, Dennis Ritchie, Jim Gray, 
Afred V. Aho, John E. Hopcroft, Jeffrey D. Ullman, Abraham Silberschatz, William Stallings, Donald E. 
Knuth, John L. Hennessy, Larry L. Peterson 等 大 师 名 家 的 一 批 经 上 典 作品 ， 以 “计算 机 科学 从 书 ” 为 总 
称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 从 书 的 品位 和 格调 。 

“计算 机 科学 丛书” 的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 襄 助 ， 国 内 的 专家 不 仅 提供 了 中 肯 的 选 
题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 中 国 的 传播 ， 有 
的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书 ”已 经 出 版 了 近 两 百 个 品种 ， 这 些 书籍 在 读 
者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 。 其 影印 版 “经 典 原版 书库 ”作为 
姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因 素 使 我 们 的 图 书 有 了 
质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 国外 
计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达 
到 这 一 终极 目标 的 重要 帮助 。 华 章 公司 欢迎 老师 和 读者 对 我 们 的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联 
系 方法 如 下 : 








华章 网 站 : www. hzbook. com 
电子 邮件 : hzjsj@hzbook. com 
联系 电话 : (010) 88379604 


联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 华章 教育 
邮政 编码 : 100037 华章 科技 图 书 出 版 中 心 
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数据 库 系 统 是 对 数据 进行 存储 、 管 理 、 处 理 和 维护 的 软件 系统 ， 是 现代 计算 环境 中 的 一 个 核心 成 
分 。 随 着 计算 机 硬件 、 软 件 技术 的 飞速 发 展 和 计算 机 系统 在 各 行 各 业 的 广泛 应 用 ， 数 据 库 技术 的 发 展 
尤其 迅速 ， 引 人 人 注目。 有关 数 据 库 系统 的 理论 和 技术 是 计算 机 科学 技术 教育 中 必 不 可 少 的 部 分 。《 数 
据 库 系 统 概念 》 是 一 本 经 典 的 、 备 受 狗 扬 的 数据 库 系统 教科 书 。 其 内 容 由 浅 人 深 ， 既 包含 数据 库 系 统 
的 基本 概念 ， 又 反映 数据 库 技 术 的 新 进展 。 本 书 被 国际 上 许多 著名 大 学 所 采用 ， 并 多 次 再 版 。 

我 们 先后 将 本 书 的 第 3 版 、 第 4 版 和 第 5 版 译 成 中 文 ， 由 机 械 工 业 出 版 社 分 别 于 2000 年 、2003 年 
和 2006 年 出 版 发 行 。 国 内 许多 大 学 采用 《数据 库 系统 概念 》 作 为 本 科 生 和 研究 生 数 据 库 课程 的 教材 
或 主要 教学 参考 书 ， 收 到 了 良好 的 效果 。 现 在 ， 我 们 又 翻译 了 该 书 第 6 版。 第 6 版 保持 了 前 5 版 的 总 
体 风 格 ， 同 时 对 内 容 进 行 了 扩充 ， 对 结构 进行 了 调整 ， 以 更 好 地 符合 数据 库 教学 的 需求 ， 反 映 数 据 库 
设计 、 管 理 和 使 用 方式 的 发 展 和 变化 。 第 6 版 的 内 容 大 体 上 可 以 分 为 五 个 部 分 。 

第 1 ~9 章 讲 述 数据 库 系统 的 基本 概念 ， 包 括 对 数据 库 系 统 的 性 质 和 目标 的 综述 ， 对 关系 数据 模型 
和 关系 语言 的 介绍 ， 对 数据 库 设 计 过 程 、 关 系数 据 库 理论 以 及 数据 库 应 用 设计 和 开发 (包括 基于 Web 
的 界面 构建 数据 库 应 用 和 应 用 安全 性 问题 等 ) 的 详细 讨论 。 

第 10 ~ 19 章 主 要 讨论 数据 库 系统 实现 技术 ， 包 括 数据 存储 结构 、 数 据 存 取 技 术 、 查 询 优 化 方法 、 
事务 处 理 系统 的 基本 概念 和 并 发 控制 、 故 障 恢复 技术 ， 还 包括 在 并 行 数据 库 系 统 和 分 布 式 数据 库 系 统 
中 所 采用 的 一 些 主要 策略 和 技术 。 

第 20 ~23 章 主要 讨论 数据 管理 与 应 用 的 深入 话题 ， 包 括 对 数据 仓库 和 数据 挖掘 概念 与 技术 的 较 详 
细 的 介绍 ， 以 及 对 用 于 查询 文本 数据 的 信息 检索 技术 (包括 在 Web 搜索 引擎 中 使 用 的 基于 超 链接 的 技 
AR) 的 介绍 。 这 一 部 分 还 介绍 了 新 型 的 数据 库 系统 ， 包 括 对 象 - 关系 数据 库 模 型 、 数 据 表示 的 XML 标 
准 ， 以 及 XML 的 查询 语言 。 

第 24 ~ 26 章 是 一 些 高 级 话题 ， 内 容 包 括 应 用 开发 中 的 诸如 性 能 调整 、 性 能 评测 标准 、 数 据 库 应 用 
测试 和 标准 化 等 高 级 话题 ， 以 及 空间 和 地 理 数 据 、 时 间 数 据 、 多 媒体 数据 、 移 动 和 个 人 数据 库 管 理 中 
的 问题 。 这 一 部 分 还 讨论 了 事务 处 理 监控 器 、 事 务工 作 流 、 电 子 商务 、 高 性 能 事务 系统 、 实 时 事务 系 
统 和 持续 长 时 间 的 事务 等 高 级 事务 处 理 问 题 。 

第 27 ~30 章 对 PostgreSQL, Oracle, IBM DB2 和 Microsoft SQL Server 这 四 个 领先 的 数据 库 系 统 进 行 
实例 研究 ， 结 合 这 几 个 具体 系统 来 讨论 前 面 各 部 分 描述 的 各 种 实现 技术 是 如 何 使 用 到 实际 系统 中 的 。 

上 述 五 大 部 分 中 第 一 部 分 的 主要 内 容 ， 以 及 第 二 、 第 三 、 第 四 部 分 的 部 分 内 容 可 以 作为 本 科 生 数 
据 库 概论 课程 的 教材 或 主要 参考 资料 ， 第 二 、 第 三 和 第 四 部 分 的 其 余 内 容 可 以 用 于 研究 生 的 数据 库 课 
程 教学 ， 第 五 部 分 可 以 作为 帮助 学 生 了 解 实 际 系统 的 补充 材料 。 

杨 冬 青 、 李 红 燕 、 唐 世 渭 组 织 并 参加 了 本 书 的 翻译 和 审 校 工作 ; 参加 翻译 的 还 有 范 红 杰 、 程 序 、 
Ha., ABR. RRR. EWR. EME. BF. 
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数据 库 管 理 已 经 从 一 种 专门 的 计算 机 应 用 发 展 为 现代 计算 环境 中 的 一 个 重要 成 分 ， 因 此 ， 有 关 数 
据 库 系统 的 知识 已 成 为 计算 机 科学 教育 中 的 一 个 核心 的 部 分 。 在 本 书 中 ， 我 们 讲述 数据 库 管 理 的 基本 
概念 。 这 些 概念 包括 数据 库 设计 、 数 据 库 语言 、 数 据 库 系统 实现 等 多 个 方面 。 

本 书 可 作为 本 科 生 三 年 级 或 四 年 级 数据 库 人 门 课 程 的 教科 书 ， 也 可 作为 研究 生 一 年 级 的 教科 书 。 
除了 作为 入 门 课程 的 基本 内 容 外 ， 本 书 还 包括 了 可 作为 课程 补充 或 作为 高 级 课程 介绍 性 材料 的 高 级 
内 容 。 

我 们 仅 要 求 读 者 熟悉 基本 的 数据 结构 、 计 算 机 组 织 结构 和 一 种 高 级 程序 设计 语言 ， 例 如 Java、C 
或 Pascal。 书 中 的 概念 都 以 直观 的 方式 加 以 描述 ， 其 中 的 许多 概念 都 基于 我 们 大 学 运行 的 例子 加 以 冰 
释 。 本 书 中 包括 重要 的 理论 结果 ,但 省 略 了 形式 化 证 明 ， 取 而 代 之 的 是 用 图 表 和 例子 来 说 明 为 什么 结 
论 是 正确 的 。 对 于 形式 化 描述 和 研究 结果 的 证 明 ， 读 者 可 以 参考 文献 注解 中 列 出 的 研究 论文 和 高 级 
教材 。 

本 书 中 所 包括 的 基本 概念 和 算法 通常 是 基于 当今 的 商品 化 或 试验 性 的 数据 库 系统 中 采用 的 概念 和 
算法 。 我 们 的 目标 是 在 一 个 通常 环境 下 描述 这 些 概 念 和 算法 ， 而 没有 与 某 个 特定 的 数据 库 系统 绑 定 。 
特定 的 数据 库 系统 的 细节 将 在 第 九 部 分 “实例 研究 ”中 讨论 。 

在 本 书 第 6 版 中 ， 我 们 保持 了 前 面 版 本 的 总 体 风 格 ， 同 时 对 内 容 和 结构 进行 了 扩展 来 反映 数据 库 
设计 、 管 理 和 使 用 的 方式 所 发 生 的 变化 。 我 们 还 考虑 了 数据 库 概 念 的 教学 方面 的 趋势 ， 并 在 适当 的 地 
方 做 出 了 推动 这 种 趋势 的 修改 。 


本 书 的 组 织 


本 书 组 织 成 十 个 主要 部 分 : 

。 综述 (第 1 章 )。 第 1 章 对 数据 库 系统 的 性 质 和 目标 进行 了 一 般 性 综述 。 我 们 解释 了 数据 库 系 
统 的 概念 是 如 何 发 展 的 ， 各 数据 库 系统 的 共同 特性 是 什么 ， 数 据 库 系统 能 为 用 户 做 什么 ， 以 及 
数据 库 系统 如 何 与 操作 系统 交互 。 我 们 还 引入 了 一 个 数据 库 应 用 的 例子 : 包括 多 个 系 、 教 员 、 
学 生 和 课程 的 一 个 大 学 机 构 。 这 个 应 用 作为 贯穿 全 书 的 运行 实例 。 这 一 章 本 质 上 是 诱导 性 、 历 
史 性 和 解释 性 的 。 

。 第 一 部 分 : 关系 数据 库 (第 2 章 至 第 6 章 )。 第 2 章 介 绍 了 数据 的 关系 模型 ， 包 括 基本 概念 ， 
诸如 关系 数据 库 的 结构 、 数 据 库 模式 、 码 、 模 式 图 、 关 系 查询 语言 和 关系 操作 等 。 第 3 ~5 章 
主要 介绍 最 具 影 响 力 的 面向 用 户 的 关系 语言 一 一 SQL。 第 6 章 介绍 形式 化 的 关系 查询 语言 ， 包 
括 关系 代数 、 元 组 关系 演算 和 域 关系 演算 。 

这 部 分 描述 了 数据 操纵 ， 包 括 查询 、 修 改 、 插 入 和 删除 (假设 已 有 一 个 模式 设计 )。 关 于 
模式 设计 的 问题 延迟 到 第 二 部 分 讲述 。 

。 第 二 部 分 : 数据 库 设 计 (第 7 章 至 第 9 章 ) 。 第 7 章 给 出 了 数据 库 设 计 过 程 的 概要 介绍 ， 主 要 


侧重 于 用 实体 - 联系 数据 模型 来 进行 数据 库 设 计 。 实 体 - 联系 模型 为 数据 库 设 计 问题 ， 以 及 我 
们 在 数据 模型 的 约束 下 捕获 现实 应 用 的 语义 时 所 遇 到 的 问题 提供 了 一 个 高 层 视图 。UML 类 图 表 
示 也 在 这 一 章 中 讲述 。 

第 8 章 介绍 关系 数据 库 设 计 理 论 。 这 一 章 讲 述 函数 依赖 和 规范 化 ， 重 点 强调 提出 各 种 范式 
的 动机 ， 以 及 它们 的 直观 含义 。 这 一 章 以 关系 设计 的 概览 开始 ， 依 赖 于 对 函数 依赖 的 逻辑 蕴涵 
的 直观 理解 。 这 使 得 规范 化 的 概念 可 以 在 函数 依赖 理论 的 完整 内 容 之 前 先 作 介绍 。 函 数 依赖 理 
论 将 在 本 章 中 稍 后 部 分 讨论 。 教 师 可 以 只 选用 8. 1 节 至 8. 3 节 这 些 较 前 面 的 章节 ， 而 不 会 丢失 
连贯 性 。 不 过 ， 完 整地 讲授 这 一 章 将 有 利于 学 生 对 规范 化 概念 形成 较 好 的 理解 ， 从 而 诱导 出 函 
数 依 赖 理论 中 一 些 较 艰 深 的 概念 。 

第 9 章 讲述 应 用 设计 和 开发 。 这 一 章 侧重 于 用 基于 Web 的 界面 构建 数据 库 
一 章 还 讲述 了 应 用 安全 性 。 
第 三 部 分 : 数据 存储 和 查询 (第 10 章 至 第 13 章 ) 。 第 10 章 讨论 存储 设备 、 文 件 和 数据 存储 结 
构 。 在 第 11 章 中 介绍 多 种 数据 存 取 技 术 ， 包 括 B 树 索 引 和 散 列 。 第 12 章 和 第 13 章 阐述 查询 
执行 算法 和 查询 优化 。 这 两 章 使 用 户 能 更 好 地 理解 数据 库 的 存储 和 检索 的 内 部 机 制 。 

第 四 部 分 : 事务 管理 (第 14 章 至 第 16 章 ) 。 第 14 章 着 重 介绍 事务 处 理 系统 的 基本 概念 ， 包 括 
原子 性 、 一 致 性 、 隔 离 性 和 持久 性 。 它 还 提供 了 用 于 保证 这 些 特 性 的 方法 的 一 个 概述 ， 包 括 封 
锁 和 快照 隔离 性 。 

第 15 章 重点 讲述 并 发 控制 ， 并 介绍 保证 可 串 行 化 的 几 种 技术 ， 包 括 封锁 、 时 间 改 和 乐观 
(有 效 性 检查 ) 技术 。 在 这 一 章 中 还 讨论 死 锁 问 题 ， 并 介绍 保证 可 串 行 化 的 其 他 方法 ， 特 别 是 
详细 讨论 广泛 使 用 的 快照 隔离 方法 。 

第 16 章 讨论 在 系统 崩溃 和 存储 器 故障 情况 下 保证 事务 正确 执行 的 主要 技术 。 这 些 技 术 包 括 
日 志 、 检 查 点 和 数据 库 转 储 。 被 广泛 使 用 的 ARIES 算法 也 在 这 里 做 了 介绍 。 

第 五 部 分 : 系统 体系 结构 (第 17 章 至 第 19 章 ) 。 第 17 章 介绍 计算 机 系统 体系 结构 ， 并 描述 了 
作为 基础 的 计算 机 系统 对 于 数据 库 系统 的 影响 。 在 这 一 章 中 讨论 了 集中 式 系统 、 客 户 - 服务 器 
系统 、 并 行 和 分 布 式 体 系 结构 。 

在 第 18 章 关 于 并 行 数据 库 的 讨论 中 ， 我 们 探讨 了 各 种 并 行 技术 ， 包 括 WO 并 行 、 查 询 间 并 
行 和 查询 内 并 行 ， 以 及 操作 间 并 行 和 操作 内 并 行 。 这 一 章 中 还 讨论 了 并 行 系统 设计 。 

第 19 章 讨论 分 布 式 数据 库 系 统 ， 在 分 布 式 数据 库 系统 的 环境 下 重新 讨论 数据 库 设计 、 事 务 
管理 、 查 询 执行 和 优化 问题 。 这 一 章 还 包括 了 故障 时 的 系统 可 用 性 问题 ， 并 介绍 了 异 构 分 布 式 
数据 库 、 基 于 云 的 数据 库 和 分 布 式 目录 系统 。 
第 六 部 分 : 数据 仓库 、 数 据 挖掘 与 信息 检索 (第 20 章 和 第 21 章 ) 。 第 20 章 介绍 数据 仓库 和 数 
据 挖 掘 的 概念 。 第 21 章 描 述 用 于 查询 文本 数据 的 信息 检索 技术 ， 包 括 在 Web 搜索 引擎 中 使 用 
的 基于 超 链接 的 技术 。 

第 六 部 分 使 用 了 第 一 部 分 和 第 二 部 分 的 模型 和 语言 概念 ， 但 并 不 依赖 于 第 三 部 分 、 第 四 部 

分 或 第 五 部 分 。 因 此 它 可 以 很 容易 地 结合 到 侧重 于 SQL 和 数据 库 设计 的 课程 中 。 
第 七 部 分 : 特种 数据 库 (第 22 章 和 第 23 章 ) 。 第 22 章 介 绍 基 于 对 象 的 数据 库 。 该 章 讲述 了 对 
象 -关系 数据 模型 ， 该 模型 扩展 了 关系 数据 模型 以 支持 复杂 数据 类 型 、 类 型 继承 和 对 象 标识 。 
该 章 还 描述 了 用 面向 对 象 的 编程 语言 来 访问 数据 库 。 

第 23 章 介绍 数据 表示 的 XML 标准 ， 它 正 日 益 广泛 地 应 用 于 复杂 数据 交换 和 存储 。 这 一 章 
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还 描述 了 XML 的 查询 语言 。 

。 第 八 部 分 : 高 级 主题 (第 24 章 至 第 26 章 ) 。 第 24 章 讨论 应 用 开发 中 的 高 级 话题 ， 包 括 性 能 调 
整 、 性 能 评测 标准 、 数 据 库 应 用 测试 和 标准 化 。 

第 25 章 介 绍 空间 和 地 理 数据 、 时 间 数 据 、 多 媒体 数据 以 及 移动 和 个 人 数据 库 管理 中 的 
问题 。 

最 后 ， 第 26 章 讨 论 高 级 事务 处 理 。 这 一 章 的 内 容 包括 事务 处 理 监 控 器 、 事 务工 作 流 、 电 子 
商务 、 高 性 能 事务 系统 、 实 时 事务 系统 和 持续 长 时 间 的 事务 。 

e 第 九 部 分 : 实例 研究 (第 27 章 至 第 30 章 ) 。 在 这 一 部 分 我 们 对 四 个 领先 的 数据 库 系 统 进 行 实 
例 研究 ， 包 括 PostgreSQL, Oracle, IBM DB2 和 Microsoft SQL Server。 这 几 章 中 列举 了 上 述 每 一 
种 系统 的 独 有 特性 ， 描 述 了 它们 的 内 部 结构 ， 提 供 了 关于 各 个 产品 的 丰富 的 有 用 信息 ， 帮 助 读 
者 了 解 前 面 各 部 分 描述 的 各 种 实现 技术 是 如 何 使 用 到 实际 系统 中 的 。 这 几 章 中 还 包括 实际 系统 
设计 中 的 几 个 有 趣 的 方面 。 

。 第 十 部 分 : 附录 (附录 A ~ 附录 下) 。 我 们 提供 5 个 附录 ， 包 括 一 些 历 史 性 的 和 高 级 的 内 容 ; 这 
些 附录 只 在 本 书 的 Web ui (http://www. db-book. com) 中 联机 提供 。 只 有 附录 A (详细 的 大 
学 模式 ) 例外 ， 它 给 出 了 我 们 的 大 学 模式 的 细节 ， 包 括 完整 的 模式 、DDL 和 所 有 的 表 。 这 个 附 
录 出 现在 纸 质 版 本 中 。 

附录 B (高 级 关系 数据 库 设计 ) 描述 了 高 级 关系 数据 库 设 计 ， 包 括 多 值 依赖 理论 、 连 接 依 
赖 、 投 影 连 接 和 域 - 码 范式 。 这 个 附录 是 为 希望 更 详细 地 研究 关系 数据 库 设 计 理 论 的 读者 ， 以 
及 希望 在 课程 中 这 样 做 的 教师 准备 的 。 这 个 附录 同样 只 是 联机 提供 ， 就 在 本 书 的 网 站 上 。 

MRC (其 他 关系 查询 语言 ) 描述 其 他 的 关系 查询 语言 ， 包 括 QBE Microsoft Access 和 
Datalog 

虽然 大 多 数 新 的 数据 库 应 用 系统 使 用 关系 模型 或 对 象 - 关系 模型 ， 但 网 状 的 和 层次 的 数据 
模型 在 一 些 遗留 应 用 中 也 仍然 在 使 用 。 为 了 满足 希望 了 解 这 些 数据 模型 的 读者 的 需要 ， 我 们 给 
出 了 描述 网 状 和 层次 的 数据 模型 的 附录 ， 分 别 为 附录 D (网 状 模型 ) 和 附录 (层次 模型 ) 。 
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对 于 本 书 第 6 版 的 产生 起 指导 作用 的 包括 我 们 收 到 的 关于 前 面 几 版 的 许多 意见 和 建议 ， 我 们 在 耶鲁 大 
学 、 利 哈 依 大 学 、 备 买 印度 理工 学 院 讲授 本 课程 的 体会 ， 以 及 我 们 对 于 数据 库 技 术 发 展 方向 的 分 析 。 

我 们 用 一 个 大 学 的 例子 替换 了 原先 的 银行 企业 的 运行 例子 。 这 个 例子 与 学 生 相 关 ， 不 仅 有 助 于 他 
们 记 住 这 个 例子 ， 而 且 更 重要 的 是 ， 使 他 们 能 够 更 深 地 洞察 所 需 进行 的 各 种 设计 决策 。 

我 们 重新 组 织 了 这 本 书 ， 将 我 们 关于 SQL 的 介绍 都 集中 在 一 起 ， 放 在 本 书 的 开头 部 分 。 第 3 章 、 
第 4 章 和 第 5 章 对 SQL 进行 完整 的 介绍 。 第 3 章 给 出 该 语言 的 基础 ， 而 将 更 高 级 的 特性 放 在 了 第 4 章 。 
在 第 5 章 中 ， 我 们 介绍 从 通用 的 程序 设计 语言 访问 SQL 的 JDBC 和 其 他 方法 。 我 们 介绍 触发 器 和 递归 ， 
最 后 讨论 联机 分 析 处 理 ( OLAP) 。 人 门 性 的 课程 可 以 选择 只 包括 第 5 章 的 某 些 节 ,或 者 将 一 些 节 延迟 
到 讲 过 了 数据 库 设 计 之 后 再 讲 ， 这 样 也 不 失 连 续 性 。 

除了 这 两 个 主要 的 改变 外 ， 我 们 修订 了 每 一 章 中 的 素材 ， 对 旧 的 素材 进行 更 新 ， 增 加 对 于 数据 库 
技术 的 新 的 发 展 的 讨论 ， 并 且 改 进 学 生 难 于 理解 的 那些 内 容 的 描述 。 我 们 还 增加 了 新 的 练习 并 更 新 了 
参考 文献 。 具 体 的 改变 如 下 。 

© RENAT SQL。 许 多 讲课 教师 使 用 SQL 作为 课程 实习 的 核心 成 分 (访问 我 们 的 网 站 www. db- 








book. com 以 参考 示例 课程 实习 ) 。 为 了 给 学 生 充 足 的 时 间 做 课程 实习 ， 尤 其 对 于 那些 四 学 期 制 
的 大 学 和 学 院 来 说 ， 尽 早教 授 SQL 非常 重要 。 有 了 这 个 认识 ， 我 们 在 内 容 组 织 方 面 做 了 几 个 
改动 : 

口 用 新 的 一 章 (第 2 章 ) 介绍 关系 模型 ， 放 在 SQL 之 前 ， 打 下 概念 基础 ， 而 不 使 学 生 迷 失 在 
关系 代数 的 细节 中 。 

口 第 3 章 、 第 4 章 和 第 5 章 详细 介绍 SQL。 这 几 章 还 讨论 不 同 的 数据 库 系 统 支 持 的 变 体 ， 从 而 
当 学 生 在 实际 的 数据 库 系统 上 执行 查询 时 会 少 遇 到 一 些 问 题 。 这 几 章 福 盖 了 SQL 的 所 有 方 
面 ， 包 括 查 询 、 数 据 定 义 、 约 束 说 明 、OLAP 和 从 各 种 语言 (包括 Java/ JDBC) 内 部 使 
用 SQL。 

O 形式 语言 (第 6 章 ) 推迟 到 SQL 之 后 ， 而 且 可 以 略 掉 不 讲 ， 而 不 会 影响 其 他 章 的 顺序 。 只 
有 在 第 13 章 关于 查询 优化 的 讨论 依赖 于 第 6 章 介 绍 的 关系 代数 。 

新 的 数据 库 模式 。 我 们 采用 了 一 个 新 的 模式 作为 贯穿 全 书 的 运行 实例 ， 基 于 大 学 的 数据 。 对 于 

学 生来 说 ， 这 个 模式 比 以 前 的 银行 模式 更 加 直观 和 有 意义 ， 而 且 在 数据 库 设计 的 章节 中 展示 了 

更 复杂 的 设计 权衡 。 

对 学 生 的 亲手 实践 提供 了 更 多 的 支持 。 为 了 推动 学 生 跟 着 我 们 的 运行 实例 进行 实践 ， 我 们 在 附 

录 A 中 列 出 了 大 学 数据 库 的 数据 库 模式 和 样 例 的 关系 实例 ， 并 在 用 到 大 学 实例 的 各 个 章 中 也 进 

行 了 说 明 。 另 外 ， 在 我 们 的 Web 站 点 http://www. db-book. com 上 ， 提 供 了 对 于 整个 例子 的 SQL 

数据 定义 语句 ， 以 及 建立 我 们 的 样 例 关系 实例 的 SQL 语句 。 这 鼓励 了 学 生 直 接 在 一 个 实际 的 数 

据 库 系统 中 去 运行 样 例 查询 ， 并 且 试 着 去 修改 这 些 查询 。 

修订 了 对 E-R 模型 的 涵盖 。 我 们 修改 了 第 7 章 中 E-R 图 的 符号 表示 ， 以 使 得 它 与 UML 更 兼容 。 

这 一 章 还 充分 利用 了 新 的 大 学 数据 库 模式 来 描述 更 复杂 的 设计 权衡 。 

修订 了 对 关系 设计 的 涵盖 。 第 8 章 的 风格 现在 更 具 可 读 性 ， 它 在 阐述 函数 依赖 理论 之 前 提供 了 

对 函数 依赖 和 规范 化 的 一 个 直观 的 理解 ， 其 结果 是 理论 的 动机 更 清晰 了 。 

扩充 了 关于 应 用 开发 和 安全 性 的 素材 。 第 9 章 包括 了 关于 应 用 开发 的 新 的 素材 ， 以 反映 该 领域 

的 快速 变化 。 特 别 地 ， 扩 展 了 关于 安全 性 的 介绍 ， 包 括 它 在 当今 紧密 互联 的 世界 中 的 至 关 重 要 

性 ， 并 重点 强调 了 抽象 概念 外 的 实际 问题 。 

修订 和 更 新 了 对 数据 存储 、 索 引 和 查询 优化 的 涵盖 。 对 第 10 章 进 行 了 新 技术 方面 的 更 新 ， 包 

括 对 闪存 的 更 多 的 讨论 。 

更 新 了 第 11 章 对 B*' 树 的 讨论 ， 以 反映 实际 的 实现 ， 包 括 对 批量 载 和 的 介绍 ， 并 且 对 陈述 
方式 也 进行 了 改进 。 第 11 Bh B 树 的 例子 修改 成 了 =4， 以 避免 〈 不 切实 际 的 ) n=3 时 发 
生 的 空 结 点 的 特殊 情况 。 

第 13 章 中 有 关于 高 级 查询 优化 技术 的 新 的 素材 。 
修订 了 对 事务 管理 的 涵盖 。 第 14 章 全 面 涵 盖 了 入门 性 课程 中 的 基础 知识 ， 而 高 级 的 细 记 在 第 
15 章 和 第 16 章 中 介绍 。 我 们 扩展 了 第 14 章 ， 以 福 盖 数据 库 用 户 和 数据 库 应 用 开发 人 员 所 面 对 
的 事务 管理 的 实际 问题 。 这 一 章 还 包括 了 对 第 15 章 和 第 16 章 所 讨论 话题 的 扩展 的 综述 ， 以 确 
保 即 使 略 掉 第 15 章 和 第 16 章 ， 学 生 仍 能 对 并 发 控制 和 恢复 的 概念 有 基本 的 了 解 。 

第 14 章 和 第 15 章 现在 包括 了 对 当今 被 广泛 支持 和 使 用 的 快照 隔 立 性 的 详细 介绍 ， 对 于 使 
用 它 的 潜在 风险 也 做 了 介绍 。 

第 16 章 现在 对 基本 的 基于 日 志 的 恢复 进行 了 简化 的 描述 ， 进 一 步 介绍 了 ARIES 算法 。 











































































































Ix 


。 修订 和 扩充 了 对 分 布 式 数据 库 的 涵盖 。 我 们 现在 涵盖 了 云 数据 存储 ， 它 在 商业 应 用 中 正 日 益 受 
到 极 大 的 重视 。 云 存储 为 企业 提供 了 改进 成 本 管理 和 增加 存储 可 扩充 性 的 机 遇 ， 特 别 是 对 于 基 
F Web 的 应 用 。 我 们 分 析 了 这 些 优点 ， 也 指出 了 可 能 的 缺点 和 风险 。 

我 们 原来 在 高 级 事务 处 理 这 一 章 中 讨论 多 数据 库 ， 现 在 对 它 更 早 地 进行 了 介绍 ， 作 为 分 布 
式 数 据 库 这 一 章 中 的 一 部 分 。 

。 推迟 了 对 对 象 数据 库 和 XML 的 介绍 。 虽 然 面向 对 象 的 语言 和 XML 在 数据 库 的 范围 之 外 被 广泛 
使 用 ， 但 在 数据 库 中 的 使 用 仍然 有 限 ， 这 使 得 它们 对 于 高 级 课程 或 作为 入 门 性 课程 的 补充 材料 
更 适合 一 些 。 因 此 这 些 话 题 在 本 书 中 向 后 移 了 ， 放 到 了 第 22 章 和 第 23 章 。 

e QBE, Microsoft Access 和 Datalog 放 在 联机 附录 中 。 这 些 话题 原来 是 “其 他 关系 语言 ”这 一 
章 中 的 一 部 分 ， 现 在 放 在 联机 附录 CHT. 

上 面 没有 列 出 的 所 有 话题 都 在 第 5 版 的 基础 上 做 了 更 新 ， 虽 然 相对 地 它们 的 总 体 组 织 没 有 
改变 。 


回顾 材料 和 习题 


每 一 章 都 有 一 个 术语 回顾 表 ， 还 有 一 个 总 结 ， 这 可 以 帮助 读者 回顾 这 一 章 中 涵盖 的 关键 话题 。 
练习 划分 成 两 部 分 : 实践 习题 (practice exercise) 和 习题 (exercise)。 实 践 习 题 的 解答 在 本 书 的 
Web 站 点 公开 发 布 。 我 们 鼓励 学 生 独 立 解决 这 些 实践 习题 ， 然 后 用 Web 站 点 上 的 解答 来 检查 自己 的 答 
案 。 其 他 练习 题 的 解答 只 有 讲课 教师 能 得 到 (参看 下 面 的 “讲课 教师 注意 事项 ”以 获取 如 何 得 到 题解 
的 信息 ) 。 
许多 章 的 末尾 有 一 个 “工具 ” 节 ， 它 提供 与 该 章 的 话题 相关 的 软件 工具 的 信息 ; 这 些 工具 中 的 一 
些 可 以 用 于 实验 室 练习 。 大 学 数据 库 和 习题 中 用 到 的 其 他 关系 的 SQL DDL 和 样 例 数据 在 本 书 的 Web 站 
点 可 以 得 到 ， 也 可 以 用 于 实验 室 练习 。 
讲课 教师 注意 事项 
本 书包 括 基本 内 容 和 高 级 内 容 ， 在 一 个 学 期 内 也 许 不 能 讲授 所 有 这 些 内 容 。 我 们 以 符号 “…“ ”把 
某 些 节 标记 为 高 级 内 容 ， 如 果 愿 意 的 话 可 以 省 略 这 些 节 ， 而 仍 能 保持 内 容 的 连续 性 。 较 难 的 〈 可 以 忽 
略 的 ) 练习 同样 用 符号 ““* ”标记 出 来 了 。 
可 以 用 本 书 各 章 的 不 同 子 集 来 设计 课程 。 某 些 章 也 可 以 用 不 同 于 本 书 中 的 顺序 来 讲授 。 我 们 列 出 
一 些 可 能 的 安排 如 下 : 
。 第 5 章 可 以 跳 过 或 推迟 到 后 面 讲 ， 而 不 失 连 续 性 。 我 们 期 望 大 多 数 的 课程 至 少 5. 1. 1 节 较 早 地 
讲授 ， 因 为 JDBC 很 可 能 会 是 学 生 实 习 的 一 个 有 用 工具 。 
。 第 6 章 可 以 在 第 2 章 之 后 、 讲 SQL 之 前 讲 。 也 可 以 把 这 一 章 从 入 门 性 的 课程 中 省 略 掉 。 
我 们 建议 如 果 课 程 中 讲 查 询 处 理 的 话 ， 那 么 把 6. 1 节 也 包括 在 课程 中 。 但 是 ， 如 果 学 生 在 
课程 中 不 使 用 关系 演算 的 话 ， 那 么 6.2 节 和 6. 3 节 可 以 省 略 。 
。 如 果 教 师 愿意 的 话 ， 第 7 章 可 以 在 第 3 章 、 第 4 章 和 第 5 章 之 前 讲 ， 因 为 第 7 章 完全 不 依赖 
于 SQL; 
。 第 13 章 可 以 从 入 门 性 的 课程 中 省 略 掉 ， 而 对 于 其 他 任何 章 的 讲授 都 没有 影响 。 
。 我 们 对 事务 处 理 的 讨论 (第 14 章 至 第 16 章 ) 和 对 系统 体系 结构 的 讨论 (第 17 章 至 第 19 章 ) 
都 包括 一 章 综 述 (分 别 为 第 14 章 和 第 17 章 ) 和 后 续 的 两 章 详细 讨论 。 如 果 计 划 把 后 面 几 章 推 


迟到 高 级 课程 中 去 讲授 ， 可 以 选择 使 用 第 14 章 和 第 17 章 ， 省 略 第 15 章 、 第 16 章 、 第 18 章 和 
第 19 章 。 

。 第 20 章 和 第 21 章 介绍 数据 仓库 、 数 据 挖掘 和 信息 检索 ， 它 们 可 以 用 作 上 自学 材料 或 从 人 门 性 课 
程 中 删 去 。 

© 对 于 入 门 性 课程 来 说 ， 可 以 不 讲 第 22 章 和 第 23 章 。 

。 第 24 章 至 第 26 章 涵盖 高 级 应 用 开发 ， 空 间 、 了 时间 和 移动 数据 ， 以 及 高 级 事务 处 理 ， 更 适合 于 
高 级 课程 或 学 生 自 学 。 

。 第 27 章 至 第 30 章 的 实例 研究 适合 学 生 自学 。 或 者 ， 这 几 章 可 以 用 作 课 堂上 讲 的 前 面 那些 章 的 
概念 的 实例 。 

基于 本 书 的 样 例 课 程 提纲 可 以 在 本 书 的 Web 站 点 找到 。 


Web 站 点 和 教学 补充 材料 : 


本 书 的 Web 站 点 的 网 址 是 : 
http://www. db-book. com 

该 站 点 包括 以 下 内 容 : 

。 本 书 所 有 各 章 的 幻灯 片 

。 实践 习题 的 答案 

。 五 个 附录 

。 最 新 勘误 表 

© 实验 素材 ， 包 括 大 学 模式 和 习题 中 用 到 的 其 他 关系 的 SQL DDL 和 样 例 数据 ， 以 及 关于 建立 和 使 

用 各 种 数据 库 系 统 和 工具 的 说 明 书 

下 列 附 加 材料 仅 有 教师 可 以 获得 : 

。 包括 书 中 所 有 习题 的 答案 的 教师 手册 

。 包括 额外 习题 的 问题 库 

关于 如 何 得 到 教师 手册 和 问题 库 的 进一步 信息 ,请 发 电子 邮件 到 customer. service @ mcgraw- 
hill. com, McGraw-Hill 关于 本 书 的 网 页 是 


http://www. mhhe. com/silberschatz 


与 我 们 联系 


我 们 已 尽 了 最 大 的 努力 来 避免 在 本 书 中 出 现 排版 错误 、 内 容 失 误 等 。 然 而 ， 与 发 布 新 软件 类 似 ， 
错误 在 所 难免 ; 在 本 书 的 Web 站 点 中 有 一 个 最 新 勘误 表 。 如 果 你 能 指出 尚未 包含 在 最 新 勘误 表 中 的 本 
BH oii Zh, BVT RB. 

我 们 很 高 兴 能 收 到 你 对 改进 本 书 的 建议 ， 我 们 也 很 欢迎 你 对 本 书 Web 站 点 做 出 对 其 他 读者 有 用 的 
贡献 ， 例 如 程序 设计 练习 、 课 程 实习 建议 、 联 机 实验 室 和 指南 以 及 讲课 要 点 等 。 

请 将 电子 邮件 发 到 db-book-authors @cs. yale. edu。 其 他 来 信 请 寄 到 Avi Silberschatz, Department of 
Computer Science, Yale University, 51 Prospect Street, P. O. Box 208285, New Haven, CT 06520-8285 USA. 


致谢 
许多 人 对 于 第 6 版 以 及 第 6 版 所 源 自 的 前 5 版 提供 了 帮助 。 





























第 6 版 

e Anastassia Ailamaki，Sailesh Krishnamurthy，Spiros Papadimitriou 和 Bianca Schroeder ( Carnegie 
Mellon University) ， 他 们 撰写 了 第 27 章 ， 描 述 PostgreSQL 数据 库 系统 。 

e Hakan Jakobsson (Oracle) ,他 撰写 了 第 28 章 ， 描 述 Oracle 数据 库 系 统 。 

e Sriram Padmanabhan ( IBM) , 他 撰写 了 第 29 章 ， 描述 IBM DB2 数据 库 系 统 。 

è Sameet Agarwal, José A. Blakeley, Thierry D’Hers, Gerald Hinson, Dirk Myers, Vaqar Pirzada, Bill 
Ramos, Balaji Rathakrishnan, Michael Rys, Florian Waas 和 Michael Zwilling (全 部 来 自 Microsoft ) , 
他 们 撰写 了 第 30 章 ， 描 述 Microsoft SQL Server 数据 库 系统 。 特 别 地 ，jJose Blakeley 对 这 一 章 进 
行 了 协调 和 编辑 ; César Galindo-Legaria, Goetz Graefe, Kalen Delaney 和 Thomas Casey ( 全 部 来 自 
Microsoft) 对 于 前 一 版 中 的 Microsoft SQL Server 这 一 章 做 出 了 贡献 。 

© Daniel Abadi 审阅 了 第 5 版 的 目录 表 ， 并 协助 进行 了 新 的 组 织 。 

© Steve Dolins ( University of Florida), Rolando Fernanez (George Washington Universily J! ‘Frantisek 
Franek (McMaster University) , Latifur Khan ( University of Texas-Dallas) , Sanjay Madria ( University 
of Missouri-Rolla) , Aris Ouksel ( University of Illinois) 和 Richard Snodgrass ( University of Waterloo) , 
他 们 作为 本 书 的 审阅 人 ， 他 们 的 意见 对 于 我 们 形成 第 6 版 帮助 很 大 。 

© Judi Paige， 她 帮助 形成 了 插图 和 演示 幻灯 片 。 

© Mark Wogahn， 他 保证 了 生成 本 书 文本 的 软件 正常 工作 ， 包 括 LaTeX 宏和 字体 。 

e N. L. Sarda， 他 的 反馈 帮助 我 们 改进 了 好 几 章 ， 特 别 是 第 11 章 ; Vikram Pudi， 他 促使 我 们 替换 
掉 原 来 的 银行 模式 ; Shetal Shah， 他 对 几 个 章节 给 出 了 反馈 。 

。 耶鲁 大 学 和 印度 孟买 理工 学 院 的 学 生 ， 他 们 对 第 5 版 ， 以 及 第 6 版 的 预 印 本 给 出 了 意见 。 

前 面 各 版 

e Chen Li, Sharad Mehrotra， 他 们 为 第 5 版 提供 了 关于 JDBC 和 安全 性 的 素材 。 

e Marilyn Turnamian 和 Nandprasad Joshi 为 第 5 版 担任 秘书 工作 ，Marilyn 还 为 第 5 版 准备 了 一 个 封 
面 设计 的 早期 版 本 。 

© Lyn Dupré 对 第 3 版 进行 了 审查 Sara Strandtman 对 第 3 版 进行 了 文字 编辑 。 

e Nilesh Dalvi, Sumit Sanghai, Gaurav Bhalotia, Arvind Hulgeri K. V. Raghavan, Prateek Kapadia, Sara 
Strandtman, Greg Speegle 和 Dawn Bezviner 协助 准备 了 前 面 各 版 的 教师 素材 。 

。 用 船 作为 封面 概念 的 一 部 分 的 想法 最 初 是 Bruce Stephan 向 我 们 建议 的 。 

e 以 下 人 士 指 出 了 第 5 版 中 的 错误 之 处 : Alex Coman, Ravindra Guravannavar, Arvind Hulgeri, Rohit 
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Database System Concepts, 6E 


5 引 言 


数据 库 管 理 系统 ( DataBase-Management System, DBMS) 由 一 个 互相 关联 的 数据 的 集合 和 一 组 用 以 访 
问 这 些 数 据 的 程序 组 成 。 这 个 数据 集合 通常 称 作 数 据 库 ( database) ， 其 中 包含 了 关于 某 个 企业 的 信息 。 
DBMS 的 主要 目标 是 要 提供 一 种 可 以 方便 、 高 效 地 存 取 数据 库 信息 的 途径 。 

设计 数据 库 系统 的 目的 是 为 了 管理 大 量 信息 。 对 数据 的 管理 既 涉及 信息 存储 结构 的 定义 ， 又 涉及 
信息 操作 机 制 的 提供 。 此 外 ,数据库 系统 还 必须 提供 所 存储 信息 的 安全 性 保证 ， 即 使 在 系统 崩溃 或 有 
人 企图 越权 访问 时 也 应 保障 信息 的 安全 性 。 如 果 数 据 将 被 多 用 户 共享 ， 那么 系统 还 必须 设法 避免 可 能 
产生 的 异常 结果 。 

在 大 多 数组 织 中 信息 是 非常 重要 的 ， 因 而 计算 机 科学 家 开发 了 大 量 的 用 于 有 效 管理 数据 的 概念 和 
技术 。 这 些 概念 和 技术 正 是 本 书 所 关注 的 。 在 这 一 章 里 ， 我 们 将 简要 介绍 数据 库 系统 的 基本 原理 。 


1.1 数据 库 系统 的 应 用 
数据 库 的 应 用 非常 广泛 ， 以 下 是 一 些 具 有 代表 性 的 应 用 : 


。 企业 信息 
销售 ; 用 于 存储 客户 、 产 品 和 购买 信息 。 
会 计 : 用 于 存储 付款 、 收 据 、 账 户 余额 、 资 产 和 其 他 会 计 信 息 。 
口 人 力 资源 : 用 于 存储 雇员 、 工 资 、 所 得 税 和 津贴 的 信息 ， 以 及 产生 工资 单 。 
口 生产 制造 ;用 于 管理 供应 链 ， 跟 踪 工厂 中 产品 的 生产 情况 、 仓 库 和 商店 中 产品 的 详细 清单 以 
及 产品 的 订单 。 
口 联机 零售 : 用 于 存储 以 上 所 述 的 销售 数据 ， 以 及 实时 的 订单 跟踪 ， 推 荐 品 清单 的 生成 ， 还 有 
实时 的 产品 评估 的 维护 。 
。 银行 和 金融 
口 银 行业 : 用 于 存储 客户 信息 、 账 户 、 贷 款 ， 以 及 银行 的 交易 记录 。 
口 信用 卡 交易 : 用 于 记录 信用 卡 消费 的 情况 和 产生 每 月 清单 。 
Dekk: 用 于 存储 股票 、 债 券 等 金融 票据 的 持 有 、 出 售 和 买 人 的 信息 ; 也 可 用 于 存储 实时 的 
市 场 数据 ， 以 便 客户 能 够 进行 联机 交易 ， 公 司 能 够 进行 自动 交易 。 
。 大 学 : 用 于 存储 学 生 信息 、 课 程 注册 和 成 绩 。( 此 外 ， 还 存储 通常 的 单位 信息 ， 例 如 人力 资源 
和 会 计 信息 等 。) 
。 航空 业 ; 用 于 存储 订 票 和 航班 的 信息 。 航 空 业 是 最 先 以 地 理 上 分 布 的 方式 使 用 数据 库 的 行业 
2 
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。 电信 业 : 用 于 存储 通话 记录 ， 产 生 每 月 账单 ， 维 护 预付 电话 卡 的 余额 和 存储 通信 和 网络 的 信息 。 

正如 以 上 所 列举 的 ,数据库 已 经 成 为 当今 几乎 所 有 企业 不 可 默认 的 组 成 部 分 ， 它 不 仅 存储 大 多 数 
企业 都 有 的 普通 的 信息 ， 也 存储 各 类 企业 特有 的 信息 。 

在 20 世纪 最 后 的 40 年 中 ,数据 库 的 使 用 在 所 有 的 企业 中 都 有 所 增长 。 在 早期 ， 很 少 有 人 直接 和 
数据 库 系 统 打交道 ， 尽 管 没 有 意识 到 这 一 点 ， 他 们 还 是 与 数据 库 间接 地 打 着 交道 ， 比 如 ， 通 过 打印 的 
报表 (如 信用 卡 的 对 账单 ) 或 者 通过 代理 (如 银行 的 出 纳 员 和 机 票 预订 代理 等 ) 与 数据 库 打 交道 。 自 动 取 
款 机 的 出 现 ， 使 用 户 可 以 直接 和 数据 库 进 行 交 互 。 计 算 机 的 电话 界面 (交互 式 语音 应 答 系 统 ) 也 使 得 用 
户 可 以 直接 和 数据 库 进行 交互 ， 呼 叫 者 可 以 通过 拨号 和 按 电话 键 来 输入 信息 或 选择 可 选项 ， 来 找 出 如 
航班 的 起 降 时 间或 注册 大 学 的 课程 等 。 

20 世纪 90 年 代 末 的 互联 网 革命 急剧 地 增加 了 用 户 对 数据 库 的 直接 访问 。 很 多 组 织 将 他 们 的 访问 
数据 库 的 电话 界面 改 为 Web 界面 ， 并 提供 了 大 量 的 在 线 服务 和 信息 。 比 如 ， 当 你 访问 一 家 在 线 书 店 ， 
浏览 一 本 书 或 一 个 音乐 集 时 ， 其 实 你 正在 访问 存储 在 某 个 数据 库 中 的 数据 。 当 你 确认 了 一 个 网 上 订购 ， 

L2 ] 你 的 订单 也 就 保存 在 了 某 个 数据 库 中 。 当 你 访问 一 个 银行 网 站 ,检索 你 的 账户 余额 和 交易 信息 时 ， 这 
些 信息 也 是 从 银行 的 数据 库 系统 中 取出 来 的 。 当 你 访问 一 个 网 站 时 ， 关 于 你 的 一 些 信息 可 能 会 从 某 个 
数据 库 中 取出 ， 并 且 选 择 出 那些 适合 显示 给 你 的 广告 。 此 外 ， 关 于 你 访问 网 络 的 数据 也 可 能 会 存储 在 
一 个 数据 库 中 。 

因此 ， 尽 管用 户 界 面 隐藏 了 访问 数据 库 的 细节 ， 大 多 数 人 甚至 没有 意识 到 他 们 正在 和 一 个 数据 库 
打交道 ， 然 而 访问 数据 库 已 经 成 为 当今 几乎 每 个 人 生活 中 不 可 默认 的 组 成 部 分 。 

也 可 以 从 另 一 个 角度 来 评判 数据 库 系统 的 重要 性 。 如 今 ， 像 Oracle 这 样 的 数据 库 系统 厂商 是 世界 
上 最 大 的 软件 公司 之 一 ， 并 且 在 微软 和 IBM 等 这 些 有 多 样 化 产品 的 公司 中 ， 数 据 库 系统 也 是 其 产品 线 
的 一 个 重要 组 成 部 分 。 


1.2 数据 库 系统 的 目标 


数据 库 系 统 作为 商业 数据 计算 机 化 管理 的 早期 方法 而 产生 。 作 为 20 世纪 60 年 代 这 类 方法 的 典型 
实例 之 一 ， 考 虑 大 学 组 织 中 的 一 个 部 分 ， 除 其 他 数据 外 ， 需 要 保存 关于 所 有 教师 、 学 生 、 系 和 开设 课 
程 的 信息 。 在 计算 机 中 保存 这 些 信 息 的 一 种 方法 是 将 它们 存放 在 操作 系统 文件 中 。 为 了 使 用 户 可 以 对 
信息 进行 操作 ， 系 统 中 应 有 一 些 对 文件 进行 操作 的 应 用 程序 ， 包 括 : 

o 增加 新 的 学 生 、 教 师 和 课程 。 

。 为 课程 注册 学 生 ， 并 产生 班级 花 名 册 。 

。 为 学 生 填 写成 绩 、 计 算 绩 点 (GPA)、 产 生成 绩 单 。 

这 些 应 用 程序 是 由 系统 程序 员 根 据 大 学 的 需求 编写 的 。 

随 着 需求 的 增长 ， 新 的 应 用 程序 被 加 入 到 系统 中 。 例 如 ， 某 大 学 决定 创建 一 个 新 的 专业 (例如 ， 计 
算 机 科学 ) ， 那 么 这 个 大 学 就 要 建立 一 个 新 的 系 并 创建 新 的 永久 性 文件 (或 在 现 有 文件 中 添加 信息 ) 来 
记录 关于 这 个 系 中 所 有 的 教师 、 这 个 专业 的 所 有 学 生 、 开 设 的 课程 、 学 位 条 件 等 信息 。 进 而 就 有 可 能 
需要 编写 新 的 应 用 程序 来 处 理 这 个 新 专业 的 特殊 规则 。 也 可 能 会 需要 编写 新 的 应 用 程序 来 处 理 大 学 中 
的 新 规则 。 因 此 ， 随 着 时 间 的 推移 ， 越 来 越 多 的 文件 和 应 用 程序 就 会 加 入 到 系统 中 。 

以 上 所 描述 的 典型 的 文件 处 理 系统 (所 e-processing system ) 是 传统 的 操作 系统 所 支持 的 。 永 久 记录 
被 存储 在 多 个 不 同 的 文件 中 ， 人 们 编写 不 同 的 应 用 程序 来 将 记录 从 有 关 文件 中 取出 或 加 入 到 适当 的 文 
件 中 。 在 数据 库 管 理 系统 (DBMS ) 出 现 以 前 ， 各 个 组 织 通常 都 采用 这 样 的 系统 来 存储 信息 。 

在 文件 处 理 系统 中 存储 组 织 信 息 的 主要 次 端 包括 : 
© 数据 的 元 余 和 不 一 致 (data redundancy and inconsistency) 。 由 于 文件 和 程序 是 在 很 长 的 一 段 时 间 
内 由 不 同 的 程序 员 创建 的 ， 不 同文 件 可 能 有 不 同 的 结构 ， 不 同 程序 可 能 采用 不 同 的 程序 设计 语 
言 写成 。 此 外 ， 相 同 的 信息 可 能 在 几 个 地 方 (文件 ) 重复 存 储 。 例 如 ， 如 果 某 学 生 有 两 个 专业 
(例如 ， 音 乐 和 数学 ) ， 该 学 生 的 地 址 和 电话 号 码 就 可 能 既 出 现在 包含 音乐 系 学 生 记 录 的 文件 
中 ， 又 出 现在 包含 数学 系 学 生 记 录 的 文件 中 。 这 种 元 余 除 了 导致 存储 和 访问 开销 增 大 外 ， 还 可 





第 1 章 引 言 3 


能 导致 数据 不 一 致 性 ( data inconsistency) ， 即 同一 数据 的 不 同 副本 不 一 致 。 例 如 ， 学 生地 址 的 更 
改 可 能 在 音乐 系 记 录 中 得 到 反映 而 在 系统 的 其 他 地 方 却 没有 。 

© 数据 访问 困难 ( difficulty in accessing data) 。 假 设 大 学 的 某 个 办 事 人 员 需 要 找 出 居住 在 某 个 特定 邮 
编 地 区 的 所 有 学 生 的 姓名 ， 于 是 他 要 求 数据 处 理 部 门生 成 这 样 的 一 个 列表 。 由 于 原始 系统 的 设 
计 者 并 未 预料 到 会 有 这 样 的 需求 ， 因 此 没有 现成 的 应 用 程序 去 满足 这 个 需求 。 但 是 ， 系 统 中 却 
有 一 个 产生 所 有 学 生 列表 的 应 用 程序 。 这 时 该 办 事 人 员 有 两 种 选择 : 一 种 是 取得 所 有 学 生 的 列 
表 并 从 中 手工 提取 所 需 信息 ， 男 一 种 是 要 求 数据 处 理 部 门 让 某 个 程序 员 编 写 相 应 的 应 用 程序 。 
这 两 种 方案 显然 都 不 太 令 人 满意 。 假 设 编写 了 相应 的 程序 ， 几 天 以 后 这 个 办 事 人 员 可 能 又 需要 
将 该 列表 减少 到 只 列 出 至 少 选 课 60 学 时 的 那些 学 生 。 可 以 预见 ， 产 生 这 样 一 个 列表 的 程序 又 不 
存在 ， 这 个 职员 就 再 次 面临 前 面 那 两 种 都 不 尽 如 人 意 的 选择 。 

这 里 需要 指出 的 是 ， 传 统 的 文件 处 理 环 境 不 支持 以 一 种 方便 而 高 效 的 方式 去 获取 所 需 数 据 。 
我 们 需要 开发 通用 的 、 能 对 变化 的 需求 做 出 更 快 反应 的 数据 检索 系统 。 

o 数据 孤立 (data isolation) 。 由 于 数据 分 散在 不 同文 件 中 ， 这 些 文件 又 可 能 具有 不 同 的 格式 ， 因 此 
编写 新 的 应 用 程序 来 检索 适当 数据 是 很 困难 的 。 

。 完整 性 问题 (integrity problem ) 。 数 据 库 中 所 存储 数据 的 值 必须 满足 某 些 特定 的 一 致 性 约束 
(consistency constraint) 。 假 设 大 学 为 每 个 系 维护 一 个 账户 ， 并 且 记 录 各 个 账户 的 余额 。 我 们 还 
假设 大 学 要 求 每 个 系 的 账户 余额 永远 不 能 低 于 零 。 开 发 者 通过 在 各 种 不 同 应 用 程序 中 加 入 适当 
的 代码 来 强制 系统 中 的 这 些 约束 。 然 而 ， 当 新 的 约束 加 入 时 ， 很 难 通过 修改 程序 来 体现 这 些 新 
的 约束 。 尤 其 是 当 约 束 涉及 不 同文 件 中 的 多 个 数据 项 时 ， 问 题 就 变 得 更 加 复杂 了 。 

© 原子 性 问题 (atomicity problem) 。 如 同 任何 别 的 设备 一 样 ， 计 算 机 系统 也 会 发 生 故 障 。 一 旦 故障 
发 生 ， 数 据 就 应 被 恢复 到 故障 发 生 以 前 的 一 致 的 状态 ， 对 很 多 应 用 来 说 ， 这 样 的 保证 是 至 关 重 | 
要 的 。 让 我 们 看 看 把 A 系 的 账户 余额 中 的 500 美元 转 入 B 系 的 账户 余额 中 的 这 样 一 个 程序 。 假 
设 在 程序 的 执行 过 程 中 发 生 了 系统 故障 ， 很 可 能 A 系 的 余额 中 减 去 的 500 美元 还 没 来 得 及 存 人 
B 系 的 余额 中 ， 这 就 造成 了 数据 库 状 态 的 不 一 致 。 显 然 ， 为 了 保证 数据 库 的 一 致 性 ， 这 里 的 借 
和 贷 两 个 操作 必须 是 要 么 都 发 生 ， 要 么 都 不 发 生 。 也 就 是 说 ， 转 账 这 个 操作 必须 是 原子 的 
它 要 么 全 部 发 生 要 么 根本 不 发 生 。 在 传统 的 文件 处 理 系 统 中 ， 保 持原 子 性 是 很 难 做 到 的 。 

。 并 发 访问 异常 ( concurrent- access anomaly) 。 为 了 提高 系统 的 总 体 性 能 以 及 加 快 响应 速度 ， 许 多 
系统 允许 多 个 用 户 同时 更 新 数据 。 实 际 上 ， 如 今 最 大 的 互联 网 零售 商 每 天 就 可 能 有 来 自 购买 者 
对 其 数据 的 数 百 万 次 访问 。 在 这 样 的 环境 中 ， 并 发 的 更 新 操作 可 能 相互 影响 ， 有 可 能 导致 数据 
的 不 一 致 。 设 A 系 的 账户 余额 中 有 10 000 美元 ， 假 如 系 里 的 两 个 职员 几乎 同时 从 系 的 账户 中 取 
款 ( 例 如 分 别 取出 500 美元 和 100 美元 ) ， 这 样 的 并 发 执行 就 可 能 使 账户 处 于 一 种 错误 的 (或 不 
一 致 的 ) 状态 。 假 设 每 个 取款 操作 对 应 执行 的 程序 是 读 取 原 始 账户 余额 ， 在 其 上 减 去 取款 的 金 
额 ， 然 后 将 结果 写 回 。 如 果 两 次 取款 的 程序 并 发 执行 ， 可 能 它们 读 到 的 余额 都 是 10 000 美元 ， 
并 将 分 别 写 回 9500 美元 和 9900 美元 。A 系 的 账户 余额 中 到 底 剩 下 9500 美元 还 是 9900 美元 视 
哪个 程序 后 写 回 结果 而 定 ， 而 实际 上 正确 的 值 应 该 是 9400 美元 。 为 了 消除 这 种 情况 发 生 的 可 
能 性 ， 系 统 必须 进行 某 种 形式 的 管理 。 但 是 ， 由 于 数据 可 能 被 多 个 不 同 的 应 用 程序 访问 ， 这 些 
程序 相互 间 事 先 又 没有 协调 ， 管 理 就 很 难 进 行 。 

作为 另 一 个 例子 ， 假 设 为 确保 注册 一 门 课 程 的 学 生 人 数 不 超过 上 限 ， 注 册 程序 维护 一 个 注 
册 了 某 门 课程 的 学 生计 数 。 当 一 个 学 生 注册 时 ， 该 程序 读 人 这 门 课程 的 当前 计数 值 ， 核 实 该 计 
数 还 没有 达到 上 限 ， 给 计数 值 加 1， 将 计数 存 回 数据 库 。 假 设 两 个 学 生 同 时 注册 ， 而 此 时 的 计 
数值 是 (例如 )39。 尽 管 两 个 学 生 都 成 功 地 注册 了 这 门 课程 ， 计 数值 应 该 是 41 ， 然 而 两 个 程序 
执行 可 能 都 读 到 值 39， 然 后 都 写 回 值 40， 导 致 不 正确 地 只 增加 了 1 个 注册 人 数 。 此 外 ,假设 该 
课程 注册 人 数 的 上 限 是 40; 在 上 面 的 例子 中 ， 两 个 学 生 都 成 功 注册 ， 就 导致 违反 了 40 个 学 生 
为 注册 上 限 的 规定 。 
。 安全 性 问题 ( security problem) 。 并 非 数据 库 系 统 的 所 有 用 户 都 可 以 访问 所 有 数据 。 例 如 在 大 学 中 ， 





4 第 1 章 5| 言 


工资 发 放 人 员 只 需要 看 到 数据 库 中 关于 财务 信息 的 那个 部 分 。 他 们 不 需要 访问 关于 学 术 记 录 的 信息 。 
但 是 ， 由 于 应 用 程序 总 是 即席 地 加 入 到 文件 处 理 系统 中 来 ， 这 样 的 安全 性 约束 难以 实现 。 
以 上 问题 以 及 一 些 其 他 问题 ， 促 进 了 数据 库 系 统 的 发 展 。 接 下 来 我 们 将 看 一 看 数据 库 系统 为 了 解 
决 上 述 在 文件 处 理 系统 中 存在 的 问题 而 提出 的 概念 和 算法 。 在 本 书 的 大 部 分 篇 幅 中 ,我 们 在 讨论 典型 
的 数据 处 理应 用 时 总 以 大 学 作为 实例 。 


1.3 数据 视图 


数据 库 系 统 是 一 些 互相 关联 的 数据 以 及 一 组 使 得 用 户 可 以 访问 和 修改 这 些 数据 的 程序 的 集合 。 数 
据 库 系统 的 一 个 主要 目的 是 给 用 户 提供 数据 的 抽象 视图 ， 也 就 是 说 ， 系 统 隐藏 关于 数据 存储 和 维护 的 
某 些 细节 。 
1.3.1 数据 抽象 
一 个 可 用 的 系统 必须 能 高 效 地 检索 数据 。 这 种 高 效 性 的 需求 促使 设计 者 在 数据 库 中 使 用 复杂 的 数 
据 结构 来 表示 数据 。 由 于 许多 数据 库 系统 的 用 户 并 未 受过 计算 机 专业 训练 ， 系 统 开发 人 员 通 过 如 下 几 
个 层次 上 的 抽象 来 对 用 户 屏蔽 复杂 性 ， 以 简化 用 户 与 系统 的 交互 : 
© 物理 层 (physical level) 。 最 低层 次 的 抽象 ， 描 述 数 据 实际 上 是 怎样 存储 的 。 物 理 层 详细 描述 复 
杂 的 底层 数据 结构 。 
© 逻辑 层 (logical level) 。 比 物理 层 层次 稍 高 的 抽象 ， 描 述 数 据 库 中 存储 什么 数据 及 这 些 数据 间 存 
在 什么 关系 。 这 样 逻 辑 层 就 通过 少量 相对 简单 的 结构 描述 了 整个 数据 库 。 虽 然 逻辑 层 的 简单 结 
构 的 实现 可 能 涉及 复杂 的 物理 层 结构 ， 但 逻辑 层 的 用 户 不 必 知 道 这 样 的 复杂 性 。 这 称 作物 理 数 
据 独 立 性 (physical data independence) 。 数 据 库 管理 员 使 用 抽象 的 逻辑 层 ， 他 必须 确定 数据 库 中 
应 该 保存 哪些 信息 。 
。 视图 层 (view level) 。 最 高 层次 的 抽象 ， 只 描述 整个 数据 库 的 某 个 部 分 。 尽 管 在 逻辑 层 使 用 了 比 
较 简 单 的 结构 ， 但 由 于 一 个 大 型 数据 库 中 所 存 信息 的 多 样 性 ， 仍 存在 一 定 程度 的 复杂 性 。 数 据 
库 系统 的 很 多 用 户 并 不 需要 关心 所 有 的 信 
B, 而 只 需要 访问 数据 库 的 一 部 分 。 视 图 | ba 
层 抽象 的 定义 正 是 为 了 使 这 样 的 用 户 与 系 | 视图 1 视图 2 | .| 视图 。 
统 的 交互 更 简单 。 系 统 可 以 为 同一 数据 库 ， FT [ae | 
提供 多 个 视图 。 7 
这 三 层 抽 象 的 相互 关系 如 图 1-1 所 示 。 Pee 
通过 与 程序 设计 语言 中 数据 类 型 的 概念 进行 类 
比 ， 我 们 可 以 弄 清 各 层 抽象 间 的 区 别 。 大 多 数 高 级 物理 层 
程序 设计 语言 支持 结构 化 类 型 的 概念 。 例 如 ， 我 们 
WL Lan Pigs ©: 图 1-1 数据 抽象 的 三 个 层次 
type instructor = record 
ID; char(5) ; 
name; char(20) ; 
dept_ name; char(20) ; 


salary; numeric(8, 2) ; 
end; 


以 上 代码 定义 了 一 个 具有 四 个 字段 的 新 记录 instructor。 每 个 字段 有 一 个 字段 名 和 所 属 类 型 。 对 一 
个 大 学 来 说 ， 可 能 包括 几 个 这 样 的 记录 类 型 : 

e department， 包 含 字 段 dept_name, building 和 budget. 

© course, A FE course_id, title, dept_name 和 credits. 

















名 ”实际 的 类 型 说 明 依 赖 于 所 使 用 的 语言 。C 和 C ++ 使 用 struct 说 明 。Java 没有 这 样 的 说 明 ， 而 可 以 定义 一 个 简单 的 
类 来 起 到 同样 的 作用 。 
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e student, WAFF ID, name, dept_name 和 tot_cred。 

在 物理 层 ， 一 个 instructor, department 或 student 记录 可 能 被 描述 为 连续 存储 位 置 组 成 的 存储 块 。 编 
译 器 为 程序 设计 人 员 屏 项 了 这 一 层 的 细节 。 与 此 类 似 ， 数据库 系统 为 数据 库 程序 设计 人 员 屏 项 了 许多 
最 底层 的 存储 细节 。 而 数据 库 管 理 员 可 能 需要 了 解数 据 物 理 组 织 的 某 些 细 节 。 

在 逻辑 层 ， 每 个 这 样 的 记录 通过 类 型 定义 进行 描述 ， 正 如 前 面 的 代码 段 所 示 。 在 逻辑 层 上 同时 还 
要 定义 这 些 记录 类 型 的 相互 关系 。 程 序 设计 人 员 正 是 在 这 个 抽象 层次 上 使 用 某 种 程序 设计 语言 进行 工 
作 。 与 此 类 似 ， 数 据 库 管理 员 常 常 在 这 个 抽象 层次 上 工作 。 

最 后 ， 在 视图 层 ， 计 算 机 用 户 看 见 的 是 为 其 屏蔽 了 数据 类 型 细节 的 一 组 应 用 程序 。 与 此 类 似 ， 视 
图 层 上 定义 了 数据 库 的 多 个 视图 ， 数 据 库 用 户 看 到 的 是 这 些 视图 。 除 了 屏蔽 数据 库 的 逻辑 层 细节 以 外 ， 
视图 还 提供 了 防止 用 户 访问 数据 库 的 某 些 部 分 的 安全 性 机 制 。 例 如 ， 大 学 注册 办 公 室 的 职员 只 能 看 见 
数据 库 中 关于 学 生 的 那 部 分 信息 ， 而 不 能 访问 涉及 教师 工资 的 信息 。 

1.3.2 实例 和 模式 

随 着 时 间 的 推移 ， 信 息 会 被 插入 或 删除 ， 数 据 库 也 就 发 生 了 改变 。 特 定时 刻 存储 在 数据 库 中 的 信 
息 的 集合 称 作 数据 库 的 一 个 实例 (instance) 。 而 数据 库 的 总 体 设计 称 作 数据 库 模 式 (schema) 。 数 据 库 模 
式 即使 发 生变 化 ， 也 不 频繁 。 

数据 库 模 式 和 实例 的 概念 可 以 通过 与 用 程序 设计 语言 写 出 的 程序 进行 类 比 来 理解 。 数 据 库 模 式 对 
应 于 程序 设计 语言 中 的 变量 声明 (以 及 与 之 关联 的 类 型 的 定义 ) 。 每 个 变量 在 特定 的 时 刻 会 有 特定 的 
值 ， 程 序 中 变量 在 某 一 时 刻 的 值 对 应 于 数据 库 模 式 的 一 个 实例 。 

根据 前 面 我 们 所 讨论 的 不 同 的 抽象 层次 ， 数据库 系 统 可 以 分 为 几 种 不 同 的 模式 。 物 理 模式 
(physical schema) 在 物理 层 描 述 数据 库 的 设计 ， 而 逻辑 模式 (logical schema) 则 在 逻辑 层 描述 数据 库 的 设 
计 。 数 据 库 在 视图 层 也 可 以 有 几 种 模式 ， 有 时 称 为 子 模 式 (subschema) ， 它 描述 了 数据 库 的 不 同 视图 。 

在 这 些 模 式 中 ， 因 为 程序 员 使 用 逻辑 模式 来 构造 数据 库 应 用 程序 ， 从 其 对 应 用 程序 的 效果 来 看 ， 
逻辑 模式 是 目前 最 重要 的 一 种 模式 。 物 理 模 式 隐藏 在 逻辑 模式 下 ， 并 且 通 常 可 以 在 应 用 程序 丝毫 不 受 
影响 的 情况 下 被 轻易 地 更 改 。 应 用 程序 如 果 不 依赖 于 物理 模式 ， 它 们 就 被 称 为 是 具有 物理 数据 独立 性 
(physical data independence) ， 因 此 即使 物理 模式 改变 了 它们 也 无 需 重 写 。 

在 介绍 完 下 一 节 数 据 模型 的 概念 后 ， 我 们 将 学 习 描述 模式 的 语言 。 

1.3.3 数据 模型 

数据 库 结 构 的 基础 是 数据 模型 ( data model) 。 数 据 模型 是 一 个 描述 数据 、 数 据 联系 、 数 据 语义 以 及 
一 致 性 约束 的 概念 工具 的 集合 。 数 据 模型 提供 了 一 种 描述 物理 层 、 逻 辑 层 以 及 视图 层 数据 库 设 计 的 
方式 。 

下 文中 ,我 们 将 提 到 几 种 不 同 的 数据 模型 。 数 据 模型 可 被 划分 为 四 类 : 

o 关系 模型 (relational model) 。 关 系 模 型 用 表 的 集合 来 表示 数据 和 数据 间 的 联系 。 每 个 表 有 多 个 

列 ， 每 列 有 唯一 的 列 名 。 关 系 模型 是 基于 记录 的 模型 的 一 种 。 基 于 记录 的 模型 的 名 称 的 由 来 是 
因为 数据 库 是 由 若干 种 固定 格式 的 记录 来 构成 的 。 每 个 表 包 含 某 种 特定 类 型 的 记录 。 每 个 记录 
类 型 定义 了 固定 数目 的 字段 (或 属性 ) 。 表 的 列 对 应 于 记录 类 型 的 属性 。 关 系数 据 模型 是 使 用 最 
广泛 的 数据 模型 ， 当 今 大 量 的 数据 库 系 统 都 基于 这 种 关系 模型 。 第 2 ~ 8 章 将 详细 介绍 关系 
模型 。 

© 实体 - 联系 模型 (entity-relationship model) 。 实 体 - 联系 (上 E-R ) 数据 模型 基于 对 现实 世界 的 这 样 

一 种 认识 : 现实 世界 由 一 组 称 作 实 体 的 基本 对 象 以 及 这 些 对 象 间 的 联系 构成 。 实 体 是 现实 世界 
中 可 区 别 于 其 他 对 象 的 一 件 “ 事 情 ” 或 一 个 “物体 ”。 实 体 - 联系 模型 被 广泛 用 于 数据 库 设 计 。 
第 7 章 将 详细 探讨 该 模型 。 

© 基于 对 象 的 数据 模型 ( object-based data model) 。 面向 对 象 的 程序 设计 (特别 是 Java、C++ 或 C#) 

已 经 成 为 占 主 导 地 位 的 软件 开发 方法 。 这 导致 面向 对 象 数据 模型 的 发 展 ， 面 向 对 象 的 数据 模型 
可 以 看 成 是 E-R 模型 增加 了 封装 、 方 法 (函数) 和 对 象 标识 等 概念 后 的 扩展 。 对 象 -关系 数据 模 
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型 结合 了 面向 对 象 的 数据 模型 和 关系 数据 模型 的 特征 。 第 22 章 将 讲述 对 象 - 关系 数据 模型 。 
© 半 结 构 化 数据 模型 ( semistructured data model) 。 半 结构 化 数据 模型 允许 那些 相同 类 型 的 数据 项 
含有 不 同 的 属性 集 的 数据 定义 。 这 和 早先 提 到 的 数据 模型 形成 了 对 比 : 在 那些 数据 模型 中 所 有 
某 种 特定 类 型 的 数据 项 必须 有 相同 的 属性 集 。 可 扩展 标记 语言 (eXtensihle Markup Language, 
XML) 被 广泛 地 用 来 表示 半 结 构 化 数据 。 这 将 在 第 23 章 中 详 述 。 
在 历史 上 ， 网 状 数据 模型 ( network data model) 和 层次 数据 模型 ( hierarchical data model) 先 于 关系 数 
据 模 型 出 现 。 这 些 模型 和 底层 的 实现 联系 很 紧密 ， 并 且 使 数据 建 模 复 杂 化 。 因 此 ， 除 了 在 某 些 地 方 仍 
在 使 用 的 旧 数 据 库 中 之 外 ， 如 今 它们 已 经 很 少 被 使 用 了 。 对 此 感 兴趣 的 读者 ， 在 附录 D 和 附录 下 中 有 
相关 的 概述 。 


1.4 数据 库 语言 


数据 库 系统 提供 数据 定义 语言 ( data-definition language) 来 定义 数据 库 模 式 ， 以 及 数据 操纵 语言 
(data-manipulation language) 来 表达 数据 库 的 查询 和 更 新 。 而 实际 上 ， 数 据 定义 和 数据 操纵 语言 并 不 是 
两 种 分 离 的 语言 ， 相 反 地 ， 它 们 简单 地 构成 了 单一 的 数据 库 语言 (如 广泛 使 用 的 SQL 语言 ) 的 不 同 
部 分 。 
1.4.1 数据 操纵 语言 

数据 操纵 语言 (Data-Manipulation Language，DML) 是 这 样 一 种 语言 ， 它 使 得 用 户 可 以 访问 或 操纵 那 
些 按照 某 种 适当 的 数据 模型 组 织 起 来 的 数据 。 有 以 下 访问 类 型 : 

© 对 存储 在 数据 库 中 的 信息 进行 检索 。 

。 向 数据 库 中 插入 新 的 信息 。 

© 从 数据 库 中 删除 信息 。 

。 修改 数据 库 中 存储 的 信息 。 

通常 有 两 类 基本 的 数据 操纵 语言 : 

o 过 程 化 DML( procedural DML) 要求 用 户 指定 需要 什么 数据 以 及 如 何 获 得 这 些 数 据 。 

e 声明 式 DML( declarative DML) (也 称 为 非 过 程 化 DML) 只 要 求 用 户 指定 需要 什么 数据 ， 而 不 指 
明 如 何 获得 这 些 数据 - 

通常 声明 式 DML 比 过 程 化 DML 易学 易 用 。 但 是 ， 由 于 用 户 不 必 指 明 如 何 获得 数据 ， 数 据 库 系统 
必须 找 出 一 种 访问 数据 的 高 效 途 径 。 

查询 (query) 是 要 求 对 信息 进行 检索 的 语句 。DML 中 涉及 信息 检索 的 部 分 称 作 查 询 语 言 ( query 
language) 。 实 践 中 常 把 查询 语言 和 数据 操纵 语言 作为 同义词 使 用 ， 尽 管 从 技术 上 来 说 这 并 不 正确 。 

目前 有 很 多 商业 性 的 或 者 实验 性 的 数据 库 查 询 语言 ， 我 们 在 第 3 章 、 第 4 章 和 第 5 章 中 将 学 习 最 
广泛 使 用 的 查询 语言 SQL。 我 们 还 会 在 第 6 章 中 学 习 一 些 其 他 的 查询 语言 。 

我 们 在 1. 3 节 讨 论 的 抽象 层次 不 仅 可 以 用 于 定义 或 构造 数据 ， 而 且 还 可 以 用 于 操纵 数据 。 在 物理 
层 ， 我 们 必须 定义 可 高 效 访 问 数据 的 算法 ; 在 更 高 的 抽象 层次 ， 我 们 则 强调 易 用 性 。 目 标 是 使 人 们 能 
够 更 有 效 地 和 系统 交互 。 数 据 库 系统 的 查询 处 理 器 部 件 (我 们 将 在 第 12 章 和 第 13 章 学 习 ) 将 DML 的 查 
询 语句 翻译 成 数据 库 系 统 物理 层 的 动作 序列 。 
1.4.2 数据 定义 语言 

数据 库 模 式 是 通过 一 系列 定义 来 说 明 的 ,这 些 定义 由 一 种 称 作 数据 定义 语言 ( Data-Definition 
Language, DDL) 的 特殊 语言 来 表达 。DDL 也 可 用 于 定义 数据 的 其 他 特征 。 

数据 库 系统 所 使 用 的 存储 结构 和 访问 方式 是 通过 一 系列 特殊 的 DDL 语句 来 说 明 的 ， 这 种 特殊 的 
DDL 称 作 数据 存储 和 定义 (data storage and definition) 语言 。 这 些 语句 定义 了 数据 库 模 式 的 实现 细节 ， 而 
这 些 细节 对 用 户 来 说 通常 是 不 可 见 的 。 

存储 在 数据 库 中 的 数据 值 必须 满足 某 些 一 致 性 约束 (consistency constraint)。 例 如 ,假设 大 学 要 求 
一 个 系 的 账户 余额 必须 不 能 为 负 值 。DDL 语言 提供 了 指定 这 种 约束 的 工具 。 每 当 数据 库 被 更 新 时 ， 数 
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据 库 系统 都 会 检查 这 些 约束 。 通 常 ， 约 东 可 以 是 关于 数据 库 的 任意 谓词 。 然 而 ， 如 果 要 测试 任意 谓词 ， 
可 能 代价 比较 高 。 因 此 ， 数 据 库 系 统 实现 可 以 以 最 小 代价 测试 的 完整 性 约束 。 
© 域 约束 ( domain constraint) 。 每 个 属性 都 必须 对 应 于 一 个 所 有 可 能 的 取 值 构成 的 域 ( 例 如 ， 整 数 


型 、 字 符 型 、 日 期 /时 间 型 ) 。 声 明 一 种 属性 属于 某 种 具体 的 域 就 相当 于 约 东 它 可 以 取 的 值 。 域 
约束 是 完整 性 约束 的 最 基本 形式 。 每 当 有 新 数据 项 插 和 人 到 数据 库 中 ， 系 统 就 能 方便 地 进行 域 约 
OR par ill 。 

参照 完整 性 (referential integrity) 。 我 们 常常 希望 ， 一 个 关系 中 给 定 属性 集 上 的 取 值 也 在 另 一 关 
系 的 某 一 属性 集 的 取 值 中 出 现 ( 参 照 完整 性 )。 例 如 ， 每 门 课程 所 列 出 的 系 必须 是 实际 存在 的 
系 。 更 准确 地 说 ， 一 个 course 记录 中 的 dept_name 值 必须 出 现在 department 关系 中 的 某 个 记录 的 
dept_name 属性 中 。 数 据 库 的 修改 会 导致 参照 完整 性 的 破坏 。 当 参照 完整 性 约束 被 违反 时 ， 通 
常 的 处 理 是 拒绝 执行 导致 完整 性 被 破坏 的 操作 。 

断言 ( assertion) 。 一 个 断言 就 是 数据 库 需 要 时 刻 满足 的 某 一 条 件 。 域 约束 和 参照 完整 性 约束 是 
断言 的 特殊 形式 。 然 而 ， 还 有 许多 约 东 不 能 仅 用 这 几 种 特殊 形式 表达 。 例 如 ,“ 每 一 学 期 每 一 
个 系 必须 至 少 开设 5 门 课 程 ”， 必 须 表达 成 一 个 断言 。 断 言 创 建 以 后 ， 系 统 会 检测 其 有 效 性 。 
如 果断 言 有 效 ， 则 以 后 只 有 不 破坏 断言 的 数据 库 更 新 才 被 允许 。 

授权 (authorization ) 。 我 们 也 许 想 对 用 户 加 以 区 别 ， 对 于 不 同 的 用 户 在 数据 库 中 的 不 同 数据 值 上 
允许 不 同 的 访问 类 型 。 这 些 区 别 以 授权 来 表达 ， 最 常见 的 是 : 读 权 限 (read authorization), YF 
读 取 数据 ， 但 不 能 修改 数据 ; 插入 权限 (insert authorization) ， 允 许 插入 新 数据 ， 但 不 允许 修改 
已 有 数据 ; 更 新 权限 (update authorization ) ， 人 允许 修改 ， 但 不 能 删除 数据 ; 删除 权限 ( delete 
authorization) ， 人 允许 删除 数据 。 我 们 可 以 赋予 用 户 所 有 的 权限 ， 或 者 没有 或 部 分 拥有 这 些 权限 。 


正如 其 他 任何 程序 设计 语言 一 样 ，DDL 以 一 些 指令 (语句 ) 作 为 输入 ， 生 成 一 些 输出 。DDL 的 输出 
放 在 数据 字典 ( data dictionary) 中 ， 数 据 字 典 包含 了 元 数据 (metadata) ， 元 数据 是 关于 数据 的 数据 。 可 把 
数据 字典 看 作 一 种 特殊 的 表 ， 这 种 表 只 能 由 数据 库 系统 本 身 ( 不 是 常规 的 用 户 ) 来 访问 和 修改 。 在 读 取 


和 修改 实际 的 数据 前 ， 数 据 库 系统 先 要 参考 数据 字典 。 
1.5 关系 数据 库 











TD | name deptname | salary | 
关系 数据 库 基于 关系 模型 ， 使 用 一 系列 表 来 表达 数据 | 22222 | Einstein | Physics 95000 
` +r E ray tye 12121 | Wu Finance 90000 
以 及 这 些 数据 之 间 的 联 系 。 关 系数 据 库 也 包括 DML 和 39343 | ElSaid ees prs 
DDL, 在 第 2 章 中 ,我 们 简单 介绍 关系 模型 的 基本 概念 。 | 45565 | Katz Comp. Sci. | 75000 
} ; eS OPH Sy 98345 | Kim Elec. Eng. 80000 
多 数 的 商用 关系 数据 库 系 统 使 用 SQL 语言 ， 该 语言 将 在 76756 | Crick Biology 72000 
第 .3 章 、 第 4 章 和 第 5 章 中 详细 介绍 。 第 6 章 我 们 将 讨论 10101 | Srinivasan | Comp. Sci. | 65000 
fs BY age 58583 | Califieri History 62000 
其 他 有 影响 的 语言 。 83821 | Brandt Comp. Sci. | 92000 
1.5.1 x 15151 | Mozart Music 40000 
pan 33456 | Gold Physics 87000 
每 个 表 有 多 个 列 ， 每 个 列 有 唯一 的 名 字 。 图 1-2 展示 了 76543 | Singh Finance 80000 


一 个 关系 数据 库 示例 ， 它 由 两 个 表 组 成 : 其 一 给 出 大 学 教师 
的 细节 ， 其 二 给 出 大 学 中 各 个 系 的 细节 。 


第 一 个 表 是 instructor 表 ， 表 示 ， 例 如 ，ID 为 22222 的 名 dept name | building | budget 

叫 Einstein 的 教师 是 物理 系 的 成 员 ， 他 的 年 薪 为 95 000 美元 。 Comp. Sci. Taylor 100000 

第 二 个 表 是 department 表 ， 表 示 ， 例 如 ， 生 物 系 在 Watson 大 ee | Te | 85000 

楼 ， 经 费 预 算 为 90 000 美元 。 当 然 ， 一 个 现实 世界 的 大 学 会 Music “| Packard | 80000 
in. Ci ainter 

有 更 多 的 系 和 教师 。 在 本 书 中 ， 我 们 使 用 小 型 的 表 来 描述 概 History | Painter | 50000 

念 。 相 同 模式 的 更 大 型 的 例子 可 以 在 联机 的 版 本 中 得 到 。 Physics | Watson | .70000 


关系 模型 是 基于 记录 的 模型 的 一 个 实例 。 基 于 记录 的 模 
型 ， 之 所 以 有 此 称谓 ， 是 因为 数据 库 的 结构 是 几 种 固定 格式 
的 记录 。 每 个 表 包 含 一 种 特定 类 型 的 记录 。 每 种 记录 类 型 定 
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b) department 表 
图 1-2 关系 数据 库 的 一 个 实例 
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义 固定 数目 的 字段 或 属性 。 表 的 列 对 应 记录 类 型 的 属性 。 

不 难看 出 ， 表 可 以 如 何 存储 在 文件 中 。 例 如 ， 一 个 特殊 的 字符 ( 比如 逗号 ) 可 以 用 来 分 隔 记录 的 不 
同属 性 ， 另 一 特殊 的 字符 ( 比如 换行 符 ) 可 以 用 来 分 隔 记录 。 对 于 数据 库 的 开发 者 和 用 户 ， 关 系 模型 屏 
责 了 这 些 低层 实现 细节 。 

我 们 也 注意 到 ， 在 关系 模型 中 ， 有 可 能 创建 一 些 有 问题 的 模式 ， 比 如 出 现 不 必要 的 宛 余 信息 。 例 
如 ， 假 设 我 们 把 系 的 budget 存储 为 instructor 记录 的 一 个 属性 。 那 么 ， 每 当 一 个 经 费 预算 的 值 (例如 ， 物 

理 系 的 经 费 预 算 ) 发 生变 化 时 ， 这 个 变化 必须 被 反映 在 与 物理 系 相关 联 的 所 有 教员 记录 中 。 在 第 8 章 ， 
我 们 将 研究 如 何 区 分 好 的 和 不 好 的 模式 设计 。 
1.5.2 数据 操纵 语言 

SQL 查询 语言 是 非 过 程 化 的 。 它 以 几 个 表 作为 输入 (也 可 能 只 有 一 个 ) ， 总 是 仅 返回 一 个 表 。 下 面 

是 一 个 SQL 查询 的 例子 ， 它 找 出 历史 系 的 所 有 教员 的 名 字 : 


select instructor. name 
from instructor 
where instructor. dept_name = ‘History’ ; 


这 个 查询 指定 了 从 instructor 表 中 要 取 回 的 是 dept_name 为 History 的 那些 行 ， 并 且 这 些 行 的 name 属 
性 要 显示 出 来 。 更 具体 点 ， 执 行 本 查询 的 结果 是 一 个 表 ， 它 有 一 列 name 和 若干 行 ， 每 一 行 都 是 dept_ 
name 为 History 的 一 个 教员 的 名 字 。 如 果 这 个 查询 运行 在 图 1-2 中 的 表 上 ， 那 么 结果 将 有 两 行 ， 一 个 是 
名 字 El Said， 另 一 个 是 名 字 Califieri, 
查询 可 以 涉及 来 自 不 止 一 个 表 的 信息 。 例 如 ， 下 面 的 查询 将 找 出 与 经 费 预算 超过 95 000 美元 的 系 
相关 联 的 所 有 教员 的 ID 和 系 名 。 


select instructor. ID, department. dept_name 

from instructor, department 

where instructor. dept_name = department. dept_name and 
department. budget > 95000 ; 


如 果 上 述 查 询 运 行 在 图 1-2 中 的 表 上 ， 那 么 系统 将 会 发 现 ， 有 两 个 系 的 经 费 预 算 超过 95 000 美 
元 一 一 计算 机 科学 系 和 金融 系 ; 这 些 系 里 有 5 位 教员 。 于 是 ,结果 将 由 一 个 表 组 成 ， 这 个 表 有 两 列 
(ID, dept_name ) 和 五 行 (12121, Finance), (45565, Computer Science) (10101, Computer Science ) 、 
(83821, Computer Science) 、(76543 Finance) 。 


1.5.3 数据 定义 语言 
SQL 提供 了 一 个 丰富 的 DDL 语言 ， 通 过 它 ， 我 们 可 以 定义 表 、 完 整 性 约束 、 断 言 ， 等 等 。 
例如 ， 以 下 的 SQL DDL 语句 定义 了 department 表 : 
create table department 
(dept_name  char(20) , 
_ building char(15 ) ， 
budget numeric(12, 2)); 
上 面 的 DDL 语句 执行 的 结果 就 是 创建 了 department R, HRA 3 个 列 : dept_name, building 和 budget , 
每 个 列 有 一 个 与 之 相关 联 的 数据 类 型 。 在 第 3 章 我 们 将 更 详细 地 讨论 数据 类 型 。 另 外 ，DDL 语句 还 更 
新 了 数据 字典 ， 它 包含 元 数据 ( 见 1.4. 2 节 ) 。 表 的 模式 就 是 元 数据 的 一 个 例子 。 
1.5.4 来 自 应 用 程序 的 数据 库 访问 
SQL 不 像 一 个 通用 的 图 灵机 那么 强大 ; 即 ， 有 一 些 计 算 可 以 用 通用 的 程序 设计 语言 来 表达 ， 但 无 
法 通过 SQL 来 表达 。SQL 还 不 支持 诸如 从 用 户 那 儿 输入 、 输 出 到 显示 器 ， 或 者 通过 网 络 通信 这 样 的 动 
作 。 这 样 的 计算 和 动作 必须 用 一 种 宿主 语言 来 写 ， 比 如 C、C ++ 或 Java， 在 其 中 使 用 艇 入 式 的 SQL 查 
询 来 访问 数据 库 中 的 数据 。 应 用 程序 (application program ) 在 这 里 是 指 以 这 种 方式 与 数据 库 进 行 交 互 的 
程序 。 在 大 学 系统 的 例子 中 ， 就 是 那些 使 学 生 能 够 注册 课程 、 产 生 课 程 花 名 册 、 计 算 学 生 的 GPA、 产 
生 工 资 支票 等 的 程序 。 
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为 了 访问 数据 库 ，DML 语句 需要 由 宿主 语言 来 执行 。 有 两 种 途径 可 以 做 到 这 一 点 : 

。 一 种 是 通过 提供 应 用 程序 接口 (过 程 集 ) ， 它 可 以 用 来 将 DML 和 DDL 的 语句 发 送 给 数据 库 ， 再 
取 回 结果 。 

与 C 语言 一 起 使 用 的 开放 数据 库 连 接 (ODBC ) 标 准 ， 是 一 种 常用 的 应 用 程序 接口 标准 。 

Java 数据 库 连 接 (JDBC ) 标 准 为 ,Java 语言 提供 了 相应 的 特性 。 

。 另 一 种 是 通过 扩展 宿主 语言 的 语法 ， 在 宿主 语言 的 程序 中 嵌入 DML 调用 。 通 常用 一 个 特殊 字 
符 作为 DML 调用 的 开始 ， 并 且 通 过 预 处 理 器 ， 称 为 DML 预 编译 器 ( DML precompiler) ， 来 将 
DML 语句 转变 成 宿主 语言 中 的 过 程 调用 。 


1.6 数据 库 设计 


数据 库 系统 被 设计 用 来 管理 大 量 的 信息 。 这 些 大 量 的 信息 并 不 是 孤立 存在 的 ， 而 是 企业 行为 的 一 
部 分 ; 企业 的 终端 产品 可 以 是 从 数据 库 中 得 到 的 信息 ， 或 者 是 某 种 设备 或 服务 ， 数 据 库 对 它们 起 到 支 
持 的 作用 。 

数据 库 设 计 的 主要 内 容 是 数据 库 模式 的 设计 。 为 设计 一 个 满足 企业 需求 模型 的 完整 的 数据 库 应 用 
环境 还 要 考虑 更 多 的 问题 。 在 本 书 中 ， 我 们 先 着 重 讨论 数据 库 查 询 语句 的 书写 以 及 数据 库 模 式 的 设计 ， 
第 9 章 将 讨论 应 用 设计 的 整个 过 程 。 

1.6.1 设计 过 程 

高 层 的 数据 模型 为 数据 库 设计 者 提供 了 一 个 概念 框架 ， 去 说 明 数 据 库 用 户 的 数据 需求 ， 以 及 将 怎 
样 构造 数据 库 结 构 以 满足 这 些 需求 。 因 此 ， 数 据 库 设 计 的 初始 阶段 是 全 面 刻 画 预期 的 数据 库 用 户 的 数 
据 需 求 。 为 了 完成 这 个 任务 ， 数 据 库 设计 者 有 必要 和 领域 专家 、 数 据 库 用 户 广 泛 地 交流 。 这 个 阶段 的 
成 果 是 制定 出 用 户 需 求 的 规格 文档 。 

下 一 步 ， 设 计 者 选择 一 个 数据 模型 ， 并 运用 该 选 定 的 数据 模型 的 概念 ， 将 那些 需求 转换 成 一 个 数据 
库 的 概念 模式 。 在 这 个 概念 设计 (conceptual-design) 阶段 开发 出 来 的 模式 提供 了 企业 的 详细 概述 。 设 计 者 
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再 复审 这 个 模式 ， 确 保 所 有 的 数据 需求 都 满足 并 且 相 互 之 间 没 有 冲突 ， 在 检查 过 程 中 设计 者 也 可 以 去 掉 [15 | 


一 些 元 余 的 特性 。 这 一 阶段 的 重点 是 描述 数据 以 及 它们 之 间 的 联系 ， 而 不 是 指定 物理 的 存储 细节 。 

从 关系 模型 的 角度 来 看 ， 概 念 设计 阶段 涉及 决定 数据 库 中 应 该 包括 哪些 属性 ， 以 及 如 何 将 这 些 属 
性 组 织 到 多 个 表 中 。 前 者 基本 上 是 商业 的 决策 ， 在 本 书 中 我 们 不 进一步 讨论 。 而 后 者 主要 是 计算 机 科 
学 的 问题 ， 解 决 这 个 问题 主要 有 两 种 方法 : 一 种 是 使 用 实体 - 联系 模型 ( 见 1. 6.3 节 ) ， 另 一 种 是 引入 
一 套 算法 (通称 为 规范 化 ) ， 这 套 算 法 将 所 有 属性 集 作 为 输入 ， 生 成 一 组 关系 表 ( 见 1.6.4 节 )。 

一 个 开发 完全 的 概念 模式 还 将 指出 企业 的 功能 需求 。 在 功能 需求 说 明 ( specification of functional 
requirement) 中 ， 用 户 描述 数据 之 上 的 各 种 操作 (或 事务 ) ， 例 如 更 新 数据 、 检 索 特 定 的 数据 、 删 除数 据 
等 。 在 概念 设计 的 这 个 阶段 ， 设 计 者 可 以 对 模式 进行 复审 ， 确 保 它 满足 功 能 需求 。 

现在 ， 将 抽象 数据 模型 转换 到 数据 库 实 现 进 入 最 后 两 个 设计 阶段 。 在 逻辑 设计 阶段 (logical-design 
phrase) ， 设 计 者 将 高 层 的 概念 模式 映射 到 要 使 用 的 数据 库 系 统 的 实现 数据 模型 上 ; 然后 设计 者 将 得 到 
的 特定 于 系统 的 数据 库 模 式 用 到 物理 设计 阶段 (physical-design phrase) 中 ， 在 这 个 阶段 中 指定 数据 库 的 
物理 特性 ， 这 些 特 性 包括 文件 组 织 的 形式 以 及 内 部 的 存储 结构 ， 这 些 内 容 将 在 第 10 章 中 讨论 。 
1.6.2 大 学 机 构 的 数据 库 设计 

为 了 阐明 设计 过 程 ， 我 们 来 看 如 何 为 大 学 做 数据 库 设 计 。 初 始 的 用 户 需求 说 明 可 以 基于 与 数据 库 
用 户 的 交流 以 及 设计 者 自己 对 大 学 机 构 的 分 析 。 这 个 设计 阶段 中 的 需求 描述 是 制定 数据 库 的 概念 结构 
的 基础 。 以 下 是 大 学 的 主要 特性 : 

。 大 学 分 成 多 个 系 。 每 个 系 由 自己 唯一 的 名 字 ( dept_name) 来 标识 ， 坐 落 在 特定 的 建筑 物 

(building) 中 ， 有 它 的 经 费 预 算 (budget) 。 

© 每 一 个 系 有 一 个 开设 课程 列表 。 每 门 课程 有 课程 号 (course_id)、 课 程 名 (title)、 系 名 (dept_ 

name) 和 学 分 (credits) ， 还 可 能 有 先 修 要 求 (prerequisites ) 。 
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e 教师 由 个 人 唯一 的 标识 号 (了 奶 ) 来 标识 。 每 位 教师 有 姓名 (name) 、 所 在 的 系 (dept_name) 和 工资 


(salary) 。 
e 学 生 由 个 人 唯一 的 标识 号 ( 1D) 来 标识 。 每 位 学 生 有 姓名 (name) 、 主 修 的 系 ( dept_name) 和 已 修 
学 分 数 (tot_cred) 。 


© 大 学 维护 一 个 教室 列表 ， 详细 说 明 楼 名 ( building) 、 房 间 号 (room_number) 和 容量 (capacity) ， 
© 大 学 维护 开设 的 所 有 课程 (开课 ) 的 列表 。 每 次 开课 由 课程 号 (course_id)、 开 课 号 (sec_id)、 年 
(year) 和 学 期 (semester) 来 标识 ， 与 之 相关 联 的 有 学 期 (semester)、 年 (year)、 楼 名 (building )、 
房间 号 (room_number) 和 时 段 号 (time_slot_id， 即 上 课 的 时 间 ) 

© 系 有 一 个 教学 任务 列表 ， 说 明 每 位 教师 的 授课 情况 。 

。 大 学 有 一 个 所 有 学 生 课程 注册 的 列表 ， 说 明 每 位 学 生 在 哪些 课程 的 哪 次 开课 中 注册 了 

一 个 真正 的 大 学 数据 库 会 比 上 述 的 设计 复杂 得 多 。 然 而 ， 我 们 就 用 这 个 简化 了 的 模型 来 帮助 你 理 
解 概念 思想 ， 避 免 你 迷失 在 复杂 设计 的 细节 中 。 
1.6.3 实体 -联系 模型 

实体 - 联系 (E-R) 数 据 模型 使 用 一 组 称 作 实体 的 基本 对 象 ， 以 及 这 些 对 象 间 的 联系 。 实 体 是 现实 
世界 中 可 区 别 于 其 他 对 象 的 一 件 “ 事 情 ” 或 一 个 “物体 ”。 例 如 ， 每 个 人 是 一 个 实体 ， 每 个 银行 账户 也 是 
一 个 实体 。 

数据 库 中 实体 通过 属性 ( attribute ) 集 合 来 描述 。 例 如 , 属性 dept_name, building 与 budget 可 以 描述 
大 学 中 的 一 个 系 ， 并 且 它 们 也 组 成 了 department 实体 集 的 属性 。 类 似 地 ， 属 性 ID. name 和 salary 可 以 
描述 instructor KK, © 

我 们 用 额外 的 属性 ID 来 唯一 标识 教师 ( 因为 可 能 存在 两 位 教师 有 相同 的 名 字 和 相同 的 工资 )。 必 
须 给 每 位 教师 分 配 唯一 的 教师 标识 。 在 美国 ， 许 多 机 构 用 一 个 人 的 社会 保障 号 ( 它 是 美国 政府 分 配给 每 
个 美国 人 的 一 个 唯一 的 号 码 ) 作 为 他 的 唯一 标识 。 

联系 (relationship) 是 几 个 实体 之 间 的 关联 。 例 如 ，member 联系 将 一 位 教师 和 她 所 在 的 系 关 联 在 一 
起 。 同 一 类 型 的 所 有 实体 的 集合 称 作 实体 集 (entity set), ， 同 一 类 型 的 所 有 联系 的 集合 称 作 联系 集 
(relationship set) 。 

数据 库 的 总 体 逻 辑 结 构 ( 模 式 ) 可 以 用 实体 -联系 图 (entity- relationship diagram, E-R 图 ) 进行 图 形 
化 表示 。 有 几 种 方法 来 画 这 样 的 图 。 最 常用 的 方法 之 一 是 采用 统一 建 模 语言 (Unified Modeling 
Language，UML) 。 在 我 们 使 用 的 基于 UML 的 符号 中 ，E-R 图 如 下 表示 : 

© 实体 集 用 和 矩形 框 表 示 ， 实 体 名 在 头 部 ， 属 性 名 列 在 下 面 。 

。 联系 集 用 连接 一 对 相关 的 实体 集 的 菱形 表示 ， 联 系 名 放 在 菱形 内 部 。 

作为 例子 ， 我 们 来 看 一 下 大 学 数据 库 中 包括 教师 和 系 以 及 它们 之 间 的 关联 的 部 分 。 对 应 的 E-R 图 
如 图 1-3 所 示 。E-R 图 表示 出 有 instructor 和 department 这 两 个 实体 集 ， 它 们 具有 先前 已 经 列 出 的 一 些 属 
性 。 这 个 图 还 指明 了 在 教师 和 系 之 间 的 member 联系 。 


dept_name 


building 
budget 





图 1-3 E-R 图 示例 

除了 实体 和 联系 外 ，E-R 模型 还 描绘 了 数据 库 必须 遵守 的 对 其 内 容 的 某 些 约束 。 一 个 重要 的 约束 

是 映射 基数 (mapping cardinality) ， 它 表示 通过 某 个 联系 集 能 与 一 实体 进行 关联 的 实体 数目 。 例 如 ， 如 
果 一 位 教师 只 能 属于 一 个 系 ，E-R 模型 就 能 表达 出 这 种 约束 。 


后 ， 机 人 敏 的 读者 会 注意 到 我 们 从 描述 instructor 实体 集 的 属性 集中 丢掉 了 dept_name 属性 . 在 第 7 章 中 我 们 将 详细 解释 
为 什么 这 样 做 。 
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实体 -联系 模型 在 数据 库 设 计 中 使 用 广泛 ， 在 第 7 章 中 将 详细 研究 。 
1.6.4 规范 化 

设计 关系 数据 库 所 用 到 的 另外 一 种 方法 是 通常 被 称 为 规范 化 的 过 程 。 它 的 目标 是 生成 一 个 关系 模 
式 集合 ， 使 我 们 存储 信息 时 没有 不 必要 的 元 余 ， 同 时 又 能 很 轻易 地 检索 数据 。 这 种 方法 是 设计 一 种 符 
合适 当 的 范式 (normal form) 的 模式 ， 为 确定 一 个 关系 模式 是 否 符合 想 要 的 范式 ,我 们 需要 额外 的 关于 
用 数据 库 建 模 的 现实 世界 中 机 构 的 信息 。 最 常用 的 方法 是 使 用 函数 依赖 (functional dependency) ， 我 们 
将 在 8.4 节 讨论 。 

为 了 理解 规范 化 的 必要 性 ,我们 看 一 看 在 不 好 的 数据 库 设计 中 会 发 生 什么 问题 。 一 个 不 好 的 设计 
可 能 会 包括 如 下 不 良 特性 : 

。 信息 重复 。 

。 缺乏 表达 某 些 信息 的 能 力 。 

我 们 在 对 大 学 例子 修改 后 的 数据 库 设 计 中 讨论 这 些 问 题 。 
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假设 不 将 表 instructor 和 department 分 开 ， 我 们 使 用 单个 表 faculty， 它 将 两 个 表 的 数据 合并 在 一 起 


( 见 图 1-4)。 注 意 到 在 表 faculty 中 有 两 行 包含 重复 的 关于 历史 系 的 信息 ， 具 体 地 说 ， 是 系 所 在 的 大 楼 
和 经 费 预 算 。 这 种 修改 后 的 设计 中 出 现 了 我 们 不 想 要 的 信息 重复 。 信 息 重 复 浪 费 存 储 空间 ， 而 且 使 得 
更 新 数据 库 变 得 复杂 。 假 设 我 们 想 将 历史 系 的 经 费 预算 从 50 000 美元 改 成 46 800 美元 ， 这 个 修改 必须 
在 两 行 中 都 体现 出 来 ; 这 与 原来 的 设计 不 同 ， 原 来 只 需要 修改 一 行 就 可 以 了 。 因 此 ， 改 变 后 的 设计 中 
更 新 操作 的 代价 比 原来 的 设计 中 大 了 。 当 我 们 在 改变 设计 的 数据 库 中 进行 更 新 时 ,我们 必须 保证 与 历 
史 系 有 关 的 每 个 元 组 都 被 更 新 ， 否 则 我 们 的 数据 库 将 会 显示 出 历史 系 有 两 个 不 同 的 经 费 预 算数 。 
































ID | name Al salary | dept- name building budget 
| 22222 | Einstein 95000 | Physics | Watson 70000 
| 12121 | Wu 90000 | Finance | Painter 120000 
| 32343 | El Said 60000 | History | Painter 50000 
| 45565 | Katz 75000 | Comp. Sci. | Taylor 100000 
| 98345 | Kim 80000 | Elec. Eng. Taylor 85000 
| 76766 | Crick 72000 | Biology Watson 90000 
| 10101 | Srinivasan | 65000 | Comp. Sci. | Taylor 100000 

58583 | Califieri 62000 | History Painter 50000 

83821 | Brandt 92000 | Comp. Sci. | Taylor 100000 

15151 | Mozart 40000 | Music Packard 80000 

33456 | Gold 87000 | Physics Watson 70000 

76543 | Singh 80000 | Finance Painter 120000 








图 1-4 faculty 表 


现在 我 们 再 看 一 看 缺乏 表达 某 些 信息 的 能 力 的 问题 。 假 设 我 们 在 大 学 里 建立 一 个 新 的 系 。 在 上 述 
改变 了 的 数据 库 设计 中 ， 我 们 不 能 直接 表示 关于 一 个 系 的 信息 (dept_name, building, budget) ， 除 非 那个 
系 在 大 学 里 至 少 有 一 位 教员 。 这 是 因为 faculty 表 中 的 行 需要 ID, name 和 salary 的 值 。 这 意味 着 我 们 不 
能 记录 新 建立 的 系 的 信息 ， 直 到 这 个 新 的 系 聘 用 了 第 一 位 教员 。 

这 个 问题 的 一 个 解决 办 法 是 引入 空 值 (null) 。 空 值 表示 这 个 值 不 存在 (或 者 未 知 ) ， 未 知 值 可 能 是 
缺失 (该 值 确实 存在 ， 但 我 们 没有 得 到 它 ) 或 不 知道 (我 们 不 知道 该 值 是 否 存在 ) 。 正 如 我 们 后 面 要 看 到 
的 那样 ， 空 值 很 难处 理 ， 所 以 最 好 不 要 用 它 。 如 果 我 们 不 愿意 处 理 空 值 ， 我 们 可 以 仅 当 一 个 系 有 至 少 
一 位 教员 时 才 为 它 建 立 系 的 信息 项 。 而 且 ， 当 系 的 最 后 一 位 教员 离开 时 ， 我 们 必须 删除 系 的 信息 。 很 
明显 ， 这 种 情况 不 是 我 们 想 要 的 ， 因 为 在 我 们 原来 的 数据 库 设 计 里 ,不管 一 个 系 有 没有 教员 ， 这 个 系 
的 信息 都 是 可 以 保存 的 ， 也 不 必 使 用 空 值 。 

规范 化 的 详尽 理论 已 经 研究 形成 ， 它 有 助 于 形式 化 地 定义 什么 样 的 数据 库 设计 是 不 好 的 ， 以 及 如 
何 得 到 我 们 想 要 的 设计 。 第 8 章 将 讨论 关系 数据 库 设 计 ， 包 括 规范 化 。 


1.7 数据 存储 和 查询 
数据 库 系统 划分 为 不 同 的 模块 ， 每 个 模块 完成 整个 系统 的 一 个 功能 。 数 据 库 系 统 的 功能 部 件 大 致 
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可 分 为 存储 管理 器 和 查询 处 理 部 件 。 
存储 管理 非常 重要 ， 因 为 数据 库 常常 需要 大 量 存储 空间 。 企 业 的 大 型 数据 库 的 大 小 达到 数 百 个 
gigabyte， 甚 至 达到 terabyte。 一 个 gigabyte 大 约 等 于 1000 个 (实际 上 是 1024 个 ) megabyte ( FALF H ), 
一 个 terabyte 等 于 一 百 万 个 megabyte( 一 万 亿 个 字 节 ) 。 由 于 计算 机 主 存 不 可 能 存储 这 么 多 信息 ， 所 以 信 
息 被 存储 在 磁盘 上 。 需 要 时 数据 在 主 存 和 磁盘 间 移 动 。 由 于 相对 于 中 央 处 理 器 的 速度 来 说 数据 出 人 磁 
盘 的 速度 很 慢 ， 因 此 数据 库 系 统 对 数据 的 组 织 必 须 满足 使 磁盘 和 主 存 之 间 数 据 的 移动 最 小 化 。 
查询 处 理 也 非常 重要 ， 因 为 它 帮助 数据 库 系统 简化 和 方便 了 数据 的 访问 。 查 询 处 理 器 使 得 数据 库 
用 户 能 够 获得 很 高 的 性 能 ， 同 时 可 以 在 视图 的 层次 上 工作 ,不 必 承 受 了 解 系统 实现 的 物理 层次 细节 的 
负担 。 将 在 逻辑 层 编写 的 更 新 和 查询 转变 成 物理 层 的 高 效 操作 序列 ， 这 是 数据 库 系 统 的 任务 。 
1.7.1 存储 管理 器 
存储 管理 器 是 数据 库 系统 中 负责 在 数据 库 中 存储 的 低层 数据 与 应 用 程序 以 及 向 系统 提交 的 查询 之 
间 提 供 接口 的 部 件 。 存 储 管理 器 负责 与 文件 管理 器 进行 交互 。 原 始 数 据 通过 操作 系统 提供 的 文件 系统 
存储 在 磁盘 上 。 存 储 管理 器 将 各 种 DML 语句 翻译 为 底层 文件 系统 命令 。 因 此 ， 存 储 管理 器 负责 数据 库 
中 数据 的 存储 、 检 索 和 更 新 。 
存储 管理 部 件 包 括 : 
© 权限 及 完整 性 管理 器 (authorization and integrity manager) ， 它 检测 是 否 满足 完整 性 约束 ， 并 检查 
试图 访问 数据 的 用 户 的 权限 。 
。 事务 管理 器 (transaction manager) ， 它 保证 即使 发 生 了 故障 ， 数 据 库 也 保持 在 一 致 的 (正确 的 ) 状 
态 ， 并 保证 并 发 事务 的 执行 不 发 生 冲突 。 
© 文件 管理 器 (file manager) ， 它 管理 磁盘 存储 空间 的 分 配 ， 管 理 用 于 表示 磁盘 上 所 存储 信息 的 数 
据 结构 。 
。 缓冲 区 管理 器 ( buffer manager) ， 它 负责 将 数据 从 磁盘 上 取 到 内 存 中 来 ， 并 决定 哪些 数据 应 被 组 
冲 存储 在 内 存 中 。 缓 冲 区 管理 器 是 数据 库 系统 中 的 一 个 关键 部 分 ， 因 为 它 使 数据 库 可 以 处 理 比 
内 存 更 大 的 数据 。 
存储 管理 器 实现 了 几 种 数据 结构 ， 作 为 系统 物理 实现 的 一 部 分 : 
© 数据 文件 ( data files) ， 存 储 数据 库 自 身 。 
© 数据 字典 ( data dictionary) ， 存 储 关 于 数据 库 结构 的 元 数据 ， 尤 其 是 数据 库 模式 。 
。 索引 (index) ， 提 供 对 数据 项 的 快速 访问 。 和 书 中 的 索引 一 样 ， 数 据 库 索引 提供 了 指向 包含 特定 
值 的 数据 的 指针 。 例 如 ， 我 们 可 以 运用 索引 找到 具有 特定 的 ID 的 instructor 记录 ， 或 者 具有 特 
定 的 name 的 所 有 instructor 记录 。 散 列 是 另外 一 种 索引 方式 ， 在 某 些 情况 下 速度 更 快 ， 但 不 是 
在 所 有 情况 下 都 这 样 。 
我 们 在 第 10 章 讨论 存储 介质 、 文 件 结构 和 缓冲 区 管理 ， 第 11 章 讨论 通过 索引 和 散 列 高 效 访问 数 
据 的 方法 。 
1.7.2 查询 处 理 器 
查询 处 理 器 组 件 包 括 : 
。 DDL 解释 器 (DDL interpreter), CHF DDL 语句 并 将 这 些 定义 记录 在 数据 字典 中 。 
。 DML 编译 器 ( DML compiler) ， 将 查询 语言 中 的 DML 语句 翻译 为 一 个 执行 方案 ， 包 括 一 系列 查 
询 执行 引擎 能 理解 的 低级 指令 。 
一 个 查询 通常 可 被 翻译 成 多 种 等 价 的 具有 相同 结果 的 执行 方案 的 一 种 。DML 编译 器 还 进行 查询 优 
化 (query optimization) ， 也 就 是 从 几 种 选择 中 选 出 代价 最 小 的 一 种 。 
© 查询 执行 引 警 (query evaluation engine) ， 执 行 由 DML 编译 器 产生 的 低级 指令 。 
第 12 章 将 介绍 查询 执行 ,查询 优 化 器 选择 合适 的 执行 策略 的 方法 将 在 第 13 章 中 讨论 。 


1.8 事务 管理 
通常 ， 对 数据 库 的 几 个 操作 合 起 来 形成 一 个 逻辑 单元 。 如 1. 2 节 所 示 的 例子 是 一 个 资金 转账 ， 其 
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中 一 个 系 (A 系 ) 的 账户 进行 取出 操作 ， 而 另 一 个 系 (B R) 的 账户 进行 存 和 操作。 显然 ， 这 两 个 操作 必 
须 保 证 要 么 都 发 生 要 么 都 不 发 生 。 也 就 是 说 ， 资 金 转账 必须 完成 或 根本 不 发 生 。 这 种 要 么 完成 要 么 不 
发 生 的 要 求 称 为 原子 性 (atomicity ) 。 除 此 以 外 ， 资 金 转 账 还 必须 保持 数据 库 的 一 致 性 。 也 就 是 说 ，A 
和 B 的 余额 之 和 应 该 是 保持 不 变 的。 这 种 正确 性 的 要 求 称 作 一 致 性 (consistency)。 最 后 ， 当 资金 转账 
成 功 结束 后 ， 即 使 发 生 系统 故障 ， 账 户 A 和 账户 B 的 余额 也 应 该 保持 转账 成 功 结束 后 的 新 值 。 这 种 保 
持 的 要 求 称 作 持久 性 (durability) 。 

事务 (transaction) 是 数据 库 应 用 中 完成 单一 逻辑 功能 的 操作 和 集合。 每 一 个 事务 是 一 个 既 具 原子 性 
又 具 一 致 性 的 单元 。 因 此 ， 我 们 要 求 事 务 不 违反 任何 的 数据 库 一 致 性 约束 ， 也 就 是 说 ， 如 果 事 务 启 
动 时 数据 库 是 一 致 的 ， 那 么 当 这 个 事务 成 功 结束 时 数据 库 也 应 该 是 一 致 的 。 然 而 ， 在 事务 执行 过 程 
中 ， 必 要 时 允许 暂时 的 不 一 致 ， 因 为 无 论 是 A 取出 的 操作 在 前 还 是 B 存 入 的 操作 在 前 ， 这 两 个 操作 
都 必然 有 一 个 先后 次 序 。 这 种 暂时 的 不 一 臻 虽然 是 必需 的 ， 但 在 故障 发 生 时 ,很 可 能 导致 问题 的 
Ps 

适当 地 定义 各 个 事务 是 程序 员 的 职责 ， 事 务 的 定义 应 使 之 能 保持 数据 库 的 一 致 性 。 例 如 ， 资 金 从 
A 系 的 账户 转 到 B 系 的 账户 这 个 事务 可 以 被 定义 为 由 两 个 单独 的 程序 组 成 : 一 个 对 账户 A 执行 取出 操 
作 ， 另 一 个 对 账户 B 执行 存 人 操作 。 这 两 个 程序 的 依次 执行 可 以 保持 一 致 性 。 但 是 ， 这 两 个 程序 自身 
都 不 是 把 数据 库 从 一 个 一 致 的 状态 转 和 人 一 个 新 的 一 致 的 状态 ， 因 此 它们 都 不 是 事务 。 

原子 性 和 持久 性 的 保证 是 数据 库 系统 自身 的 职责 ， 确 切 地 说 ， 是 恢复 管理 器 (recovery manager) 的 


职责 。 在 没有 故障 发 生 的 情况 下 ， 所 有 事务 均 成 功 完成 ， 这 时 要 保证 原子 性 很 容易 。 但 是 ， 由 于 各 种 [22 


各 样 的 故障 ， 事 务 并 不 总 能 成 功 执行 完毕 。 为 了 保证 原子 性 ， 失 败 的 事务 必须 对 数据 库 状 态 不 产生 任 
何 影响 。 因 此 ， 数 据 库 必须 被 恢复 到 该 失败 事务 开始 执行 以 前 的 状态 。 这 种 情况 下 数据 库 系统 必须 进 
行 故障 恢复 (failure recovery) ， 即 检测 系统 故障 并 将 数据 库 恢 复 到 故障 发 生 以 前 的 状态 。 

最 后 ， 当 多 个 事务 同时 对 数据 库 进行 更 新 时 ， 即 使 每 个 单独 的 事务 都 是 正确 的 ， 数据 的 一 致 性 也 
可 能 被 破坏 。 并 发 控制 管理 器 ( concurrency-control manager) 控制 并 发 事务 间 的 相互 影响 ， 保 证 数据 库 一 
致 性 。 事 务 管理 器 (transaction manager) 包 括 并 发 控制 管理 器 和 恢复 管理 器 。 

事务 处 理 的 基本 概念 在 第 14 章 介 绍 ， 并 发 事务 的 管理 在 第 15 章 讨论 ， 第 16 章 详细 介绍 故障 
恢复 。 | 

事务 的 概念 已 经 广泛 应 用 在 数据 库 系 统 和 应 用 当中 。 虽 然 最 初 是 在 金融 应 用 中 使 用 事务 ， 现 在 事 
务 已 经 使 用 在 电信 业 的 实时 应 用 中 ， 以 及 长 时 间 的 活动 如 产品 设计 和 工作 流 管理 中 。 事 务 概念 更 多 的 
应 用 还 会 在 第 26 章 讨论 。 


1.9 数据 库 体系 结构 


现在 我 们 可 以 给 出 一 个 数据 库 系统 各 个 部 分 以 及 它们 之 间 联 系 的 图 了 ( 见 图 1-5)。 

数据 库 系 统 的 体系 结构 很 大 程度 上 取决 于 数据 库 系统 所 运行 的 计算 机 系统 。 数 据 库 系 统 可 以 是 集 
中 式 的 、 客 户 / 服 务 器 式 的 (一 台 服 务 器 为 多 个 客户 机 执行 任务 ) ; 也 可 以 针对 并 行 计算 机 体系 结构 设 
计数 据 库 系统 ; 分 布 式 数据 库 包 含 地 理 上 分 离 的 多 台 计 算 机 。 

在 第 17 章 我 们 将 讨论 现代 计算 机 系统 的 一 般 结构 。 第 18 章 将 描述 如 何 实现 数据 库 的 各 种 动 
作 一 一 尤其 是 查询 处 理 中 的 动作 一 一 以 适应 并 行 处 理 。 第 19 章 将 描述 分 布 式 数据 库 中 的 各 种 问题 ， 以 
及 如 何 处 理 那 些 问题 。 问 题 包括 如 何 存储 数据 ， 如 何 确保 在 多 个 节点 上 执行 的 事务 的 原子 性 ， 如 何 执 
行 并 发 控制 ， 以 及 遇 到 故障 时 如 何 提供 高 可 用 性 。 除 此 之 外 还 将 讨论 分 布 式 查 询 处 理 以 及 目录 系统 。 

今天 数据 库 系 统 的 大 多 数 用 户 并 不 直接 面 对 数 据 库 系统 ， 而 是 通过 网 络 与 其 相连 。 因 此 我 们 可 区 
分 远程 数据 库 用 户 工 作用 的 客户 机 (client) 和 运行 数据 库 系 统 的 服务 器 (server) 。 

数据 库 应 用 通常 可 分 为 两 或 三 个 部 分 ， 如 图 1-6 所 示 。 在 一 个 两 层 体 系 结构 (two-tier architecture ) 
中 ， 应 用 程序 驻 留 在 客户 机 上 ， 通 过 查询 语言 表达 式 来 调用 服务 器 上 的 数据 库 系统 功能 。 像 ODBC 和 
JDBC 这 样 的 应 用 程序 接口 标准 被 用 于 进行 客户 端 和 服务 器 的 交互。 
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数据 库 调用 。 客 户 端 通常 通过 一 个 表单 界面 与 应 用 服务 器 (application server) 进行 通信 。 而 应 用 服务 带 
与 数据 库 系统 通信 以 访问 数据 。 应 用 程序 的 业务 逻辑 ( business logic) ， 也 就 是 说 在 何 种 条 件 下 做 出 何 种 
反应 ， 被 蔡 入 到 应 用 服务 器 中 ， 而 不 是 分 布 在 多 个 客户 机 上 。 三 层 结构 的 应 用 更 适合 大 型 应 用 和 互联 
网 上 的 应 用 。 


1.10 ”数据 挖掘 与 信息 检索 


数据 挖掘 (data mining) 这 个 术语 指 半 自动 地 分 析 大 型 数据 库 并 从 中 找 出 有 用 的 模式 的 过 程 。 和 人 
工 智能 中 的 知识 发 现 (也 称 为 机 器 学 习 ( machine learning) ) 或 者 统计 分 析 一 样 ， 数 据 挖掘 试图 从 数据 中 
寻找 规则 或 模式 。 但 是 ， 数 据 挖掘 和 机 器 学 习 、 统 计 分 析 不 一 样 的 地 方 在 于 它 处 理 大 量 的 主要 存储 在 
磁盘 上 的 数据 。 也 就 是 说 ， 数 据 挖掘 就 是 在 数据 库 中 发 现 知识 。 

从 数据 库 中 发 现 的 某 些 类 型 的 知识 可 以 用 一 套 规则 (rule) 表 示 。 下 面 是 一 条 规则 的 例子 ， 非 形式 
化 地 描述 为 :“ 年 收入 高 于 50 000 美元 的 年 轻 女性 是 最 可 能 购买 小 型 运动 车 的 人 群 ”。 当 然 这 条 规则 并 
不 是 永远 正确 的 , 但 它 有 一 定 的 “支持 度 ” 和 “置信 度 ”。 其 他 类 型 的 知识 表达 方式 有 联系 不 同 变量 的 方 
程式 ， 或 者 通过 其 他 机 制 根据 某 些 已 知 的 变量 来 预测 输出 。 [ 24 | 

还 有 很 多 其 他 类 型 的 有 用 模式 以 及 发 现 不 同 模式 的 技术 。 在 第 20 章 我 们 将 研究 一 些 模式 的 例子 以 25 | 
及 如 何 自动 地 从 数据 库 中 得 出 这 些 模式 。 E 

通常 在 数据 挖掘 中 还 需要 人 参与 ， 包 括 数据 预 处 理 使 数据 变 为 适合 算法 的 格式 ， 在 已 发 现 模式 的 
后 处 理 中 找到 新 奇 的 有 用 模式 。 给 定 一 个 数据 库 ， 可 能 有 不 止 一 种 类 型 的 模式 ， 需 要 人 工交 互 挑选 有 
用 类 型 的 模式 。 由 于 这 个 原因 ， 现 实 中 的 数据 挖掘 是 一 个 半自动 的 过 程 。 但是， 在 我 们 的 描述 中 ， 主 
要 介绍 挖掘 的 自动 处 理 过 程 的 部 分 。 

商业 上 已 经 开始 利用 蓬勃 发 展 的 联机 数据 来 支持 对 于 业务 活动 的 更 好 的 决策 ， 例 如 储备 哪些 物品 ， 

如 何 更 好 地 锁定 目标 客户 以 提高 销售 额 。 但 是 ， 它 们 的 许多 查询 都 相当 复杂 ， 有 些 类 型 的 信息 其 至 使 
用 SQL 都 不 能 抽取 出 来 。 

目前 有 几 种 技术 和 工具 可 用 于 帮助 做 决策 支持 。 一 些 数据 分 析 的 工具 让 分 析 人 员 能 够 从 不 同 的 角 
度 观察 数据 。 其 他 的 分 析 工 具 提 前 计算 出 大 量 数据 的 汇总 信息 ， 以 更 快 响应 查询 。 现 在 的 SQL 标准 也 
增加 了 支持 数据 分 析 的 成 分 。 

大 型 企业 有 各 种 不 同 的 可 用 于 业务 决策 的 数据 来 源 。 要 在 这 些 各 种 各 样 的 数据 上 高 效 地 执行 查询 ， 
企业 建立 了 数据 仓库 (data warehouse) 。 数 据 仓库 从 多 个 来 源 收 集 数 据 ， 建 立 统一 的 模式 ， 驻 留 在 单个 
节点 上 。 于 是 ， 就 为 用 户 提 供 了 单个 统一 的 数据 界面 。 

文本 数据 也 爆炸 式 增长 。 文 本 数据 是 非 结 构 化 的 ， 与 关系 数据 库 中 严格 的 结构 化 数据 不 同 。 查 
询 非 结构 化 的 文本 数据 被 称 为 信息 检索 (information retrieval) 。 信 息 检 索 系 统 和 数据 库 系统 很 大 程度 
上 是 相同 的 一 一 特别 是 基于 辅助 存储 器 的 数据 存储 和 检索 。 但 是 信息 系统 领域 与 数据 库 系统 所 强调 
的 重点 是 不 同 的 ， 信 息 系 统 重点 强调 基于 关键 词 的 查询 ,文档 与 查询 的 相似 度 ， 以 及 文档 的 分 析 、 

分 类 和 索引 。 第 20 章 和 第 21 章 我 们 将 讨论 决策 支持 ， 包 括 联机 分 析 处 理 、 数 据 挖掘 、 数 据 仓库 和 
信息 检索 。 





1. 11 特种 数据 库 
数据 库 系统 的 一 些 应 用 领域 受到 关系 数据 模型 的 限制 。 其 结果 是 ， 研 究 人 员 开发 了 几 种 数据 模型 
来 处 理 这 些 领域 的 应 用 ， 包 括 基 于 对 象 的 数据 模型 和 半 结构 化 数据 模型 。 ES 


1.11.1 基于 对 象 的 数据 模型 

面向 对 象 程序 设计 已 经 成 为 占 统治 地 位 的 软件 开发 方法 学 。 这 导致 面向 对 象 数据 模型 ( object-based 
data model) 的 发 展 ， 面 向 对 象 模型 可 以 看 作 E-R 模型 的 扩展 ， 增 加 了 封装 、 方 法 (函数 ) 和 对 象 标识 。 
继承 、 对 象 标 识 和 信息 封装 (信息 隐蔽 8) ， 以 及 对 外 提供 方法 作为 访问 对 象 的 接口 ， 这 些 是 面向 对 象 
程序 设计 的 关键 概念 ， 现 在 在 数据 建 模 中 也 找到 了 应 用 。 面 向 对 象 数 据 模型 还 支持 丰富 的 类 型 系统 ， 
包括 结构 和 集合 类 型 。 在 20 世纪 80 年 代 ， 开 发 了 好 几 个 基于 面向 对 象 数据 模型 的 数据 库 系统 。 
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现在 主要 的 数据 库 厂商 都 支持 对 象 - 关系 数据 模型 (object- relational data model) ， 这 是 一 个 将 面向 
对 象 数据 模型 和 关系 数据 模型 的 特点 结合 在 一 起 的 数据 模型 。 它 扩展 了 传统 的 关系 模型 ， 增 加 了 新 的 
特征 如 结构 和 集合 类 型 ， 以 及 面向 对 象 特性 。 第 22 章 介 绍 对 象 -关系 数据 模型 。 
1.11.2 半 结 构 化 数据 模型 

半 结 构 化 数据 模型 允许 那些 相同 类 型 的 数据 项 有 不 同 的 属性 集 的 数据 说 明 。 这 和 早先 提 到 的 数据 
模型 形成 了 对 比 : 在 那些 数据 模型 中 所 有 某 种 特定 类 型 的 数据 项 必须 有 相同 的 属性 集 。 

XML 语言 设计 的 初衷 是 为 文本 文档 增加 标签 信息 ,但 由 于 它 在 数据 交换 中 的 应 用 而 变 得 日 益 重 
要 。XML 提供 了 表达 含有 嵌 套 结构 的 数据 的 方法 ， 能 够 灵活 组 织 数据 结构 ， 这 对 于 一 些 非 传 统 数 据 来 
说 非常 重要 。 第 23 章 介绍 XML 语言 、XML 格式 的 数据 的 各 种 查询 表示 方法 ， 以 及 不 同 XML 数据 格式 
之 间 的 转换 。 


1. 12 ”数据 库 用 户 和 管理 员 


数据 库 系 统 的 一 个 主要 目标 是 从 数据 库 中 检索 信息 和 往 数据 库 中 存储 新 信息 。 使 用 数据 库 的 人 员 
可 分 为 数据 库 用 户 和 数据 库 管 理 员 。 
1.12.1 数据 库 用 户 和 用 户 界面 
根据 所 期 望 的 与 系统 交互 方式 的 不 同 ， 数 据 库 系统 的 用 户 可 以 分 为 四 种 不 同类 型 。 系 统 为 不 同类 
型 的 用 户 设计 了 不 同类 型 的 用 户 界 面 。 
。 无 经 验 的 用 户 (naive user) 是 默认 经 验 的 用 户 ， 他 们 通过 激活 事先 已 经 写 好 的 应 用 程序 同系 统 
进行 交互 。 例 如 ， 大 学 的 一 位 职员 需要 往 A 系 中 添加 一 位 新 的 教师 时 ， 激 活 一 个 叫做 new_ 
hire 的 程序 。 该 程序 要 求 这 位 职员 输入 新 教师 的 名 字 、 她 的 新 DD、 系 的 名 字 ( 即 A) 以 及 她 的 
工资 额 。 
此 类 用 户 的 典型 用 户 界面 是 表格 界面 ， 用 户 只 需 填 写 表格 的 相应 项 就 可 以 了 。 无 经 验 的 用 
户 也 可 以 很 简单 地 阅读 数据 库 产生 的 报表 。 
作为 另外 一 个 例子 ， 我 们 考虑 一 个 学 生 ， 他 在 课程 注册 的 过 程 中 想 通 过 Web 界面 来 注册 一 
门 课程 。 应 用 程序 首先 验证 该 用 户 的 身份 ， 然 后 允许 她 去 访问 一 个 表格 ， 她 可 以 在 表格 中 填 人 
想 填 的 信息 。 表 格 信息 被 送 回 给 服务 器 上 的 Web 应 用 程序 ， 然 后 应 用 程序 确定 该 课程 是 否 还 有 
空 额 ( 通 过 从 数据 库 中 检索 信息 ) ， 如 果 有 ， 就 把 这 位 学 生 的 信息 添加 到 数据 库 中 的 该 课程 花 名 
册 中 。 
© 应 用 程序 员 ( application programmer) 是 编写 应 用 程序 的 计算 机 专业 人 员 。 有 很 多 工具 可 以 供应 
用 程序 员 选 择 来 开发 用 户 界面 。 快 速 应 用 开发 (Rapid Application Development, RAD) 工具 是 使 
应 用 程序 员 能 够 尽量 少 编写 程序 就 可 以 构造 出 表格 和 报表 的 工具 。 
。 老练 的 用 户 ( sophisticated user) 不 通过 编写 程序 来 同系 统 交互 ， 而 是 用 数据 库 查询 语言 或 数据 分 
析 软 件 这 样 的 工具 来 表达 他 们 的 要 求 。 分 析 员 通过 提交 查询 来 研究 数据 库 中 的 数据 ， 所 以 属于 
这 一 类 用 户 。 
。 专门 的 用 户 ( specialized user) 是 编写 专门 的 、 不 适合 于 传统 数据 处 理 框架 的 数据 库 应 用 的 富有 
经 验 的 用 户 。 这 样 的 应 用 包括 : 计算 机 辅助 设计 系统 、 知 识 库 和 专家 系统 、 存 储 复杂 结构 数据 
(如 图 形 数 据 和 声音 数据 ) 的 系统 ， 以 及 环境 建 模 系统 。 在 第 22 章 中 我 们 将 要 讨论 几 个 这 样 的 
应 用 。 
1.12.2 ”数据库 管理 员 
使 用 DBMS 的 一 个 主要 原因 是 可 以 对 数据 和 访问 这 些 数据 的 程序 进行 集中 控制 。 对 系统 进行 集中 
控制 的 人 称 作 数据 库 管理 员 ( DataBase Administrator, DBA), DBA 的 作用 包括 : 
e 模式 定义 (schema definition), DBA 通过 用 DDL 书写 的 一 系列 定义 来 创建 最 初 的 数据 库 模式 。 
e 存储 结构 及 存 取 方 法 定义 (storage structure and access- method definition ) 。 
。 模式 及 物理 组 织 的 修改 ( schema and physical-organization modification) 。 由 数据 库 管 理 员 (DBA ) 对 
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模式 和 物理 组 织 进 行 修改 ， 以 反映 机 构 的 需求 变化 ， 或 为 提高 性 能 选择 不 同 的 物理 组 织 。 [28 | 
© 数据 访问 授权 (granting of authorization for data access ) 。 通过 授予 不 同类 型 的 权限 ， 数 据 库 管理 
员 可 以 规定 不 同 的 用 户 各 自 可 以 访问 的 数据 库 的 部 分 。 授 权 信息 保存 在 一 个 特殊 的 系统 结构 
中 ,一旦 系统 中 有 访问 数据 的 要 求 ， 数 据 库 系统 就 去 查阅 这 些 信 息 。 
© 日 常 维护 (routine maintenance) 。 数 据 库 管理 员 的 日 常 维护 活动 有 : 
O 定期 备份 数据 库 ， 或 者 在 磁带 上 或 者 在 远程 服务 器 上 ， 以 防止 像 洪 水 之 类 的 灾难 发 生 时 数据 丢失 
确保 正常 运转 时 所 需 的 空余 磁盘 空间 ， 并 且 在 需要 时 升级 磁盘 空间 。 
监视 数据 库 的 运行 ， 并 确保 数据 库 的 性 能 不 因 一 些 用 户 提交 了 花费 时 间 较 多 的 任务 就 下 降 很 多 。 


1. 13 ”数据库 系统 的 历史 


从 商业 计算 机 的 出 现 开 始 ， 数 据 处 理 就 一 直 推 动 着 计算 机 的 发 展 。 事 实 上 ， 数 据 处 理 自动 化 早 于 
计算 机 的 出 现 。Herman Hollerith 发 明 的 穿孔 卡片 ， 早 在 20 世纪 初 就 用 来 记录 美国 的 人 口 普 查 数据 ， 并 
且 用 机 械 系 统 来 处 理 这 些 卡片 和 列 出 结果 。 穿 孔 卡片 后 来 被 广泛 用 作 将 数据 输入 计算 机 的 一 种 手段 。 

数据 存储 和 处 理 技术 发 展 的 年 表 如 下 : 

© 20 世纪 50 年 代 和 20 世纪 60 年 代 初 : 磁带 被 用 于 数据 存储 。 诸 如 工资 单 这 样 的 数据 处 理 已 经 
自动 化 了 ， 数 据 存储 在 磁带 上 。 数 据 处 理 包括 从 一 个 或 多 个 磁带 上 读 取 数据 ， 并 将 数据 写 回 到 
新 的 磁带 上 。 数 据 也 可 以 由 一 笃 穿 孔 卡片 输入 ， 而 输出 到 打印 机 上 。 例 如 ， 工 资 增 长 的 处 理 是 
通过 将 增长 表示 到 穿孔 卡片 上 ， 在 读 入 一 到 穿孔 卡片 时 同步 地 读 入 保存 主要 工资 细节 的 磁带 。 
记录 必须 有 相同 的 排列 顺序 。 工 资 的 增加 额 将 被 加 入 到 从 主 磁带 读 出 的 工资 中 ， 并 被 写 到 新 的 
磁带 上 ， 新 磁带 将 成 为 新 的 主 磁带 。 

磁带 (和 卡片 组 ) 都 只 能 顺序 读 取 ， 数 据 规模 可 以 比 内 存 大 得 多 ， 因 此 ， 数 据 处 理 程 序 被 迫 
以 一 种 特定 的 顺序 来 对 数据 进行 处 理 ， 读 取 和 合并 来 自 磁 带 和 卡片 组 的 数据 。 

o 20 世纪 60 年 代 末 和 20 世纪 70 ER: 20 世纪 60 年代 末 硬盘 的 广泛 使 用 极 大 地 改变 了 数据 处 
理 的 情况 ， 因 为 硬盘 允许 直接 对 数据 进行 访问 。 数 据 在 磁盘 上 的 位 置 是 无 关 紧 要 的 ， 因 为 磁盘 
上 的 任何 位 置 都 可 在 几 十 毫秒 内 访问 到 。 数 据 由 此 摆脱 了 顺序 访问 的 限制 。 有 了 磁盘 ， 我 们 就 
可 以 创建 网 状 和 层次 的 数据 库 ， 它 可 以 将 表 和 树 这 样 的 数据 结构 保存 在 磁盘 上 。 程 序 员 可 以 构 [29 | 

由 Codd[ 1970 | 撰写 的 一 篇 具有 里 程 碑 意义 的 论文 定义 了 关系 模型 和 在 关系 模型 中 查询 数 
据 的 非 过 程 化 方法 ， 由 此 关系 型 数据 库 诞生 了 。 关 系 模型 的 简单 性 和 能 够 对 程序 员 屏 项 所 有 实 
现 细节 的 能 力 具 有 真正 的 诱惑 力 。 随 后 ，Codd 因 其 所 做 的 工作 获得 了 声望 很 高 的 ACM 图 灵 奖 

© 20 世纪 80 ER: 尽管 关系 模型 在 学 术 上 很 受 重视 , 但 是 最 初 并 没有 实际 的 应 用 ， 这 是 因为 它 
被 认为 性 能 不 好 ; 关系 型 数据 库 在 性 能 上 还 不 能 和 当时 已 有 的 网 状 和 层次 数据 库 相 提 并 论 。 这 
种 情况 直到 System R 的 出 现 才 得 以 改变 ， 这 是 IBM 研究 院 的 一 个 突破 性 项 目 ， 它 开发 了 能 构造 
高 效 的 关系 型 数据 库 系统 的 技术 。Astrahan % [1976 ] 和 Chamberlin 等 |1981 ] 给 出 了 关于 System 
R 的 很 好 的 综述 。 完 整 功能 的 System R 原型 导致 了 IBM 的 第 一 个 关系 型 数据 库 产品 SQL/DS 的 
出 现 。 与 此 同时 ， 加 州 大 学 伯克利 分 校 开发 了 Ingres 系统 。 它 后 来 发 展 成 具有 相同 名 字 的 商品 
化 关系 数据 库 系统 。 最 初 的 商品 化 关系 型 数据 库 系统 ， 如 IBM DB2, Oracle, Ingres 和 DEC 
Rdb， 在 推动 高 效 处 理 声明 性 查询 的 技术 上 起 到 了 主要 的 作用 。 到 了 20 世纪 80 年 代 初 期 ， 关 
系 型 数据 库 已 经 可 以 在 性 能 上 与 网 状 和 层次 型 数据 库 进行 竞争 了 。 关 系 型 数据 库 是 如 此 简单 易 
用 ,以 至 于 最 后 它 完全 取代 了 网 状 /层次 型 数据 库 ， 因 为 程序 员 在 使 用 后 者 时 ， 必 须 处 理 许多 
底层 的 实现 细节 ， 并 且 不 得 不 将 他 们 要 做 的 查询 任务 编码 成 过 程 化 的 形式 。 更 重要 的 ， 他 们 在 
设计 应 用 程序 时 还 要 时 时 考虑 效率 问题 ， 而 这 需要 付出 很 大 的 努力 。 相 反 ， 在 关系 型 数据 库 
中 ， 几 乎 所 有 的 底层 工作 都 由 数据 库 自动 来 完成 ， 使 得 程序 员 可 以 只 考虑 逻辑 层 的 工作 。 自 从 
在 20 世纪 80 年 代 取 得 了 统治 地 位 以 来 ， 关 系 模型 在 数据 模型 中 一 直 独 占 鳌 头 。 
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在 20 世纪 80 年 代 人 们 还 对 并 行 和 分 布 式 数据 库 进 行 了 很 多 研究 ， 同 样 在 面向 对 象 数据 库 
方面 也 有 初步 的 工作 。 


。 20 世纪 90 年 代 初 : SQL 语言 主要 是 为 决策 支持 应 用 设计 的 ， 这 类 应 用 是 查询 密集 的 ; 而 20 世 


纪 80 年 代数 据 库 的 支柱 是 事务 处 理应 用 ， 它 们 是 更 新 密集 的 。 决 策 支 持 和 查询 再 度 成 为 数据 
库 的 一 个 主要 应 用 领域 。 分 析 大 量 数据 的 工具 有 了 很 大 的 发 展 。 

在 这 个 时 期 许多 数据 库 厂商 推出 了 并 行 数据 库 产品 。 数 据 库 厂商 还 开始 在 他 们 的 数据 库 中 
加 入 对 象 -关系 的 支持 。 


© 20 世纪 90 ER: 最 重大 的 事件 就 是 互联 网 的 爆炸 式 发 展 。 数 据 库 比 以 前 有 了 更 加 广泛 的 应 用 ， 


现在 数据 库 系统 必须 支持 很 高 的 事务 处 理 速度 ， 而 且 还 要 有 很 高 的 可 靠 性 和 24 x7 的 可 用 性 
(一 天 24 小 时 , 一 周 7 天 都 可 用 ， 也 就 是 没有 进行 维护 的 停机 时 间 )。 数 据 库 系 统 还 必须 支持 
对 数据 的 Web 接口 。 
21 世纪 第 一 个 十 年 : 21 世纪 的 最 初 五 年 中 ， 我 们 看 到 了 XML 的 兴起 以 及 与 之 相关 联 的 XQuery 
查询 语言 成 为 了 新 的 数据 库 技 术 。 虽 然 XML 广泛 应 用 于 数据 交换 和 一 些 复杂 数据 类 型 的 存储 ， 
但 关系 数据 库 仍然 构成 大 多 数 大 型 数据 库 应 用 系统 的 核心 。 在 这 个 时 期 我们 还 见证 了 “自主 
计算 /自动 管理 ”技术 的 成 长 ， 其 目的 是 减少 系统 管理 开销 ; 我 们 还 看 到 了 开源 数据 库 系统 应 用 
的 显著 增长 ， 特 别 是 PostgreSQL 和 MySQL. 

在 21 世纪 第 一 个 十 年 的 后 几 年 中 ， 用 于 数据 分 析 的 专门 的 数据 库 有 很 大 增长 ， 特 别 是 将 
一 个 表 的 每 一 个 列 高 效 地 存储 为 一 个 单独 的 数组 的 列 存 储 ， 以 及 为 非常 大 的 数据 集 的 分 析 而 设 
计 的 高 度 并 行 的 数据 库 系 统 。 有 几 个 新 颖 的 分 布 式 数据 存储 系统 被 构建 出 来 ， 以 应 对 非常 大 的 
Web 节点 如 Amazon, Facebook, Google, Microsoft 和 Yahoo! 的 数据 管理 需求 ， 并 且 这 些 系统 中 
的 某 些 现在 可 以 作为 Web 服务 提供 给 应 用 开发 人 员 使 用 。 在 管理 和 分 析 流 数据 如 股票 市 场 报价 
数据 或 计算 机 网 络 监测 数据 方面 也 有 重要 的 工作 。 数 据 挖掘 技术 现在 被 广泛 部 署 应 用 ， 应 用 实 
例 包 括 基 于 Web 的 产品 推荐 系统 和 Web 页面 上 的 相关 广告 自动 布 放 。 


总 结 


。 数据 库 管 理 系 统 ( DataBase-Management System, DBMS) 由 相互 关联 的 数据 集合 以 及 一 组 用 于 访问 


这 些 数 据 的 程序 组 成 。 数 据 描述 某 特定 的 企业 。 


。 DBMS 的 主要 目标 是 为 人 们 提供 方便 、 高 效 的 环境 来 存储 和 检索 数据 。 
© 如 今 数据 库 系统 无 所 不 在 ， 很 多 人 每 天 直接 或 间接 地 与 数据 库 系统 打交道 。 
。 数据 库 系统 设计 用 来 存储 大 量 的 信息 。 数 据 的 管理 既 包 括 信息 存储 结构 的 定义 ， 也 包括 提供 处 


理 信息 的 机 制 。 另 外 数据 库 系统 还 必须 提供 所 存储 信息 的 安全 性 ， 以 处 理 系 统 崩 溃 或 者 非 授权 
访问 企图 ， 如 果 数 据 在 多 个 用 户 之 间 共 享 ， 系 统 必须 避免 可 能 的 异常 结果 。 


。 数据 库 系统 的 一 个 主要 目的 是 为 用 户 提供 数据 的 抽象 视图 ， 也 就 是 说 ， 系 统 隐 藏 数据 存储 和 维 


护 的 细节 。 


。 数据 库 结 构 的 基础 是 数据 模型 ( data model): 一 个 用 于 描述 数据 、 数 据 之 间 的 联系 、 数 据 语义 


和 数据 约束 的 概念 工具 的 集合 。 


© 关系 数据 模型 是 最 广泛 使 用 的 将 数据 存储 到 数据 库 中 的 模型 。 其 他 的 数据 模型 有 面向 对 象 模 


型 、 对 象 - 关系 模型 和 半 结 构 化 数据 模型 。 


© 数据 操纵 语言 ( Data-Manipulation Language, DML) 是 使 得 用 户 可 以 访问 和 操纵 数据 的 语言 。 当 今 


广泛 使 用 的 是 非 过 程 化 的 DML， 它 只 需要 用 户 指明 需要 什么 数据 ， 而 不 需 指 明 如 何 获得 这 些 
数据 。 


。 数据 定义 语言 ( Data- Definition Language，DDL) 是 说 明 数据 库 模 式 和 数据 的 其 他 特性 的 语言 
。 数据库 设计 主要 包括 数据 库 模式 的 设计 。 实 体 - 联系 (E-R) 数据 模型 是 广泛 用 于 数据 库 设计 的 


数据 模型 ， 它 提供 了 一 种 方便 的 图 形 化 的 方式 来 观察 数据 、 联 系 和 约束 。 


© 数据 库 系统 由 几 个 子 系统 构成 : 


第 1 章 引 E 





存储 管理 器 ( storage manager) 子 系统 在 数据 库 中 存储 的 低层 数据 与 应 用 程序 和 向 系统 提交 的 查 

询 之 间 提 供 接 口 。 

O 查询 处 理 器 ( query processor) 子 系统 编译 和 执行 DDL 和 DML 语句 。 

。 事务 管理 (transaction management) 负责 保证 不 管 是 否 有 故障 发 生 ， 数 据 库 都 要 处 于 一 致 的 (正确 
的 ) 状 态 。 事 务 管理 器 还 保证 并 发 事务 的 执行 互 不 冲突 。 

© 数据 库 系统 的 体系 结构 受 支持 其 运行 的 计算 机 系统 的 影响 很 大 。 数 据 库 系统 可 以 是 集中 式 的 ， 
或 者 客户 -服务 器 方式 的 ， 即 一 个 服务 器 机 器 为 多 个 客户 机 执行 工作 。 数 据 库 系统 还 可 以 设计 
成 具有 能 充分 利用 并 行 计算 机 系统 结构 的 能 力 。 分 布 式 数据 库 跨越 多 个 地 理 上 分 布 的 互相 分 离 
的 计算 机 。 

e 典型 地 ， 数 据 库 应 用 可 被 分 为 运行 在 客户 机 上 的 前 端 和 运行 在 后 端的 部 分 。 在 两 层 的 体系 结构 
中 ,前端 直接 和 后 端 运 行 的 数据 库 进行 通信 。 在 三 层 结构 中 ， 后 端 又 被 分 为 应 用 服务 器 和 数据 
库 服务 器 。 

。 知识 发 现 技术 试图 自动 地 从 数据 中 发 现 统计 规律 和 模式 。 数 据 挖掘 ( data mining) 领域 将 人 工 智 
能 和 统计 分 析 研 究 人 员 创 造 的 知识 发 现 技 术 ， 与 使 得 知识 发 现 技术 能 够 在 极 大 的 数据 库 上 高 效 







































































实现 的 技术 结合 起 来 。 
。 有 4 种 不 同类 型 的 数据 库 用 户 ， 按 用 户 期 望 与 数据 库 进行 交互 的 不 同方 式 来 区 分 他 们 。 为 不 同 
类 的 用 户 设 计 了 不 同 的 用 户 界 面 。 
术语 回顾 
© 数据 库 管理 系统 (DBMS) O 实体 - 联系 模型 © 数据 字典 
。 数据 库 系统 应 用 关系 数据 模型 。 存储 管理 器 
© 文件 处 理 系统 基于 对 象 的 数据 模型 © 查询 处 理 器 
© 数据 不 一 致 性 口 半 结 构 化 数据 模型 。 事务 
。 一 致 性 约束 e 数据 库 语言 口 原子 性 
。 数据 抽象 O 数据 定义 语言 故障 恢复 
。 实例 O 数据 操纵 语言 并 发 控制 
。 模式 口 查询 语言 。 两 层 和 三 层 数据 库 体系 
物理 模式 。 元 数据 结构 
逻辑 模式 。 应 用 程序 。 数据 挖掘 
。 物理 数据 独立 性 。 规范 化 。 数据 库 管理 员 ( DBA) 
。 数据 模型 
实践 习题 


1.1 这 一 章 讲述 了 数据 库 系统 的 几 个 主要 的 优点 。 它 有 了 哪 两 个 不 足 之 处 ? 

1.2 Filth Java 或 C++ 之 类 的 语言 中 的 类 型 说 明 系统 与 数据 库 系统 中 使 用 的 数据 定义 语言 的 5 个 不 同 之 处 。 

1.3 列 出 为 一 个 企业 建立 数据 库 的 六 个 主要 步骤 。 

1.4 除 1.6.2 节 中 已 经 列 出 的 之 外 ， 请 列 出 大 学 要 维护 的 至 少 3 种 不 同类 型 的 信息 。 

1.5 假设 你 想 要 建立 一 个 类 似 于 YouTube 的 视频 节点 。 考 虑 1. 2 节 中 列 出 的 将 数据 保存 在 文件 系统 中 的 各 
个 缺点 ， 讨 论 每 一 个 缺点 与 存储 实际 的 视频 数据 和 关于 视频 的 元 数据 (诸如 标题 、 上 传 它 的 用 户 、 标 
签 、 观 看 它 的 用 户 ) 的 关联 。 

1.6 在 Web 查找 中 使 用 的 关键 字 查 询 与 数据 库 查 询 很 不 一 样 。 请 列 出 这 两 者 之 间 在 查询 表达 方式 和 查询 结 
果 是 什么 方面 的 主要 差异 。 


习题 


1.7 列 出 四 个 你 使 用 过 的 很 可 能 使 用 了 数据 库 来 存储 持久 数据 的 应 用 。 
1.8 列 出 文件 处 理 系 统 和 DBMS 的 四 个 主要 区 别 。 
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1.9 解释 物理 数据 独立 性 的 概念 ， 以 及 它 在 数据 库 系统 中 的 重要 性 。 

1.10 列 出 数据 库 管 理 系统 的 五 个 职责 。 对 每 个 职责 ， 说 明 当 它 不 能 被 履行 时 会 产生 什么 样 的 问题 。 

1. 11 请 给 出 至 少 两 种 理由 说 明 为 什么 数据 库 系 统 使 用 声明 性 查询 语言 ， 如 SQL， 而 不 是 只 提供 C 或 者 C ++ 
的 函数 库 来 执行 数据 操作 。 

1.12 解释 用 图 1-4 中 的 表 来 设计 会 导致 哪些 问题 。 

1.13 数据库 管理 员 的 五 种 主要 作用 是 什么 ? 

1.14 解释 两 层 和 三 层 体 系 结构 之 间 的 区 别 。 对 Web 应 用 来 说 哪 一 种 更 合适 ? 为 什么 ? 

1.15 ”描述 可 能 被 用 于 存储 一 个 社会 网 络 系统 如 Facebook 中 的 信息 的 至 少 3 个 表 。 


如 今 已 有 大 量 的 商业 数据 库 系 统 投入 使 用 ， 主 要 的 有 : IBM DB2 (www. ibm. com/ software/data/db2 ) 、 
Oracle( www. oracle. com) 、Microsoft SQL Server ( www. microsoft. com/sql) 、Sybase ( www. sybase. com) 和 IBM 
Informix( www. ibm. com/software/data/informix) 。 其 中 一 些 对 个 人 或 者 非 商 业 使 用 或 开发 是 免费 的 ， 但 是 对 实 
际 的 部 署 是 不 免费 的 。 

也 有 不 少 免费 /公开 的 数据 库 系 统 ， 使 用 很 广泛 的 有 MySQL ( www. mysql. com) 和 PostgreSQL ( www. 
postgresql. org) 。 

在 本 书 的 主页 www. db-book. com 上 可 以 获得 更 多 的 厂商 网 址 的 链接 和 其 他 信息 。 


文献 注解 


我 们 在 下 面 列 出 了 关于 数据 库 的 通用 书籍 、 研 究 论文 集 和 Web 节点 。 后 续 各 章 提 供 了 本 章 略 述 的 每 个 
主题 的 资料 参考 。 

Codd[ 1970 ] 的 具有 里 程 碑 意义 的 论文 引入 了 关系 模型 。 

关于 数据 库 系 统 的 教科 书 有 Abiteboul 等 [1995 ] O’Neil 和 O'Neil [ 2000 ] Ramakrishnan 和 Gehrke 
[2002] 、Date [ 2003 ] 、Kifer 等 [2005 ] 、Elmasri 和 Navathe [2006] ,以 及 Garcia-Molina 等 [2008 ] 。 涵 盖 事 务 
处 理 的 教科 书 有 Bernstein 和 Newcomer[ 1997 ] 以 及 Gray 和 Reuter[ 1993 ] 。 有 一 本 书 中 包含 了 关于 数据 库 管 理 
的 研究 论文 的 汇集 ， 这 本 书 是 Hellerstein 和 Stonebraker [ 2005 | 。 

Silberschatz 等 [1990 ] Silberschatz 等 [1996 ] 、Bernstein 等 [1998 ] ， 以 及 Abiteboul 等 [2003 | 给 出 了 关于 
数据 库 管 理 已 有 成 果 和 未 来 研究 挑战 的 综合 评述 。ACM 的 数据 管理 兴趣 组 的 主页 ( www. acm. org/sigmod ) 提 
供 了 关于 数据 库 研究 的 大 量 信息 。 数 据 库 厂商 的 网 址 (参看 上 面 的 工具 部 分 ) 提 供 了 他 们 各 自 产品 的 细节 。 


| 第 一 部 分 


Part 1 





数据 模型 是 描述 数据 、 数 据 联 系 、 数 据 语 义 以 及 一 致 性 约束 的 概念 工具 的 集合 。 在 这 一 
部 分 中 ， 我 们 集中 学 习 关 系 模 型 。 

关系 模型 利用 表 的 集合 来 表示 数据 和 数据 间 的 联系 ， 第 2 章 将 专门 介绍 关系 模型 。 其 概 
念 上 的 简单 性 使 得 它 被 广泛 采纳 ; 今天 大 量 的 数据 库 产 品 都 是 基于 关系 模型 的 。 关 系 模 型 在 
遇 辑 层 和 视图 层 描 述 数据 ， 使 用 户 不 必 关 注 数 据 存 储 的 底层 细节 。 在 后 面 第 二 部 分 的 第 7 SE 
中 讨论 的 实体 -联系 模型 是 一 种 更 高 层 的 数据 模型 ， 被 广泛 用 于 数据 库 设计 。 

为 了 让 用 户 可 以 使 用 关系 数据 库 中 的 数据 ,我们 需要 解决 几 个 问题 。 最 重要 的 问题 是 用 
户 如 何 说 明 对 数据 的 检索 和 更 新 请 求 ， 为 此 已 经 开发 了 好 几 种 查询 语言 。 第 二 个 问题 也 很 重 
要 ， 就 是 数据 完整 性 和 数据 保护 。 无 论 用 户 有 意 或 无 意 地 破坏 数据 ， 数据库 都 要 保护 数据 ， 
fe FL KIRA, 

第 3 章 、 第 4 章 和 第 5 章 讲 述 当 今 应 用 最 普遍 的 一 种 查询 语言 一 一 SQL 语言。 第 3 章 和 第 
4 章 介绍 SQL 及 其 中 等 程度 的 应 用 知识 。 第 4 章 还 将 介绍 通过 数据 库 施 加 完整 性 约束 以 及 授权 
” 机制， 用 来 控制 用 户 发 出 的 哪些 访问 和 更 新 操作 是 可 以 执行 的 。 第 5 章 介 绍 更 为 深入 的 主题 ， 
包括 如 何在 编程 语言 中 使 用 SQL， 如 何 利 用 SQL 进行 数据 分 析 。 

第 6 章 介 绍 三 种 形式 的 查询 语言 : 关系 代数 、 元 组 关系 演算 和 域 关 系 演算 ， 它们 是 基于 
数学 区 辑 的 声明 式 查 询 语言 。 这 些 形式 语言 构成 了 SQL， 以 及 另外 两 种 用 户 友 好 的 语言 QBE 
和 Datalog 的 基础 。( QBE 和 Datalog 的 介绍 参见 附录 B，db-book. com 上 提供 在 线 资料 。) 
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关系 模型 介绍 


在 商用 数据 处 理应 用 中 ， 关 系 模型 已 经 成 为 当今 主要 的 数据 模型 。 之 所 以 占据 主要 位 置 ， 是 因 
为 和 早期 的 数据 模型 如 网 络 模型 或 层次 模型 相 比 ， 关 系 模型 以 其 简易 性 简化 了 编程 者 的 工作 。 

本 章 我 们 先 学 习 关 系 模型 的 基础 知识 。 关 系数 据 库 具 有 坚实 的 理论 基础 ， 我 们 在 第 6 章 学 习 关 
系数 据 库 理论 中 与 查询 相关 的 部 分 ， 从 第 7 章 到 第 8 章 我 们 将 考察 其 中 用 于 关系 数据 库 模式 设计 的 
部 分 ， 在 第 12 章 和 第 13 章 我 们 将 讨论 高 效 处 理 查询 的 理论 。 


2.1 关系 数据 库 的 结构 


KA BGR HR (table) 的 集合 构成 ， 每 个 表 有 唯一 的 名 字 。 例 如 ， 图 2-1 中 的 instructor 表 记 录 
了 有 关 教 师 的 信息 ， 它 有 四 个 列 首 : ID, name, dept_name 和 salary。 该 表 中 每 一 行 记 录 了 一 位 教师 
的 信息 ， 包 括 该 教师 的 轧 、name、dept_name 以 及 salary。 类 似 地 ， 图 2-2 中 的 course 表 存 放 了 关于 课 
程 的 信息 ， 包 括 每 门 课程 的 course_id、title 、dept_name 和 credits。 注 意 ， 每 位 教师 通过 ID 列 的 取 值 进 














行 标识 ， 而 每 门 课程 则 通过 course_id 列 的 取 值 来 标识 。 ID | name | dept.name | salary 

图 2-3 给 出 的 第 三 个 表 是 prereg， 它 存放 了 每 门 课程 的 10101 | Srinivasan | Comp. Sci. | 65000 

> as - 。 | 12121 | Wu Finance 90000 

先 修 课程 信 息 。 该 表 具 有 ee 和 Pane 两 列 ， 每 | 15151 | Mozart Music 40000 
行 由 一 个 课程 对 组 成 ,这 个 课程 对 表示 了 第 二 门 课程 是 第 ，22222 | Einstein | Physics 95000 | 

, > 32343 | ElSaid History 60000 

门 课程 的 先 修 课 。 33456 | Gold Physics | 87000 


由 此 ，prereg 表 中 的 每 行 表 示 了 两 门 课程 之 间 的 联系 : 其 45565 | Katz Comp. Sci. | 75000 
中 一 门 课程 是 另 一 门 课程 的 先 修 课 。 作 为 另 一 个 例子 , 我 们 “| 76543 | Singh | Finance | 80000 














Finance 
考察 instructor 表 ， 表 中 的 行 可 被 认为 是 代表 了 从 一 个 特定 的 | 76766 ee Pees 72000 
` 83821 | B t . Sci. | 92000 
ID 到 相应 的 name, dept_name 和 salary 值 之 间 的 联系 。 | 98345 Kim Elec. Eng. 80000 





一 般 说 来 ， 表 中 一 行 代表 了 一 组 值 之 间 的 一 种 联系 。 由 Har ureri 
于 一 个 表 就 是 这 种 联系 的 一 个 集合 ， 表 这 个 概念 和 数学 上 的 7 
关系 这 个 概念 是 密切 相关 的 ， 这 也 正 是 关系 数据 模型 名 称 的 由 来 。 在 数学 术语 中 ,元 组 (tuple) 只 
组 值 的 序列 (或 列表 )。 在 nn 个 值 之 间 的 一 种 联系 可 以 在 数学 上 用 关于 这 些 值 的 一 个 nn 元 组 (n-tuple) 来 
表示 ， 换 言 之 , 元 组 就 是 一 个 有 个 值 的 元 组 ， 它 对 应 于 表 中 的 一 行 。 























courseid | title dept name | credits | 
BIO-101 | Intro. to Biology Biology 4 | 
BIO-301 | Genetics Biology 4 

| BIO-399 | Computational Biology | Biology 3 
CS-101 | Intro. to Computer Science | Comp. Sci. = 

| CS-190 | Game Design | Comp. Sci. 4 

| CS-315 Robotics Comp. Sci. g 
CS-319 Image Processing Comp. Sci. 3 
CS-347 | Database System Concepts | Comp. Sci. 3 | 
EE-181 Intro. to Digital Systems Elec. Eng. 3 
FIN-201 | Investment Banking Finance 3 
HIS-351 | World History History 3 
MU-199 | Music Video Production | Music 3 
PHY-101 | Physical Principles | Physics 4 





图 2-2 course 关系 
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这 样 ， 在 关系 模型 的 术语 中 ， 关 系 (relation ) 用 来 指 代表 ， 而 元 组 ( tuple ) 用 米 指 代行 ”类 似 地 ， 属 
HE ( attribute ) 指 代 的 是 表 中 的 列 。 
考察 图 2- 1， 我 们 可 以 看 出 instructor 关系 有 四 个 属性 : ID、name、dept_ 





name il salary, ~~ BIO-301 ”BIO 
我 们 用 关系 实例 (relation instance) 这 个 术语 来 表示 一 个 关系 的 特定 实例 ，。 POE | PE 

也 就 是 所 包含 的 一 组 特定 的 行 。 图 2-1 所 示 的 instructor 的 实例 有 12 个 元 组 对 o CS315 cio! 

应 于 12 个 教师 。 es ye 


本 章 我 们 将 使 用 多 个 不 同 的 关系 来 说 明 作 为 关系 数据 模型 基础 的 各 种 概 | FESI PY 0 
念 。 这 些 关 系 代表 一 个 大 学 的 一 部 分 。 它 们 并 没有 包含 真实 的 大 学 数据 库 中 的 图 2-3 prereg 关系 
所 有 数据 ， 这 主要 是 为 了 简化 表示 。 在 第 7 章 和 第 8 章 里 我 们 将 详细 讨论 如 何 
判断 适当 的 关系 结构 的 相关 准则 。 l 

由 于 关系 是 元 组 集合 ， 所 以 元 组 在 关系 中 出 现 的 顺序 是 无 关 紧要 的 。 因 此 ， 无论 关 系 中 的 元 组 是 像 
图 2-1 那样 被 排序 后 列 出 ， 还 是 像 图 2-4 那样 无 序 的 ， 都 没有 关系 ; 在 上 述 两 图 中 的 关系 是 一 样 的 ， 因 
为 它们 具有 同样 的 元 组 集合 。 为 便于 说 明 ， 当 我 们 在 显示 关系 时 ， 大 多 数 情况 下 都 按 其 第 一 个 属性 排序 。 








对 于 关系 的 每 个 属性 ， 都 存在 一 个 允许 取 值 的 集合 ， 称 ID | name | deptname | salary 
为 该 属性 的 域 ( domain ) 。 这 样 instructor 关系 的 salary 属性 的 | 22222 | Einstein Physics 95000 | 
4 | 12121 | w Fina 90000 
域 就 是 所 有 可 能 的 工资 值 的 集合 ， 而 name 属性 的 域 是 所 有 | 35343 | Ei cai rea p 
可 能 的 教师 名 字 的 集合 。 45565 | Katz Comp. Sci. | 75000 
我 们 要 求 对 所 有 关系 r 而 言 ，r 的 所 有 属性 的 域 都 是 原子 | 76766 | Cik | Biology” | 72000 
的 。 如 果 域 中 元 素 被 看 作 是 不 可 再 分 的 单元 ， 则 域 是 原子 的 | 10101 | Srinivasan | Comp. Sci. | 65000 
(atomic) 。 例 如 ， 假 设 instructor 表 上 有 一 个 属性 phone. | 83821 | Brandt | Comp’ Sci. | 92000 
number， 它 存放 教师 的 一 组 联系 电话 号 码 。 那 么 phone _ | 15151 | Mozart Music | 40000 | 
number 的 域 就 不 是 原子 的 ， 因 为 其 中 的 元 素 是 一 组 电话 号 | 76543 | Singh | Finance | 80000 




















码 ， 是 可 以 被 再 分 为 单个 电话 号 码 这 样 的 子 成 分 的 。 

重要 的 问题 不 在 于 域 本 身 是 什么 ， 而 在 于 我 们 怎样 在 数 
据 库 中 使 用 域 中 元 素 。 现 在 假设 phone_number 属性 存放 单个 电话 号 码 。 即 便 如 此 ， 如 果 我 们 把 电话 号 
码 的 属性 值 拆 分 成 国家 编号 、 地 区 编号 以 及 本 地 号 码 ， 那 么 我 们 还 是 把 它 作 为 非 原子 值 来 对 待 。 如 果 
我 们 把 每 个 电话 号 码 作 为 不 可 再 分 的 单元 ， 那 么 phone_number 属性 才 会 有 原子 的 域 。 

在 本 章 ， 以 及 第 3 章 ~ 第 6 章 , 我 们 假设 所 有 属性 的 域 都 是 原子 的 。 在 第 22 章 中 ,我们 将 讨论 对 
关系 数据 模型 进行 扩展 以 便 允 许 非 原子 域 。 

空 (null) 值 是 一 个 特殊 的 值 ， 表 示 值 未 知 或 不 存在 。 如 前 所 述 ， 如 果 我 们 在 关系 instructor 中 包括 
属性 phone_number， 则 可 能 某 教 师 根 本 没有 电话 号 码 ， 或 者 电话 号 码 未 提供 。 这 时 我 们 就 只 能 使 用 空 
值 来 强调 该 值 未 知 或 不 存在 。 以 后 我 们 会 看 到 ， 空 值 给 数据 库 访 问 和 更 新 带 来 很 多 困难 ， 因 此 应 尽量 
避免 使 用 空 值 。 我 们 先 假设 不 存在 空 值 ， 然 后 在 3.6 节 中 我 们 将 描述 空 值 对 不 同 操作 的 影响 。 


2.2 数据 库 模式 


当 我 们 谈论 数据 库 时 ， 我们 必须 区 分 数据 库 模 式 ( database schema ) 和 数据 库 实 例 ( database 
instance) ， 前 者 是 数据 库 的 逻辑 设计 ， 后 者 是 给 定时 刻 数 据 库 中 数据 的 一 个 快照 。 

关系 的 概念 对 应 于 程序 设计 语言 中 变量 的 概念 ， 而 关系 模式 (relation schema) 的 概念 对 应 于 程序 设 
计 语 言 中 类 型 定义 的 概念 。 

一 般 说 来 ， 关 系 模式 由 属性 序列 及 各 属性 对 应 域 组 成 。 等 第 3 章 讨 论 SQL 语言 时 ， 我 们 才 去 关心 
每 个 属性 的 域 的 精确 定义 。 

关系 实例 的 概念 对 应 于 程序 设计 语言 中 变量 的 值 的 概念 。 给 定 变 量 的 值 可 能 随时 间 发 生变 化 ; 类 
似 地 ， 当 关系 被 更 新 时 ,关系 实 例 的 内 容 也 随时 间 发 生 了 变化 。 相 反 ， 关 系 的 模式 是 不 常 变化 的 。 “l 

尽管 知道 关系 模式 和 关系 实例 的 区 别 非常 重要 ， 我 们 常常 使 用 同一 个 名 字 ， 比 如 instructor, tg 42 


图 2-4 instructor 关系 的 无 序 显示 
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代 模 式 ， 也 指 代 实 例 。 在 需要 的 时 候 , 我 们 会 显示 地 指明 模式 或 实例 。 例 如 “instructor 模式 "或 
“instructor 关系 的 一 个 实例 。 然 而 ， 在 模式 或 实例 的 含义 清楚 的 情况 [dept name | building | budget 











| 
下 ， 我 们 就 简单 地 使 用 关系 的 名 字 . Biology | Watson | 90000 | 
考察 图 2-5 中 的 department 关系 ， 该 关系 的 模式 是 ， Comp. Sci. | Taylor | 100000 | 
Elec. Eng. | Taylor | 85000 
department (dept_name, building, budget ) Finance | Painter | 120000 
History | Painter 50000 | 


请 注意 属性 dept_name 既 出 现在 instructor 模式 中 ， 又 出 现在 | Music Packard | 80000 
department 模式 中 。 这 样 的 重复 并 不 是 一 种 巧合 。 实 际 上 ， 在 关系 模 Physics | Watson 70000 | 
式 中 使 用 相同 属性 正 是 将 不 同 关 系 的 元 组 联系 起 来 的 一 种 方法 。 例 图 2-5 department 关系 
如 ， 假 设 我 们 希望 找 出 在 Watson 大 楼 工作 的 所 有 教师 的 相关 信息 。 

我 们 首先 在 department 关系 中 找 出 所 有 位 于 Watson 的 系 的 dept_name。 接 着 ,对 每 一 个 这 样 的 系 ， 我 们 
在 instructor 关系 中 找 出 与 dept_name 对 应 的 教师 信息 。 

我 们 继续 看 大 学 数据 库 的 例子 。 

大 学 里 的 每 门 课程 可 能 要 讲授 多 次 ， 可 以 在 不 同学 期 授课 ， 甚 至 可 能 在 同一 个 学 期 授课 。 我 们 需 
要 一 个 关系 来 描述 每 次 课 的 授课 情况 或 分 段 情况 。 该 关系 模式 为 : 


section (course_id, sec_id, semester, year, building, room_number , time_slot_id ) 


图 2-6 给 出 了 section 关系 的 一 个 示例 。 
我 们 需要 一 个 关系 来 描述 教师 和 他 们 所 讲授 的 课程 段 之 间 的 联系 。 描 述 此 联系 的 关系 模式 是 : 
























































teaches (ID, course_id, sec_id, semester, year) 
course id | secid | semester | year | building room number | time slotid | 
BIO-101 1 | Summer | 2009 | Painter 514 | B 
BIO-301 1 Summer | 2010 | Painter 514 | A 
CS-101 1 Fall 2009 | Packard 101 H 
CS-101 1 | Spring | 2010 | Packard 101 | F 
CS-190 Spring 2009 | Taylor 3128 | E 
CS-190 2 Spring 2009 | Taylor 3128 | A 
CS-315 1 Spring 2010 | Watson 120 D 
CS-319 1 Spring 2010 | Watson 100 B 
CS-319 2 Spring 2010 | Taylor 3128 C 
CS-347 1 Fall 2009 | Taylor 3128 A 
FE-181 1 | Spring | 2009 | Taylor 3128 | C 
FIN-201 1 Spring 2010 | Packard 101 | B 
HIS-351 1 Spring 2010 | Painter 514 | C 
MU-199 1 Spring 2010 | Packard 101 D 
PHY-101 1 Fall 2009 | Watson L 100 | A 
图 2-6 section 关系 
图 2-7 给 出 了 teaches 关系 的 一 个 示例 。 [ ID ~ | courseid | secid | semester | year | 
正如 你 可 以 料想 的 ， 在 一 个 真正 的 大 学 数据 库 中 还 维 = 10101 | CS-101 1 | Fall | 2009 
你 中 已 经 列 出 的 这 些 关系 | 10101 | CS-315 1 |Spring | 2010 
护 了 更 多 的 关系 。 除 了 我 们 已 经 列 出 的 这 些 关 系 : i001 | Coser i T 
instructor, department, course, section, prereq 和 teaches, {E 12121 | FIN-201 | 1 Spring | 2010 | 
> a 15151 | MU-199 | 1 Spring | 2010 
I | | 
本 书 中 我 们 还 要 使 用 下 列 关系 : 22222 | PHY-101 | 1 | Fall | 2009 
è student (ID, name, dept_name, tot_cred) 32343 | HIS-351 1 Spring, 2010 
i z X3 45565 | CS-101 1 Spring 2010 
© advisor (s_id, i_id) 45565 | CS-319 1 | Spring | 2010 
® takes (ID, course_id, sec_id, semester, year, grade) 76766 | BIO-101 1 | Summer | 2009 
g . 76766 | BIO-301 1 Summer | 2010 
® classroom ( building, room_number , capacity ) 83821 | CS-190 i Spring 2009 
® time_slot (time_slot_id, day, start_time, end_time) 83821 | CS-190 2 Spring 2009 
83821 | CS-319 2 | Spring | 2010 | 
2. 3 人 码 98345 EE-181 1 | Spring | 2009 | 














我 们 必须 有 一 种 能 区 分 给 定 关 系 中 的 不 同 元 组 的 方 图 2-7 teaches 关系 
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法 。 这 用 它们 的 属性 来 表明 。 也 就 是 说 ， 一 个 元 组 的 属性 值 必须 是 能 够 唯一 区 分 元 组 的 。 换 名 话说 ， 
一 个 关系 中 没有 两 个 元 组 在 所 有 属性 上 的 取 值 都 相同 。 

超 码 ( superkey ) 是 一 个 或 多 个 属性 的 集合 ， 这 些 属 性 的 组 合 可 以 使 我 们 在 一 个 关系 中 唯一 地 标识 
一 个 元 组 。 例 如 ，instructor 关系 的 ID 属性 足以 将 不 同 的 教师 元 组 区 分 开 来 ， 因 此 ，/1D 是 一 个 超 码 。 另 
一 方面 ，instructor 的 name 属性 却 不 是 一 个 超 码 ， 因 为 几 个 教师 可 能 同名 。 

形式 化 地 描述 ， 设 RR 表示 关系 7 模式 中 的 属性 集合 。 如 果 我 们 说 R 的 一 个 子 集 KK 是 7 的 一 个 超 码 ， 
则 限制 了 关系 7 中 任意 两 个 不 同 元 组 不 会 在 K 的 所 有 属性 上 取 值 完全 相等 ， 即 如 果 t Ale, fer PA 
ti#t Wt. KAt. Ko 

超 码 中 可 能 包含 无 关 紧 要 的 属性 。 例 如 ，1D 和 name 的 组 合 是 关系 instructor 的 一 个 超 码 。 如 果 K 
是 一 个 超 码 ， 那 么 的 任意 超 集 也 是 超 码 。 我 们 通常 只 对 这 样 的 一 些 超 码 感 兴趣 ， 它 们 的 任意 真子 集 
都 不 能 成 为 超 码 。 这 样 的 最 小 超 码 称 为 候选 码 ( candidate key) 。 

几 个 不 同 的 属性 集 都 可 以 做 候选 码 的 情况 是 存在 的 。 假 设 name 和 dept_name 的 组 合 足 以 区 分 
instructor 关系 的 各 个 成 员 ， 那 么 11D| 和 | name, dept_name| 都 是 候选 码 。 虽 然 属性 ID 和 name 一 起 能 区 分 
instructor 元 组 ， 但 它们 的 组 合 | 1D, name | 并 不 能 成 为 候选 码 ， 因 为 单独 的 属性 ID 已 是 候选 码 。 

我 们 用 主 码 ( primary key) 这 个 术语 来 代表 被 数据 库 设计 者 选中 的 、 主 要 用 来 在 一 个 关系 中 区 分 不 
同 元 组 的 候选 码 。 码 (不 论 是 主 码 、 候 选 码 或 超 码 ) 是 整个 关系 的 一 种 性 质 ， 而 不 是 单个 元 组 的 性 质 。 
关系 中 的 任意 两 个 不 同 的 元 组 都 不 允许 同时 在 码 属性 上 具有 相同 的 值 。 码 的 指定 代表 了 被 建 模 的 事物 
在 现实 世界 中 的 约束 。 

主 码 的 选择 必须 慎重 。 正 如 我 们 所 注意 到 的 那样 ， 人 名 显然 是 不 足以 作 主 码 的 ， 因 为 可 能 有 多 个 
人 重 名 。 在 美国 ， 人 的 社会 保障 号 可 以 作 候选 码 。 而 非 美 国 居民 通常 不 具有 社会 保障 号 ， 所 以 跨国 企 
业 必 须 设 置 他 们 自己 的 唯一 标识 符 。 另 外 也 可 以 使 用 另 一 些 属性 的 唯一 组 合作 为 码 。 | 44 | 

主 码 应 该 选择 那些 值 从 不 或 极 少 变化 的 属性 。 例 如 ， 一 个 人 的 地 址 就 不 应 该 作为 主 码 的 一 部 分 ， | | 
因为 它 很 可 能 变化 。 另 一 方面 ， 社 会 保障 号 却 可 以 保证 决 不 变化 。 企 业 产生 的 唯一 标识 符 通常 不 变 ， 
除非 两 个 企业 合并 了 ， 这 种 情况 下 可 能 在 两 个 公司 中 会 使 用 相同 的 标识 符 ， 因 此 需要 重新 分 配 标识 符 
以 确保 其 唯一 性 。 

习惯 上 把 一 个 关系 模式 的 主 码 属 性 列 在 其 他 属性 前 面 ; AA, department 中 的 dept_name 属性 最 先 
列 出 ， 因 为 它 是 主 码 。 主 码 属 性 还 加 上 了 下 划 线 。 

一 个 关系 模式 (如 x) 可 能 在 它 的 属性 中 包括 男 一 个 关系 模式 (如 7,) 的 主 码 。 这 个 属性 在 r,， ERE 
参照 r, 的 外 码 (foreign key), XA r, 也 称 为 外 码 依 赖 的 参照 关系 ( referencing relation), r, 叫做 外 码 的 被 
参照 关系 (referenced relation )。 例 如 ，instructor 中 的 dept_name 属性 在 instructor 上 是 外 码 ， 它 参照 
department, W} dept_name 是 department 的 主 码 。 在 任意 的 数据 库 实 例 中 ， 从 instructor 关系 中 任 取 一 个 
TCH, EUN t, Æ department 关系 中 必定 存在 某 个 元 组 ， 比 如 i,， 使 得 i, 在 dept_name 属性 上 的 取 值 与 
t, 在 主 码 dept_name 上 的 取 值 相同 。 

现在 考察 section 和 teaches 关系 。 如 下 需求 是 合理 的 : 如 果 一 门 课程 是 分 段 授 课 的 ， 那么 它 必须 至 
少 由 一 位 教师 来 讲授 ; 当然 它 可 能 由 不 止 一 位 教师 来 讲授 。 为 了 施加 这 种 约束 ， 我们 需要 保证 如 果 一 
个 特定 的 (course_id，sec_id，semester, year) 组 合 出 现在 section 中 ， 那 么 该 组 合 也 必须 出 现在 teaches 中 。 
可 是 ， 这 组 值 并 不 构成 teaches 的 主 码 ， 因 为 不 止 一 位 教师 可 能 讲授 同一 个 这 样 的 课程 段 。 其 结果 是 ， 
我 们 不 能 声明 从 section 到 teaches 的 外 码 约束 (尽管 我 们 可 以 在 相反 的 方向 上 声明 从 teaches 到 section 的 
外 码 约束 ) o 

从 section 到 teaches 的 约束 是 参照 完整 性 约束 (referential integrity constraint) 的 一 个 例子 。 人 参照 完整 
性 约束 要 求 在 参照 关系 中 任意 元 组 在 特定 属性 上 的 取 值 必然 等 于 被 参照 关系 中 某 个 元 组 在 特定 属性 上 
的 取 值 。 


2.4 模式 图 
一 个 含有 主 码 和 外 码 依赖 的 数据 库 模式 可 以 用 模式 图 (schema diagram) 来 表示 。 图 2-8 展示 了 我 们 


26 第 一 部 分 关系 数据 库 


大 学 组 织 的 模式 图 。 每 一 个 关系 用 一 个 矩形 来 表示 ， 关 系 的 名 字 显 示 在 矩形 上 方 ， 和 矩形 内 列 出 各 属性 。 
主 码 属 性 用 下 划 线 标注 。 外 码 依赖 用 从 参照 关系 的 外 码 属性 到 被 参照 关系 的 主 码 属性 之 间 的 箭头 来 
[46 ] 表示 。 




















room no 
capacity 











图 2-8 大 学 数据 库 的 模式 图 


除外 码 约 束 之 外 ， 模 式 图 中 没有 显示 表示 出 参照 完整 性 约束 。 在 后 面 第 7 章 ， 我 们 将 学 习 一 种 不 
同 的 、 称 作 实 体 - 联系 图 的 图 形 化 表示 。 实 体 - 联系 图 有 助 于 我 们 表示 几 种 约束 ， 包 括 通用 的 参照 完 
整 性 约束 。 

很 多 数据 库 系 统 提 供 图 形 化 用 户 界面 设计 工具 来 建立 模式 图 。 我 们 将 在 第 7 章 详细 讨论 模式 的 图 
形 化 表示 。 

在 后 面 的 章节 中 我 们 使 用 大 学 作为 例子 。 图 2-9 给 出 了 我 们 在 例子 中 使 用 的 关系 模式 ， 其 中 主 码 
属性 被 标 上 了 下 划 线 。 正 如 我 们 将 在 第 3 章 中 看 到 的 一 样 ， 这 对 应 于 在 SQL 的 数据 定义 语言 中 定义 关 
系 的 方法 。 





classroom(building, room.number, capacity) 
department(dept_name, building, budget) 
course(course_id, title, dept_name, credits) 
instructor(ID, name, dept_name, salary) 
section(courseid, sec.id, semester, year, building, room.number, time_slotid) 
teaches(ID, course_id, secid, semester, 1 year) 
student(ID, name, dept name, tot cred) 
takes(ID, course_id, sec_id, semester, year, grade) 
advisor(s_ID, iID) = 
time_slot(time_slotid, day, start_time, end_time) 
prereq(course_id, prereq id) 


图 2-9 大 学 数据 库 模式 


























2.5 关系 查询 语言 


查询 语言 (query language) 是 用 户 用 来 从 数据 库 中 请 求 获取 信息 的 语言 。 这 些 语言 通常 比 标准 的 程 
序 设计 语言 层次 更 高 。 查 询 语言 可 以 分 为 过 程 化 的 和 非 过 程 化 的 。 在 过 程 化 语言 (procedural language) 
中 ,用 户 指导 系统 对 数据 库 执 行 一 系列 操作 以 计算 出 所 需 结 果 。 在 非 过 程 化 语言 (nonprocedural 
language) 中 ， 用 户 只 需 描述 所 需 信 息 ， 而 不 用 给 出 获取 该 信息 的 具体 过 程 。 

实际 使 用 的 查询 语言 既 包含 过 程 化 方式 的 成 分 ， 又 包含 非 过 程 化 方式 的 成 分 。 我 们 从 第 3 章 到 第 5 
章 学 习 被 广泛 应 用 的 查询 语言 SQL。 

有 一 些 “ 纯 ”查询 语言 : 关系 代数 是 过 程 化 的 ， 而 元 组 关系 演算 和 域 关 系 演算 是 非 过 程 化 的 。 这 些 
语言 简洁 且 形 式 化 ， 默 认 商 用 语言 的 “句法 修饰 ”， 但 它们 说 明了 从 数据 库 中 提取 数据 的 基本 技术 。 在 


第 6 章 ， 我 们 详细 研究 关系 代数 和 关系 演算 的 两 种 形式 ， 即 元 组 关系 演算 和 域 关 系 演算 。 关 系 代 数 包 
括 一 个 运算 的 集合 ， 这 些 运算 以 一 个 或 两 个 关系 为 输入 ， 产 生 一 个 新 的 关系 作为 结果 。 关 系 演算 使 用 


谓词 逻辑 来 定义 所 需 的 结果 ， 但 不 需 给 出 获取 结果 的 特定 代数 过 程 。 
2.6 关系 运算 


所 有 的 过 程 化 关系 查询 语言 都 提供 了 一 组 运算 ， 这 些 运算 要 么 施加 于 单个 关系 上 ， 要 么 施加 于 一 
对 关系 上 。 这 些 运算 具有 一 个 很 好 的 ， 并 且 也 是 所 需 的 性 质 : 运算 结果 总 是 单个 的 关系 。 这 个 性 质 使 
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得 人 们 可 以 模块 化 的 方式 来 组 合 几 种 这 样 的 运算 。 特 别 是 ， 由 于 关系 查询 的 结果 本 身 也 是 关系 ， 所 以 


关系 运算 可 施加 到 查询 结果 上 ， 正 如 施加 到 给 定 关系 集 上 一 样 。 


在 不 同 语言 中 ， 特 定 的 关系 运算 的 表示 是 不 同 的 ， 但 都 符合 我 们 在 本 章 所 描述 的 通用 结构 。 在 第 


3 章 ， 我 们 将 给 出 在 SQL 中 表达 关系 运算 的 特殊 方式 。 


最 常用 的 关系 运算 是 从 单个 关系 (如 instructor) 中 选 出 满足 一 些 特定 谓词 (如 salary > 85 000 美元 ) 的 





特殊 元 组 。 其 结果 是 一 个 新 关系 ， 它 是 原始 关系 (instructor ) 的 一 个 子 集 。 例 如 ， 如 果 我 们 从 图 2-1 的 H 
salary | | 48 | 


instructor 关系 中 选择 满足 谓词 “工资 大 于 85 000 美元 ”的 元 组 ， ID 





| name 





dept name | salary 








我 们 得 到 的 结果 如 图 2-10 所 示 。 12121 


另 一 个 常用 的 运算 是 从 一 个 关系 中 选 出 特定 的 属性 ( 列 ) | 22222 


33456 





其 结果 是 一 个 只 包含 那些 被 选择 属性 的 新 关系 。 例 如 ， 假 设 我 ”| 83921 | 


| Wu 
Einstein 
| Gold 
Brandt 








Finance 90000 
Physics 95000 
Physics 87000 
Comp. Sci. | 92000 





们 从 图 2-1 H instructor 关系 中 只 希望 列 出 教师 的 ID 和 工资 , 但 
不 列 出 name 和 dept_name 的 值 ， 那 么 其 结果 有 ID Fil salary 两 个 
属性 ， 如 图 2-11 所 示 。 结 果 中 的 每 个 元 组 都 是 从 instructor 关系 
中 的 某 个 元 组 导出 的 ， 不 过 只 具有 被 选中 的 属性 。 

连接 运算 可 以 通过 下 述 方式 来 结合 两 个 关系 : 把 分 别 来 自 两 个 关系 的 




















A 
元 组 对 合并 成 单个 元 组 。 有 几 种 不 同 的 方式 来 对 关系 进行 连接 (正如 我 们 | 10101 | 65000 | 
将 在 第 3 章 中 看 到 的 )。 图 2- 12 显示 了 一 个 连接 来 自 instructor 和 | 12121 90000 
department 表 中 元 组 的 例子 ， 新 元 组 给 出 了 有 关 每 个 教师 及 其 工作 所 在 系 | 22222 | 95000 | 
的 信息 。 此 结果 是 通过 把 instructor 关系 中 的 每 个 元 组 和 department 关系 中 coe, | Bae | 
对 应 于 教师 所 在 系 的 元 组 合并 形成 的 。 45565 | 75000 
图 2-12 所 示 的 连接 被 称 作 自 然 连接 ， 在 这 种 连接 形式 中 ， 对 于 来 自 | 
instructor 关系 的 一 个 元 组 与 department 关系 中 的 一 个 元 组 来 说 ， 如 果 它 们 A kr 72000 
在 dept_name 属性 上 的 取 值 相 同 ， 那 它们 就 是 匹配 的 。 所 有 这 样 匹 配 的 元 ees | Wo | 
组 对 都 会 在 连接 结果 中 出 现 。 通 常 说 来 ， 两 个 关系 上 的 自然 连接 运算 所 匹 311 M instructor 
配 的 元 组 在 两 个 关系 共有 的 所 有 属性 上 取 值 相同 。 2g ok eM 1D 
SF LAGER RA PATE, (RAPER AOE, HA 和 solary 的 查询 结果 
果 包 含 来 自 两 个 关系 元 组 的 所 有 对 ， 无 论 它们 的 属性 值 是 否 匹配 。 
(D | name | salary | deptname | building | budget 
| 10101 | Srinivasan | 65000 Comp. Sci. | Taylor “7 100000 
12121 | Wu 90000 | Finance Painter 120000 
15151 | Mozart 40000 | Music Packard 80000 
22222 | Einstein 95000 | Physics Watson 70000 
32343 | El Said 60000 | History Painter 50000 
| 33456 | Gold 87000 | Physics Watson 70000 
| 45565 | Katz 75000 | Comp. Sci. | Taylor 100000 
| 58583 | Califieri | 62000 History Painter 50000 
| 76543 | Singh 80000 | Finance Painter 120000 
76766 | Crick | 72000 | Biology Watson 90000 | 
| 83821 | Brandt 92000 | Comp. Sci. | Taylor 100000 | 
98345 | Kim 80000 | Elec. Eng. Taylor 85000 























图 2-12 instructor 关系 和 department 关系 的 自然 连接 结果 


图 2-10 选择 工资 大 于 85 000 美元 的 
instructor 元 组 的 查询 结果 
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因为 关系 是 集合 ， 所 以 我 们 可 以 在 关系 上 施加 标准 的 集合 运算 。 并 运算 在 两 个 “相似 结构 ”的 表 
(比如 一 个 所 有 毕业 生 的 表 和 一 个 所 有 大 学 生 的 表 ) 上 执行 集合 并 。 例如， 我 们 可 以 得 到 一 个 系 中 所 有 
学 生 的 集合 。 另 外 的 集合 运算 如 交 和 集合 差 也 都 可 以 被 执行 。 

正如 我 们 此 前 讲 到 的 ， 我 们 可 以 在 查询 结果 上 施加 运算 。 例 如 ， 如 果 我 们 想 找 出 工资 超过 85 000 
美元 的 那些 教师 的 ID 和 salary， 我 们 可 以 执行 上 述 例子 中 的 前 两 种 运算 。 首 先 我 们 从 instructor 关系 中 
选 出 salary 值 大 于 85 000 美元 的 元 组 ， 然 后 从 结果 中 选 出 ID A salary 两 个 属性 ， 结 果 关 系 如 图 2-13 所 
示 ， 由 ID 和 salary 构成 。 在 此 例 中 ,我 们 可 以 任 一 次 序 来 执行 运算 ,但 正如 我 们 将 看 到 的 ， 并 非 在 所 
有 情况 下 均 可 如 此 。 

有 时 候 ， 查 询 结 果 中 包含 重复 的 元 组 。 例 如 ， 如 果 我 们 从 instructor 关系 





中 选 出 dept_name 属性 ， 就 会 有 好 几 种 重复 的 情况 ， 其 中 包括 “Comp. Sci. ”， | 12121 | 90000 | 
它 出 现 了 三 次 。 一 些 关系 语言 严格 遵守 集合 的 数学 定义 ， 去 除了 重复 。 另 一 | eee | rt | 
些 考 虑 到 从 大 的 结果 关系 中 去 除 重复 需要 大 量 相关 的 处 理 ， 就 保留 了 重复 。 | 83821 | 92000 | 
在 后 面 这 类 情况 中 ， 关 系 并 非 是 纯粹 数学 意义 上 的 真正 关系 。 图 2-13 ”选择 工资 大 于 


当然 ， 数 据 库 中 的 数据 是 随时 间 而 改变 的 。 关 系 可 以 随 新 元 组 的 插 ”85 000 美元 的 教师 的 ID 
入 、 已 有 元 组 的 删除 或 更 改元 组 在 特定 属性 上 的 值 而 更 新 。 整 个 关系 可 被 。 和 salary 属性 的 结果 
删除 ， 新 的 关系 可 被 创建 。 

从 第 3 章 到 第 5 章 ， 我 们 将 讨论 如 何 使 用 SQL 语言 来 表示 关系 的 查询 和 更 新 。 


关系 代数 
关系 代数 定义 了 在 关系 上 的 一 组 运算 ， 对 应 于 作用 在 数字 上 的 普通 代数 运算 ， 如 加 法 、 减 法 或 
乘法 。 正 如 作用 在 数字 上 的 代数 运算 以 一 个 或 多 个 数字 作为 输入 ， 返 回 一 个 数字 作为 输出 ， 关 系 代 
数 运算 通常 以 一 个 或 两 个 关系 作为 输入 ,返回 一 个 关系 作为 输出 。 
第 6 章 将 详细 介绍 关系 代数 ,下面 我 们 给 出 几 个 运算 的 概述 : 


符号 (名 字 ) _ ” ”使 用 示例 
T salary >=85 000 ( instructor ) 
返回 输入 关系 中 满足 谓词 的 行 


Tlp saiary (instructor) 


o( 选 择 ) 








I À i - 

ae) 对 输入 关系 的 所 有 行 输出 指定 的 属性 。 从 输出 中 去 除 重复 元 组 

instructor X department 

DAC 自然 连接 ) 从 两 个 输入 关系 中 输出 这 样 的 元 组 对 : 它们 在 具有 相同 名 字 的 所 有 属性 
上 取 值 相同 
instructor X department 

x (FJL) 从 两 个 输入 关系 中 输出 所 有 的 元 组 对 ( 无 论 它们 在 共同 属性 上 的 取 值 是 
否 相同 ) 

uct) ~ Hs (instructor) U TT pame (student ) 
输出 两 个 输入 关系 中 元 组 的 并 

2.7 总 结 


© 关系 数据 模型 (relational data model) 建立 在 表 的 集合 的 基础 上 。 数 据 库 系统 的 用 户 可 以 对 这 些 表 进 行 
查询 ， 可 以 插入 新 元 组 、 删 除 元 组 以 及 更 新 (修改 ) 元 组 。 表 达 这 些 操作 的 语言 有 几 种 

© 关系 的 模式 (schema) 是 指 它 的 逻辑 设计 ， 而 关系 的 实例 (instance) 是 指 它 在 特定 时 刻 的 内 容 。 数 据 库 
的 模式 和 实例 的 定义 是 类 似 的 。 关 系 的 模式 包括 它 的 属性 ， 还 可 能 包括 属性 类 型 和 关系 上 的 约束 ， 
比如 主 码 和 外 码 约束 。 
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© 关系 的 超 码 ( superkey ) 是 一 个 或 多 个 属性 的 集合 ， 这 些 属 性 上 的 取 值 保证 可 以 唯一 识别 出 关系 中 的 元 
组 。 候 选 码 是 一 个 最 小 的 超 码 ， 也 就 是 说 ， 它 是 一 组 构成 超 码 的 属性 集 ， 但 这 组 属性 的 任意 子 集 都 
不 是 超 码 。 关 系 的 一 个 候选 码 被 选 作 主 码 (primary key ) 。 

在 参照 关系 中 的 外 码 (foreign key) 是 这 样 的 一 个 属性 集合 : 对 于 参照 关系 中 的 每 个 元 组 来 说 ， 它 在 外 
码 属性 上 的 取 值 肯定 等 于 被 参照 关系 中 某 个 元 组 在 主 码 上 的 取 值 。 

© 模式 图 ( schema diagram) 是 数据 库 中 模式 的 图 形 化 表示 ， 它 显示 了 数据 库 中 的 关系 ， 关 系 的 属性 、 主 
码 和 外 码 。 

关系 查询 语言 (relational query language) 定义 了 一 组 运算 集 ， 这 些 运 算 可 作用 于 表 上 ， 并 输出 表 作 为 
结果 。 这 些 运算 可 以 组 合成 表达 式 ， 表 达 所 需 的 查询 。 

关系 代数 (relational algebra) 提供 了 一 组 运算 ， 它 们 以 一 个 或 多 个 关系 为 输入 ， 返 回 一 个 关系 作为 输 
出 。 诸 如 SQL 这 样 的 实际 查询 语言 是 基于 关系 代数 的 ， 但 增加 了 一 些 有 用 的 句法 特征 。 




















术语 回顾 

。 表 口 候选 码 。 查询 语言 

e 关系 主 码 口 过 程 化 语言 

。 元 组 © 外 码 口 非 过 程 化 语言 

。 空 值 口 参照 关系 。 关系 运算 

o 数据 库 模 式 口 被 参照 关系 口 选择 元 组 

© 数据 库 实 例 。 属性 口 选择 属性 

。 关系 模式 。 域 口 自然 连接 

。 关系 实例 。 原子 域 口 第 卡 儿 积 

。 码 。 参照 完整 性 约束 口 集合 运算 
o 超 码 。 模式 图 © 关系 代数 





实践 习题 

2.1 考虑 图 2-14 所 示 关 系数 据 库 。 这 些 关 系 上 适当 的 主 码 是 什么 ? 

2.2 考虑 从 instructor 的 dept_name 属性 到 department 关系 的 外 码 约 束 ， 给 出 对 这 些 关系 的 插入 和 删除 示例 ， 
使 得 它们 破坏 外 码 约束 。 

2.3 考虑 time_slot 关系 。 假 设 一 个 特定 的 时 间 段 可 以 在 一 周 之 内 出 现 多 次 ， 解 释 为 什么 day 和 start_time 是 
该 关系 主 码 的 一 部 分 ， 而 end_time 却 不 是 。 

2.4 在 图 2-1 所 示 instructor 的 实例 中 ， 没 有 两 位 教师 同名 。 我 们 是 否 可 以 据 此 断定 name 可 用 来 作为 
instructor 的 超 码 (或 主 码 )? 

2.5 先 执行 student 和 advisor 的 笛 卡 儿 积 ， 然 后 在 结果 上 执行 基于 谓词 ;_id =1D 的 选择 运算 ,最 后 的 结果 是 
HA? (采用 关系 代数 的 符号 表示 ， 此 查询 可 写作 a, 4 - (student x advisor) <) 


employee( person- name, street, city ) 


works( person- name, company- name, salary ) 
company( company-name , city) 








图 2-14 习题 2. 1、 习题 2. 7 和 习题 2. 12 的 关系 数据 库 
2.6 考虑 下 面 的 表达 式 ， 哪 些 使 用 了 关系 代数 运算 的 结果 来 作为 另 一 个 运算 的 输入 ? 对 于 每 个 表达 
式 ， 说 明 表达 式 的 含义 。 
a. (Cyears2009 ( takes) DI student ) 
b. (0 ,200 ( takes DXI student ) 
c. TI pp name course iq ( student DX takes ) 
2.7 考虑 图 2-14 所 示 关 系数 据 库 。 给 出 关系 代数 表达 式 来 表示 下 列 每 一 个 查询 : 
a. 找 出 居住 在 ”Miami" 城 市 的 所 有 员工 姓名 。 
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b. 找 出 工资 在 100 000 美元 以 上 的 所 有 员工 姓名 。 
c. 找 出 居住 在 “Miami” 并 且 工 资 在 100 000 美元 以 上 的 所 有 员工 姓名 。 
2.8 考虑 图 2-15 所 示 银 行 数据 库 。 对 于 下 列 每 个 查询 ， 给 出 一 个 关系 代数 表达 式 : 
a. 找 出 位 于 “Chicago” 的 所 有 支行 名 字 。 
b. 找 出 在 支行 ”Downtown” 有 贷款 的 所 有 贷款 人 姓名 。 





branch( branch_name, branch_city, assets) 

customer (customer_name, customer_street, customer_city) 
loan (loan_number, branch_name, amount) 

borrower (customer_name, loan_number) 

account (account_number, branch_name, balance) 
depositor (customer_name, account_number) 


图 2-15 习题 2.8、 习 题 2.9 和 习题 2. 13 的 银行 数据 库 





习题 
2.9 考虑 图 2-15 所 示 银 行 数据 库 。 
a. 适当 的 主 码 是 什么 ? 
b. 给 出 你 选择 的 主 码 ， 确 定 适当 的 外 码 。 
2.10 考虑 图 2-8 所 示 advisor KA, advisor 的 主 码 是 s_id。 假设 一 个 学 生 可 以 有 多 位 指导 老师 。 那 么 ，s_id 
还 是 advisor 关系 的 主 码 吗 ”如果 不 是 ，advisor 的 主 码 会 是 什么 呢 ? 
2.11 解释 术语 关系 和 关系 模式 在 意义 上 的 区 别 。 
2.12 考虑 图 2-14 所 示 关 系数 据 库 。 给 出 关系 代数 表达 式 来 表示 下 列 每 一 个 查询 : 
a. 找 出 为 “First Bank Corporation” 工作 的 所 有 员工 姓名 。 
b. 找 出 为 “First Bank Corporation” 工作 的 所 有 员工 的 姓名 和 居住 城市 。 
c. 找 出 为 First Bank Corporation” 工作 且 挣 钱 超过 10 000 美元 的 所 有 员工 的 姓名 、 街 道 地 址 和 居住 
城市 。 
2.13 考虑 图 2-15 所 示 银 行 数据 库 。 对 于 下 列 每 个 查询 ， 给 出 一 个 关系 代数 表达 式 : 
a. 找 出 贷款 额度 超过 10 000 美元 的 所 有 贷款 号 。 
b. 找 出 所 有 这 样 的 存款 人 姓名 ， 他 拥有 一 个 存款 额 大 于 6000 美元 的 账户 。 
c 找 出 所 有 这 样 的 存款 人 姓名 ， 他 在 “Uptown "支行 拥有 一 个 存款 额 大 于 6000 美元 的 账户 。 
2.14 列 出 在 数据 库 中 引入 空 值 的 两 个 原因 。 
2.15 讨论 过 程 化 和 非 过 程 化 语言 的 相对 优点 。 


文献 注解 


IBM San Jose 研究 实验 室 的 E. F. Codd 于 20 世纪 60 年 代 末 提出 了 关系 模型 (Codd [1970] ) 。 这 一 工作 使 
Codd 在 1981 年 获得 了 声望 很 高 的 ACM 图 灵 奖 (Codd[ 1982] ) 。 
在 Codd 最 初 的 论文 发 表 之 后 ， 几 个 研究 项 目 开始 进行 ， 它 们 的 目标 是 构造 实际 的 关系 数据 库 系统 ， 其 
中 包括 IBM San Jose 研究 实验 室 的 System R、 加 州 大 学 Berkeley 分 校 的 Ingres， 以 及 IBM T. J. Watson 人 研究 实 
验 中 心 的 Query-by- Example。 
大 量 关系 数据 库 产品 现在 可 以 从 市 场 上 购 得 。 其 中 包括 IBM 的 DB2 以 及 Informix, Oracle, Sybase 和 微 
软 的 SQL Server。 开 源 关 系数 据 库 系统 包括 MySQL 和 PostgreSQL。 微 软 的 Access 是 一 个 单 用 户 的 数据 库 产 
55 | 品 ， 它 作为 微软 Office 套件 的 一 部 分 。 
A Atzeni 和 Antonellis[ 1993 ] , Maier[ 1983 | 以 及 Abiteboul 等 [1995 ] 是 专门 讨论 关系 数据 模型 的 文献 。 
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商业 性 使 用 或 实验 性 使 用 的 数据 库 查 询 语言 有 好 几 种 。 在 本 章 以 及 第 4 章 和 第 5 章 ， 我 们 学 习 使 
用 最 为 广泛 的 查询 语言 : SQL。 

尽管 我 们 说 SQL 语言 是 一 种 "查询 语言 ” ， 但 是 除了 数据 库 查 询 ， 它 还 具有 很 多 别 的 功能 ， 它 可 以 
定义 数据 结构 、 修改 数据 库 中 的 数据 以 及 说 明 安 全 性 约束 条 件 等 。 

我 们 的 目的 并 不 是 提供 一 个 完整 的 SQL 用 户 手册 ， 而 是 介绍 SQL 的 基本 结构 和 概念 。SQL 的 各 种 
实现 可 能 在 一 些 细节 上 有 所 不 同 ， 或 者 只 支持 整个 语言 的 一 个 子 集 。 


3.1 SQL 查询 语言 概览 


SQL 最 早 的 版 本 是 由 IBM 开发 的 ， 它 最 初 被 叫做 Sequel， 在 20 世纪 70 年 代 早 期 作为 System R 项 
目的 一 部 分 。Sequel 语言 一 直 发 展 至 今 ， 其 名 称 已 变 为 SQL( 结构 化 查询 语言 ) 。 现 在 有 许多 产品 支持 
SQL 语言 ，SQL 已 经 很 明显 地 确立 了 自己 作为 标准 的 关系 数据 库 语 言 的 地 位 。 

1986 年 美国 国家 标准 化 组 织 ( ANSI) 和 国际 标准 化 组 织 (ISO ) 发 布 了 SQL 标准 : SQL-86。1989 年 
ANSI 发 布 了 一 个 SQL 的 扩充 标准 : SQL-89。 该 标准 的 下 一 个 版 本 是 SQL-92 标准 ， 接 着 是 SQL: 1999, 
SQL:2003, ，SQL:2006 ， 最 新 的 版 本 是 SQL:2008。 文 献 注解 中 提供 了 关于 这 些 标 准 的 参考 文献 。 

SQL 语言 有 以 下 几 个 部 分 : 

© 数据 定义 语言 ( Data- Definition Language, DDL); SQL DDL 提供 定义 关系 模式 、 删 除 关 系 以 及 修 


改 关系 模式 的 命令 。 
© 数据 操纵 语言 ( Data- Manipulation Language, DML): SQL DML 提供 从 数据 库 中 查询 信息 ， 以 及 
在 数据 库 中 插入 元 组 、 删 除 元 组 、 修 改元 组 的 能 力 。 [57 | 


e 完整 性 (integrity) : SQL DDL 包括 定义 完整 性 约束 的 命令 ， 保 存在 数据 库 中 的 数据 必须 满足 所 

定义 的 完整 性 约束 。 破 坏 完 整 性 约束 的 更 新 是 不 允许 的 。 

e 视图 定义 (view definition): SQL DDL 包括 定义 视图 的 命令 。 

e 事务 控制 (transaction control); SQL 包括 定义 事务 的 开始 和 结束 的 命令 。 

© #Ast SQL 和 动态 SQL( embedded SQL and dynamic SQL): ARAZIA SQL 定义 SQL 语句 如 

何 艇 人 到 通用 编程 语言 ， 如 C、C++ 和 Java 中 。 

e 授权 (authorization) : SQL DDL 包括 定义 对 关系 和 视图 的 访问 权限 的 命令 。 

本 章 我 们 给 出 对 SQL 的 基本 DML 和 DDL 特征 的 概述 。 在 此 描述 的 特征 自 SQL-92 以 来 就 一 直 是 
SQL 标准 的 部 分 。 

在 第 4 章 我 们 提供 对 SQL 查询 语言 更 详细 的 介绍 ， 包 括 : (a) 各 种 连接 的 表达 ; (b) WE; (c) 
BS; (d) 完整 性 约束 ;(e) 类 型 系统 ; (f) 授权 。 

在 第 5 章 我 们 介绍 SQL 语言 更 高 级 的 特征 ,包括 : (a) 允许 从 编程 语言 中 访问 SQL 的 机 制 ; (b) 
SQL 函数 和 过 程 ; (e) 触发 器 ; (d) 递归 查询 ; (e) 高 级 聚集 特征 ; (€) 为 数据 分 析 设 计 的 一 些 特征 ， 
它们 在 SQL:1999 中 引入 ， 并 在 SQL 的 后 续 版 本 中 使 用 。 在 后 面 第 22 章 ， 我 们 将 概述 SQL:1999 引入 
的 对 SQL 的 面向 对 象 扩充 。 

尽管 大 多 数 SQL 实现 支持 我 们 在 此 描述 的 标准 特征 ， 读 者 还 是 应 该 意识 到 不 同 SQL 实现 之 间 的 差 
异 。 大 多 数 SQL 实现 还 支持 一 些 非 标准 的 特征 ,但 不 支持 一 些 更 高 级 的 特征 。 万 一 你 发 现在 此 描述 的 
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一 些 语言 特征 在 你 使 用 的 系统 中 不 起 作用 ， 请 参考 你 的 数据 库 系 统 用 户 手 册 ， 看 看 它 所 支持 的 特征 究 
竟 是 什么 。 


3.2 SQL 数据 定义 


数据 库 中 的 关系 集合 必须 由 数据 定义 语言 (DDL) 指定 给 系统 。SQL 的 DDL 不 仅 能 够 定义 一 组 关 
系 ， 还 能 够 定义 每 个 关系 的 信息 ， 包 括 : 

。 每 个 关系 的 模式 。 
每 个 属性 的 取 值 类 型 。 
完整 性 约束 。 
每 个 关系 维护 的 索引 集合 。 
每 个 关系 的 安全 性 和 权限 信息 。 
每 个 关系 在 磁盘 上 的 物理 存储 结构 。 

我 们 在 此 只 讨论 基本 模式 定义 和 基本 类 型 ， 对 SQL DLL 其 他 特征 的 讨论 将 放 到 第 4 章 和 第 5 章 
进行 。 
3.2.1 基本 类 型 

SQL 标准 支持 多 种 固有 类 型 ， 包 括 : 

e char(n): 固定 长 度 的 字符 串 ， 用 户 指定 长 度 n。 也 可 以 使 用 全 称 character, 
varchar(n): 可 变 长 度 的 字符 串 ， 用 户 指定 最 大 长 度 n， 等 价 于 全 称 character varying, 
int: 整数 类 型 (和 机 器 相关 的 整数 的 有 限 子 集 ) ， 等 价 于 全 称 integer。 
smallint: 小 整数 类 型 (和 机 器 相关 的 整数 类 型 的 子 集 ) 。 
numeric(p, d): 定点 数 ， 精 度 由 用 户 指 定 。 这 个 数 有 p 位 数字 (加 上 一 个 符号 位 )， 其 中 d 位 
数字 在 小 数 点 右边 。 所 以 在 一 个 这 种 类 型 的 字段 上 ，numeric(3，1 ) 可 以 精确 储存 44.5， 但 不 
能 精确 存储 444. 5 或 0. 32 这 样 的 数 。 

e real, double precision; 浮 点 数 与 双 精 度 浮 点 数 ， 精 度 与 机 器 相关 。 

e float(n): 精度 至 少 为 位 的 浮 点 数 。 

更 多 类 型 将 在 4. 5 节 介 绍 。 

每 种 类 型 都 可 能 包含 一 个 被 称 作 空 值 的 特殊 值 。 空 值 表 示 一 个 缺失 的 值 ， 该 值 可 能 存在 但 并 不 为 
人 所 知 ， 或 者 可 能 根本 不 存在 。 在 可 能 的 情况 下 ,我们 希望 禁止 加 入 空 值 ， 正 如 我 们 马上 将 看 到 的 
那样 。 

char 数据 类 型 存放 固定 长 度 的 字符 串 。 例 如 ， 属 性 A 的 类 型 是 char(10)。 如 果 我 们 为 此 属性 存 入 
字符 串 “Avi”， 那 么 该 字符 串 后 会 追加 7 个 空格 来 使 其 达到 10 个 字符 的 串 长 度 。 反 之 ， 如 果 属 性 B 的 
类 型 是 varchar(10) ,我们 在 属性 8 中 存 人 字符 串 “Avi”， 则 不 会 增加 空格 。 当 比较 两 个 char 类 型 的 值 
时 ， 如 果 它 们 的 长 度 不 同 ， 在 比较 之 前 会 自动 在 短 值 后 面 加 上 额外 的 空格 以 使 它们 的 长 度 一 致 。 

当 比 较 一 个 char 类 型 和 一 个 varchar 类 型 的 时 候 ， 也 许 读者 会 期 望 在 比较 之 前 会 自动 在 varchar 
类 型 后 面 加 上 额外 的 空格 以 使 长 度 一 致 ; 然而 ， 这 种 情况 可 能 发 生 也 可 能 不 发 生 ， 这 取决 于 数据 库 系 
统 。 其 结果 是 ， 即 便 上 述 属性 4 和 8B 中 存放 的 是 相同 的 值 *Avi”" ,4 =B 的 比较 也 可 能 返回 假 。 我 们 建 
议 始终 使 用 varchar 类 型 而 不 是 char 类 型 来 避免 这 样 的 问题 。 

SQL 也 提供 nvarchar 类 型 来 存放 使 用 Unicode 表示 的 多 语言 数据 。 然 而 ， 很 多 数据 库 甚 至 允许 在 
yarchar 类 型 中 存放 Unicode( 采用 UTF-8 表示 ) 。 
3.2.2 基本 模式 定义 

我 们 用 create table 命令 定义 SQL 关系 。 下 面 的 命令 在 数据 库 中 创建 了 一 个 department 关系 。 


create table department 
( dept_name varchar (20) , 
building varchar (15) , 
budget numeric (12, 2), 
primary key (dept_name) ) ; 
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上 面 创建 的 关系 具有 三 个 属性 ，dept_name 是 最 大 长 度 为 20 FFF, building 是 最 大 长 度 为 15 
的 字符 串 ，budget 是 一 个 12 位 的 数 ， 其 中 2 位 数字 在 小 数 点 后 面 。create table 命令 还 指明 了 dept_name 


属性 是 department 关系 的 主 码 。 
create table 命令 的 通用 形式 是 : 
create table r 
(A, D, 
Ay Dy; 
A.” D 


< 完整 性 约 来， >, 
< RREAK >); 
其 中 r 是 关系 名 ， 每 个 4; 是 关系 模式 中 的 一 个 
属性 名 , D, 是 属性 A, WR, 也 就 是 说 D, 指定 了 
属性 A, 的 类 型 以 及 可 选 的 约束 ， 用 于 限制 所 允许 
的 4; 取 值 的 集合 。 
create table 命令 后 面 用 分 号 结束 ， 本 章 后 面 





create table depariment 
( dept_name varchar( 20) , 
building varchar (15) , 
budget numeric (12,2) , | 
primary key ( dept_name) ) ; 


create table course 


的 其 他 SQL 语句 也 是 如 此 ， 在 很 多 SQL 实现 中 ， (courseid varchar (7), 
5 title varchar (50) , 
分 号 是 可 选 的 。 dept_name “aie (20), 
SQL 支持 许多 不 同 的 完整 性 约束 。 在 本 节 我 credits numeric (2,0), 
们 只 讨论 其 中 少数 几 个 : primary key ( course_id ) , 


foreign key (dept_name) references department) ; 


e primary key(A,, Ap, °°, Am): primary- 
key 声明 表示 属性 4; ，42 ，…，4m 构 成 
关系 的 主 码 。 主 码 属 性 必须 非 空 且 唯 一 ， 
也 就 是 说 没有 一 个 元 组 在 主 码 属 性 上 取 空 
值 ， 关 系 中 也 没有 两 个 元 组 在 所 有 主 码 属 
性 上 取 值 相同 。 虽 然 主 码 的 声明 是 可 选 
的 ， 但 为 每 个 关系 指定 一 个 主 码 通常 会 
更 好 。 

foreign key(A,, An, *…, A,,) references : 
foreign key 声明 表示 关系 中 任意 元 组 在 属 
H(A , Ap, TA 4,, ) 上 的 取 值 必须 对 应 于 
关系 ， 中 某 元 组 在 主 码 属性 上 的 取 值 。 

图 3-1 给 出 了 我 们 在 书 中 使 用 的 大 学 
数据 库 的 部 分 SQL DDL 定义 。course 表 的 
定义 中 声明 了 “foreign key ( dept _ name ) 
references departmen”。 此 外 码 声明 表明 对 
于 每 个 课程 元 组 来 说 ， 该 元 组 所 表示 的 系 
名 必然 存在 于 department 关系 的 主 码 属性 
(dept_name) 中。 没有 这 个 约束 的 话 ， 就 可 
能 有 某 门 课程 指定 了 一 个 不 存在 的 系 名 。 
图 3- 1 还 给 出 了 表 section, instructor 和 
teaches 上 的 外 码 约束 。 





create table instructor 
(ID varchar (5), 


name varchar (20) not null, 
dept_name varchar (20) , 
salary numeric (8,2), 


primary key (/D) , 
foreign key ( dept_name) references department ) ; 


create table section 


( course_id varchar (8) , 
sec_id varchar (8), 
semester varchar (6) , 

year numeric (4,0) , 
building varchar (15), 
room_number varchar (7) , 
time_slot_id varchar (4) , 


primary key (course_id, sec_id, semester, year) , 

foreign key (course_id) references course) ; 
create table teaches 

(ID varchar (5) , 


course_id varchar (8), 
sec_id varchar (8) , 
semester varchar (6) , 
year numeric (4,0) , 


primary key (/D, course_id, sec_id, semester, year) , 
foreign key (course _id, sec _id, semester, year ) 


references section , 
foreign key (/D) references instructor) ; 





图 3-1 大 学 数据 库 的 部 分 SQL 数据 定义 





。 not null; 一 个 属性 上 的 not null 约束 表明 在 该 属性 上 不 允许 空 值 。 换 名 话说 ， 此 约束 把 空 值 排 
除 在 该 属性 域 之 外 。 例 如 在 图 3-1 中 ，instructor 关系 的 name 属性 上 的 not null 约束 保证 了 教师 
的 姓名 不 会 为 空 。 

有 关外 码 约束 的 更 多 细节 以 及 create table 命令 可 能 包含 的 其 他 完整 性 约束 将 在 后 面 4. 4 节 介绍 。 


34 ”第 一 部 分 关系 数据 库 


SQL 禁止 破坏 完整 性 约束 的 任何 数据 库 更 新 。 例 如 ， 如 果 关 系 中 一 条 新 插入 或 新 修改 的 元 组 在 任 
意 一 个 主 码 属性 上 有 空 值 ， 或 者 元 组 在 主 码 属性 上 的 取 值 与 关系 中 的 另 一 个 元 组 相同 ，SQL 将 标记 一 
个 错误 ， 并 阻止 更 新 。 类 似 地 ， 如 果 插 入 的 course 元 组 在 dept_name 上 的 取 值 没有 出 现在 department 关 
系 中 ， 就 会 破坏 course 上 的 外 码 约束 ，SQL 会 阻止 这 种 插入 的 发 生 。 

一 个 新 创建 的 关系 最 初 是 空 的 。 我 们 可 以 用 insert 命令 将 数据 加 载 到 关系 中 。 例 如 ， 如 果 我 们 希 
望 插入 如 下 事实 : 在 Biology 系 有 一 个 名 叫 Smith 的 教师 ， 其 instructor_id 为 10211 ， 工 资 为 66 000 美元 ， 
可 以 这 样 写 : 

insert into instructor 
values (10211, ’Smith’, ’ Biology’ , 66000) ; 


值 被 给 出 的 顺序 应 该 遵循 对 应 属性 在 关系 模式 中 列 出 的 顺序 。 插 入 命令 有 很 多 有 用 的 特性 ， 后 面 将 在 
3.9.2 节 进 行 更 详细 的 介绍 。 
我 们 可 以 使 用 delete 命令 从 关系 中 删除 元 组 。 命 令 


delete from student; 


将 从 student 关系 中 删除 所 有 元 组 。 其 他 格式 的 删除 命令 允许 指定 待 删除 的 元 组 ;我们 将 在 3. 9. 1 节 对 
删除 命令 进行 更 详细 的 介绍 。 

如 果 要 从 SQL 数据 库 中 去 掉 一 个 关系 ， 我 们 使 用 drop table 命令 。drop table 命令 从 数据 库 中 删除 
关于 被 去 掉 关 系 的 所 有 信息 。 命 令 


drop table r; 


是 比 


delete from r; 


更 强 的 语句 。 后 者 保留 关系 r*， 但 删除 > 中 的 所 有 元 组 。 前 者 不 仅 删除 > 的 所 有 元 组 ， 还 删除 7 的 模式 。 
一 旦 上 被 去 掉 ， 除 非 用 create table 命令 重建 >， 否则 没有 元 组 可 以 插入 到 中。 
我 们 使 用 alter table 命令 为 已 有 关系 增加 属性 。 关 系 中 的 所 有 元 组 在 新 属性 上 的 取 值 将 被 设 为 
null, alter table 命令 的 格式 为 : 
alter tabler add A D; 
其 中 7 是 现 有 关系 的 名 字 ，4 是 待 添加 属性 的 名 字 ，D 是 待 添加 属性 的 域 。 我 们 可 以 通过 命令 


alter table r drop A; 


从 关系 中 去 掉 属 性 。 其 中 7 是 现 有 关系 的 名 字 ，4 是 关系 的 一 个 属性 的 名 字 。 很 多 数据 库 系 统 并 不 支持 
去 掉 属 性 ， 尽 管 它们 允许 去 掉 整 个 表 。 


3.3 SQL 查询 的 基本 结构 
SQL 查询 的 基本 结构 由 三 个 子 句 构成 : select, from 和 where。 查 询 的 输入 是 在 from 子 句 中 列 出 





的 关系 ， 在 这 些 关系 上 进行 where 和 select 子 句 中 指定 的 运算 ， 然 后 产 am 
生 一 个 关系 作为 结果 。 我 们 通过 例子 介绍 SQL 的 语法 ， 后 面 再 描述 SQL | Srinivasan | 
查询 的 通用 结构 。 ee 
3.3.1 单 关 系 查 询 He 
我 们 考虑 使 用 大 学 数据 库 例子 的 一 个 简单 查询 :“ 找 出 所 有 教师 的 Gold 
名 字 ”。 教 师 的 名 字 可 以 在 instructor 关系 中 找到 ， 因 此 我 们 把 该 关系 放 we 
到 from 子 句 中 。 教 师 的 名 字 出 现在 name 属性 中 ， 因 此 我 们 把 它 放 到 Singh 
select FAP, Brant 
select name Kim 











fi . 
rom instructor ; 图 3-2 “select name from 


其 结果 是 由 属性 名 为 name 的 单个 属性 构成 的 关系 。 如 果 instructor 关系 如 instructor” 的 结果 
图 2-1 ras, 那么 上 述 查 询 的 结果 关系 如 图 3-2 所 示 。 
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现在 考虑 另 一 个 查询 :“ 找 出 所 有 教师 所 在 的 系 名 ”， 此 查询 可 写 为 : 


select dept_name 
from instructor; 


因为 一 个 系 有 多 个 教师 ， 所 以 在 instructor 关系 中 ,一 个 系 的 名 称 可 以 出 现 不 止 一 次 。 上 述 查 询 的 结果 
是 一 个 包含 系 名 的 关系 ， 如 图 3-3 所 示 。 


在 关系 模型 的 形式 化 数学 定义 中 ， 关 系 是 一 个 集合 。 因 此 ， 重 复 的 dept name | 

元 组 不 会 出 现在 关系 中 。 在 实践 中 ， 去 除 重复 是 相当 费时 的 ， 所 以 SQL [ Comp. Sci, | 
人 允许 在 关系 以 及 SQL 表达 式 结果 中 出 现 重 复 。 因 此 ， 在 上 述 SQL 查询 = 
中 ， 每 个 系 名 在 instructor 关系 的 元 组 中 每 出 现 一 次 ， 都 会 在 查询 结果 中 | Physics 
| History 
列 出 一 次 。 | Physics 

有 时 候 我 们 想 要 强行 删除 重复 ， 可 在 select 后 加 入 关键 词 distinet。 | Comp. Sci. 
如 果 我 们 想 去 除 重复 ， 可 将 上 述 查询 重 写 为 : | 

select distinct dept_name | Biology 

from instructor ; | eke 


在 上 述 查 询 的 结果 中 ， 每 个 系 名 最 多 只 出 现 一 次 。 
SQL 允许 我 们 使 用 关键 词 al 来 显 式 指明 不 去 除 重复 : 


select all dept_name 
from instructor; 


既然 保留 重复 元 组 是 默认 的 ， 在 例子 中 我 们 将 不 再 使 用 a 组。 为 了 保证 在 我 们 例子 的 查询 结果 中 删除 重 
复元 组 ， 我 们 将 在 所 有 必要 的 地 方 使 用 distinct。 

select 子 句 还 可 带 含有 + 、- 、* 、/ 运 算 符 的 算术 表达 式 ， 运算 对 象 可 以 是 常数 或 元 组 的 属性 。 
例如 ， 查 询 


图 3-3 “select dept_name 
from instructor” 的 结果 


select JD, name, dept_name, salary 1.1 
from instructor; 


返回 一 个 与 instructor 一 样 的 关系 ， 只 是 属性 salary 的 值 是 原来 的 1.1 倍 。 这 显示 了 如 果 我 们 给 每 位 教 
师 增长 10% 的 工资 的 结果 。 注 意 这 并 不 导致 对 instructor 关系 的 任何 改变 。 
SQL 还 提供 了 一 些 特殊 数据 类 型 ， 如 各 种 形式 的 日 期 类 型 ， 并 允许 一 些 作 用 于 这 些 类 型 上 的 算术 
函数 。 我 们 在 4. 5. 1 节 进 一 步 讨论 这 个 问题 。 
where 子 句 允 许 我 们 只 选 出 那些 在 from 子 句 的 结果 关系 中 满足 特定 谓词 的 元 组 。 考 虑 查询 “ 找 出 
所 有 在 Computer Science 系 并 且 工 资 超过 70 000 美元 的 教师 的 姓名 ”， 该 查询 用 SQL 可 以 写 为 : 60 


select name 65 
from instructor 
where dept_name = ‘Comp. Sci. ” and salary > 70000; 


如 果 instructor 关系 如 图 2-1 所 示 ， 那 么 上 述 查 询 的 结果 关系 如 图 3-4 所 示 。 


SQL 允许 在 where 子 句 中 使 用 逻辑 连词 and. or not, BE [name | 
词 的 运算 对 象 可 以 是 包含 比较 运算 符 <、<= 、> 、>= 、= 和 <> [kaz | 
的 表达 式 。SQL 允许 我 们 使 用 比较 运算 符 来 比较 字符 串 、 算 术 表 达 | Brant | 
式 以 及 特殊 类 型 ， 如 日 期 类 型 。 图 3-4 “ 找 出 所 有 在 Computer 
在 本 章 的 后 面 ， 我 们 将 研究 where 子 句 谓词 的 其 他 特征 。 Science 系 并 且 工 资 超过 70 000 
3. 3.2 多 关系 查询 美元 的 教师 的 姓名 ”的 结果 
到 此 为 止 我 们 的 查询 示例 都 是 基于 单个 关系 的 。 通 常 查询 需要 从 多 个 关系 中 获取 信息 。 我 们 现在 
来 学 习 如 何 书 写 这 样 的 查询 。 


作为 一 个 示例 ， 假 设 我 们 想 回 答 这 样 的 查询 :“ 找 出 所 有 教师 的 姓名 ， 以 及 他 们 所 在 系 的 名 称 和 系 
所 在 建筑 的 名 称 ”。 
考虑 instructor 关系 的 模式 ， 我 们 发 现 可 以 从 dept_name 属性 得 到 系 名 ,但 是 系 所 在 建筑 的 名 称 是 在 
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department 关系 的 building 属性 中 给 出 的 。 为 了 回答 查询 ，instructor RAP HW BT ICA YA department 
关系 中 的 元 组 匹配 ， 后 者 在 dept_name 上 的 取 值 相配 于 instructor 元 组 在 dept_name 上 的 取 值 。 

为 了 在 SQL PEE ERA, 我 们 把 需要 访问 的 关系 都 列 在 from 子 句 中 ， 并 在 where 子 句 中 指 
定 匹 配 条 件 。 上 述 查 询 可 用 SQL 写 为 : 


select name, instructor. dept_name, building 
from instructor, department 
where instructor. dept_name = department. dept_name; 


如 果 instructor 和 department 关系 分 别 如 图 2-1 和 图 2-5 所 示 ， 那 么 此 查询 的 结果 关系 如 图 3-5 所 示 。 











注意 dept_name 属性 既 出 现在 instructor 关系 中 ， 也 出 name dept.name | building 
现在 department 中 ， 关 系 名 被 用 作 前 组 (在 instructor. dept_ Srinivasan | Comp.Sci. | Taylor 
i; 让 个 | Wu Finance | Painter 
name 和 dep een dep t_name 中 ) 来 说 明 我 们 使 用 的 是 哪 | Mozart | Music Packard 
属性 。 相 反 ， 属 性 name 和 building 只 出 现在 一 个 关系 中 ， Einstein Physics Watson 
IKRE ae El Said History Painter 
因而 不 需要 把 关系 名 作为 前 级 。 Gold | Physics | Watson | 


这 种 命名 惯例 需要 出 现在 from 子 句 中 的 关系 具有 可 区 | Katz comp. Set. Taylor 
分 的 名 字 。 在 某 些 情况 下 这 样 的 要 求 会 引发 问题 ， 比 如 当 Histor | Painter 














Finance Painter 
需要 把 来 自 同一 个 关系 的 两 个 不 同 元 组 的 信息 进行 组 合 的 。 | Crick | Biology | Watson 
时 候 。 在 3.4.1 节 , 我 们 将 看 到 如 何 使 用 更 名 运算 来 避免 | Km ERe ng Taylor 





这 样 的 问题 。 
; : 图 3-5 “ 找 出 所 有 教师 的 姓名 ， 以 及 他 们 
个 关系 43 Est 
现在 我 们 考虑 涉及 多 个 关系 的 SQL 查询 的 通用 形式 所 在 系 的 名 称 和 系 所 在 建筑 的 名 称 "的 结果 


正如 我 们 前 面 已 经 看 到 的 ， 一 个 SQL 查询 可 以 包括 三 种 类 
型 的 子 句 : select FEJ, from FAJAI where 子 句 。 每 种 子 句 的 作用 如 下 : 
© select 子 句 用 于 列 出 查询 结果 中 所 需要 的 属性 。 
。 from 子 句 是 一 个 查询 求 值 中 需要 访问 的 关系 列表 。 
© where 子 句 是 一 个 作用 在 from 子 句 中 关系 的 属性 上 的 谓词 。 
一 个 典型 的 SQL 查询 具有 如 下 形式 : 
select A,, A,, = , A, 
from ry Ty, * 57, 


m 


where P; 

每 个 4, 代表 一 个 属性 ， 每 个 六 代表 一 个 关系 。P 是 一 个 谓词 。 如 果 省 略 where FA, MEW P H 
true。 

尽管 各 子 句 必须 以 select, from, where 的 次 序 写 出 ， 但 理解 查询 所 代表 运算 的 最 容易 的 方式 是 以 
运算 的 顺序 来 考察 各 子 句 : 首先 是 from， 然 后 是 where， 最 后 是 select ~ 。 

通过 from 子 句 定义 了 一 个 在 该 子 句 中 所 列 出 关系 上 的 笛 卡 儿 积 。 它 可 以 用 集合 理论 来 形式 化 地 定 
X, 但 最 好 通过 下 面 的 迭代 过 程 来 理解 ， 此 过 程 可 为 from 子 句 的 结果 关系 产生 元 组 。 

for each 元 组 1 in 关系 
for each 元 组 t, in 关系 7 


Sie each 元 组 t,, in 关系 ra 
Æi, t,, °°, 1 连接 成 单个 元 组 i 
把 1 加 入 结果 关系 中 
此 结果 关系 具有 来 自 from 子 句 中 所 有 关系 的 所 有 属性 。 由 于 在 关系 7 A r 中 可 能 出 现 相同 的 属性 
名 ， 正 如 我 们 此 前 所 看 到 的 ,我 们 在 属性 名 前 加 上 关系 名 作为 前 级 ， 表 示 该 属性 来 自 于 哪个 关系 。 





日 ”实践 中 ，SQL 也 许 会 将 表达 式 转换 成 更 高 效 执行 的 等 价 形式 。 我 们 将 把 效率 问题 推迟 到 第 12 章 和 第 13 章 中 探讨 
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例如 ， 关 系 instructor 和 teaches 的 笛 卡 儿 积 的 关系 模式 为 : 


(instructor. ID , instructor. name , instructor. dept_name , instructor. salary 
teaches. ID, teaches. course_id, teaches. sec_id, teaches. semester , teaches. year ) 


有 了 这 个 模式 ， 我 们 可 以 区 分 出 instructor. ID 和 teaches. ID。 对 于 那些 只 出 现在 单个 模式 中 的 属性 ， 
我 们 通常 去 掉 关系 名 前 级 。 这 种 简化 并 不 会 造成 任何 混淆 。 这 样 我 们 可 以 把 关系 模式 写 为 : 


(instructor. ID, name, dept_name, salary 
teaches. ID, course_id, sec_id, semester, year) 


为 举例 说 明 ， 考 察 图 2-1 中 的 instructor 关系 和 图 2-7 中 的 teaches RA. “EMMA LAMA 3-6 所 
示 ， 图 中 只 包括 了 构成 笛 卡 儿 积 结果 的 一 部 分 元 组 。 - 











inst.ID | name | dept_name | salary | teaches.ID | course id | sec-id | semester | year | 
10101 [Srinivasan [CompSci |65000| 10101 [cs-101 | 1 |Fall |2009 
10101 |Srinivasan|CompSci. |65000| 10101 |cs-315 | 1 |Spring |2010 
10101 | Srinivasan |CompSci. |65000| 10101 | CS-347 1 |Fall 2009 | 
10101 | Srinivasan CompSci |65000} 12121 |FIN-201 | 1 |Spring |2010| 
10101 | Srinivasan (CompSci |65000| 15151 |MU-199 | 1 |Spring |2010| 
10101 | Srinivasan |CompSci |65000| 22222 |PHY-101| 1 |Fall 2009 
12121 | Wu Finance |90000| 10101 |cs-101 | 1 (Fall |2009 
12121 | Wu Finance |90000| 10101 jcs-315 | 1 |Spring | 2010 
12121 | Wu Finance [90000] 10101 jcs-347 | 1 |Fall |2009| 
12121 | Wu Finance |90000| 12121 |FIN-201 | 1 |Spring |2010 
12121 | Wu Finance |90000| 15151 | MU-199 | 1 |Spring | 2010 
12121 | Wu Finance |90000| 22222 |PHY-101| 1 |Fall  |2009 
15151 |Mozart {Music |40000| 10101 |cs-101 | 1 |Fall |2009 
15151 [Mozart |Musie |40000| 10101 |cs-315 | 1 |Spring |2010 
15151 Mozart |Music |40000| 10101 |cs-347 | 1 |Fall 2009 
15151 |Mozart [Musie |40000| 12121 |FIN-201 | 1 [Spring |2010 
15151 [Mozart |Musie |40000| 15151 |MU-199 | 1 |Spring | 2010 
15151 [Mozart |Music |40000| 22222 |PHY-101| 1 |Fall  |2009 
22222 | Einstein |Physics |95000| 10101 |cs-101 | 1 [Fall [|2009 
22222 | Einstein | Physics |95000 10101 |cs-315 | 1 |Spring | 2010 
22222 | Einstein [Physics |95000| 10101 |cs-347 | 1 |Fall |2009 
22222 | Einstein |Physics |95000| 12121 |FIN-201 | 1 |Spring |2010 
22222 | Einstein [Physics |95000) 15151 |MU-199 | 1 [Spring | 2010! 
22222 | Einstein |Physics |95000) 22222 |PHY-101| 1 |Fall  |2009, 






































图 3-6 instructor 关系 和 teaches KAN HK ILAR 


通过 笛 卡 儿 积 把 来 自 instructor 和 teaches 中 相互 没有 关联 的 元 组 组 合 起 来 。instructor 中 的 每 个 元 组 
和 teaches 中 的 所 有 元 组 都 要 进行 组 合 ， 即 使 是 那些 代表 不 同 教师 的 元 组 。 其 结果 可 能 是 一 个 非常 庞大 
的 关系 ,创建 这 样 的 笛 卡 儿 积 通常 是 没有 意义 的 。 

RZ, where 子 句 中 的 谓词 用 来 限制 笛 卡 儿 积 所 建立 的 组 合 ， 只 留 下 那些 对 所 需 答案 有 意义 的 组 
合 。 我 们 希望 有 个 涉及 instructor 和 teaches 的 查询 ， 它 把 instructor 中 的 特定 元 组 上 只 与 teaches PRIER t 
相同 教师 的 元 组 进行 组 合 。 也 就 是 说 ， 我 们 希望 把 teaches 元 组 只 和 具有 相同 ID 值 的 instructor 元 组 进行 
匹配 。 下 面 的 SQL 查询 满足 这 个 条 件 ， 从 这 些 匹 配 元 组 中 输出 教师 名 和 课程 标识 。 68 | 


select name, course_id 69 | 
from instructor, teaches 
where instructor. ID = teaches. ID; 





O ERA TWN 3-6 中 表 的 宽度 ， 我 们 把 instructor. ID 更 名 为 inst. ID. 


70 
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注意 上 述 查 询 只 输出 讲授 了 课程 的 教师 ， 不 会 输出 那些 没有 讲授 任何 课程 的 教师 。 如 果 我 们 希望 
输出 那样 的 元 组 ， 可 以 使 用 一 种 被 称 作 外 连接 的 运算 ， 外 连接 将 在 4. 1.2 节 讲 述 。 

如 果 instructor 关系 如 图 2-1 PAS, teaches 关系 如 图 2-7 所 示 ， 那 么 前 述 查 询 的 结果 关系 如 图 3-7 所 
示 。 注 意 教师 Gold, Califieri 和 Singh， 由 于 他 们 没有 讲授 任何 课程 ， 就 不 出 现在 上 述 结果 中 。 











如 果 我 们 只 希望 找 出 Computer Science 系 的 教师 名 和 课程 [name | course id | 
标识 ， 我 们 可 以 在 where 子 句 中 增加 另外 的 谓词 ， 如 下 所 示 : Srinivasan | CS-101 
select name, course_id Srinivasan | CS-315 

nt ings Srinivasan | CS-347 
from instructor, teaches Wu FIN-201 | 
where instructor. ID = teaches. ID and instructor. dept_name = ’ Comp. Sci.’ ; Mozart MU-199 | 

a 口 | Einstein PHY-101 

注意 既然 dept_name 属性 FS 出 现在 instructor 关系 中 > 我 fi ] El Said HIS-351 
在 上 述 查 询 中 可 以 只 使 用 dept_name 来 替代 instructor. dept _ Katz CS-101 

Katz CS-319 
name; Crick BIO-101 
通常 说 来 ， 一 个 SQL 查询 的 含义 可 以 理解 如 下 : | “sate ro 
| ranc 3- 
1. 为 from 子 句 中 列 出 的 关系 产生 笛 卡 儿 积 。 | Brandt Cs-190 
2. 在 步骤 1 的 结果 上 应 用 where 子 句 中 指定 的 谓词 。 | = le 181 
im 








每 个 1 Cr 

3: MTA eae YS 个 元 组 ， 输 出 select 子 句 中 指定 aa = 对 于 天 学 中 所 有 讲授 课程 
HE nd 的 教师 ， 找 出 他 们 的 姓名 以 及 所 

上 述 步 又 的 顺序 有 助 于 明白 一 个 SQL 查询 的 结果 应 该 是 什 讲述 的 所 有 课程 标识 "的 结果 
么 样 的， 而 不 是 这 个 结果 是 怎样 被 执行 的 。 在 SQL 的 实际 实现 
中 不 会 执行 这 种 形式 的 查询 ， 它 会 通过 ( 尽 可 能 ) 只 产生 满足 where 子 句 谓词 的 笛 卡 儿 积 元 素来 进行 优 
化 执行 。 我 们 在 后 面 第 12 章 和 第 13 章 学 习 那 样 的 实现 技术 。 

当 书 写 查询 时 ， 需 要 小 心 设 置 合 适 的 where 子 名 条件。 如果 在 前 述 SQL 查询 中 省 略 where 子 句 条 件 ， 
就 会 输出 笛 卡 儿 积 ， 那 是 一 个 巨大 的 关系 。 对 于 图 2-1 中 的 instructor 样本 关系 和 图 2-7 中 的 teaches 样本 关 
系 ， 它 们 的 笛 卡 儿 积 具 有 12 x 13 =156 个 元 组 ， 比 我 们 在 书 中 能 显示 的 还 要 多 ! 在 更 糟 的 情况 下 ， 假 设 我 们 
有 比 图 中 所 示 样 本 关系 更 现实 的 教师 数量 ， 比 如 200 个 教师 。 假 使 每 位 教师 讲授 3 门 课程 ， 那 么 我 们 在 
teaches 关系 中 就 有 600 个 元 组 。 这 样 上 述 迭 代 过 程 会 产生 出 200 x600 = 120 000 个 元 组 作为 结果 
3.3.3 自然 连接 

在 我 们 的 查询 示例 中 ， 需 要 从 instructor Fil teaches 表 中 组 合 信息 ， 匹 配 条 件 是 需要 instructor. ID 等 于 
teaches. ID。 这 是 在 两 个 关系 中 具有 相同 名 称 的 所 有 属性 。 实 际 上 这 是 一 种 通用 的 情况 ， 也 就 是 说 ， 
from 子 句 中 的 匹配 条 件 在 最 通常 的 情况 下 需要 在 所 有 匹配 名 称 的 属性 上 相等 。 

为 了 在 这 种 通用 情况 下 简化 SQL 编程 者 的 工作 ，SQL 支持 一 种 被 称 作 自然 连接 的 运算 ， 下 面 我 们 
就 来 讨论 这 种 运算 。 事 实 上 SQL 还 支持 几 种 另外 的 方式 使 得 来 自 两 个 或 多 个 关系 的 信息 可 以 被 连接 
(join) 起 来 。 我 们 已 经 见 过 怎样 利用 笛 卡 儿 积 和 where 子 句 谓词 来 连接 来 自 多 个 关系 的 信息 。 连接 来 
自 多 个 关系 信息 的 其 他 方式 在 4. 1 节 介 绍 。 

自然 连接 ( natural join) 运算 作用 于 两 个 关系 ， 并 产生 一 个 关系 作为 结果 。 不 同 于 两 个 关系 上 的 笛 
卡 儿 积 ， 它 将 第 一 个 关系 的 每 个 元 组 与 第 二 个 关系 的 所 有 元 组 都 进行 连接 ; 自然 连接 只 考虑 那些 在 两 
个 关系 模式 中 都 出 现 的 属性 上 取 值 相同 的 元 组 对 。 因 此 ， 回 到 instructor 和 teaches 关系 的 例子 上 ， 
instructor 和 teaches 的 自然 连接 计算 中 只 考虑 这 样 的 元 组 对 : 来 自 instructor 的 元 组 和 来 自 teaches 的 元 组 
在 共同 属性 ID 上 的 取 值 相同 。 

结果 关系 如 图 3-8 Pras, RA 13 个 元 组 ,它们 给 出 了 关于 每 个 教师 以 及 该 教师 实际 讲授 的 课程 的 
信息 。 注意 我 们 并 没有 重复 列 出 那些 在 两 个 关系 模式 中 都 出 现 的 属性 ， 这 样 的 属性 只 出 现 一 次 。 还 要 
注意 列 出 属性 的 顺序 : 先是 两 个 关系 模式 中 的 共同 属性 ， 然 后 是 那些 只 出 现在 第 一 个 关系 模式 中 的 属 
性 ， 最 后 是 那些 只 出 现在 第 二 个 关系 模式 中 的 属性 。 

考虑 查询 "对 于 大 学 中 所 有 讲授 课程 的 教师 ， 找 出 他 们 的 姓名 以 及 所 讲述 的 所 有 课程 标识 ”， 此 前 
我 们 曾 把 该 查询 写 为 : 
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Spring 2009 


ID | name dept name | salary | courseid | secid | semester | year 
10101 | Srinivasan | Comp. Sci. | 65000 | CS-101 | 1 Fall | 2009 
10101 | Srinivasan | Comp. Sci. | 65000 | CS-315 | 1 Spring | 2010 
10101 | Srinivasan | Comp. Sci. | 65000 | CS-347 | 1 Fall | 2009 
12121 | Wu Finance 90000 | FIN-201 | 1 Spring | 2010 
15151 | Mozart Music 40000 | MU-199 | 1 Spring | 2010 
22222 | Einstein Physics 95000 | PHY-101 | 1 Fall | 2009 
32343 | El Said History 60000 | HIS-351 | 1 Spring | 2010 
45565 | Katz | Comp. Sci. | 75000 | CS-101 1 Spring | 2010 

| 45565 | Katz Comp. Sci. | 75000 | CS-319 1 Spring 2010 
76766 | Crick Biology 72000 | BIO-101 1 Summer | 2009 
76766 | Crick Biology 72000 | BIO-301 1 Summer | 2010 

1 
2 
2 
1 























| 
83821 | Brandt Comp. Sci. | 92000 | CS-190 | 
| 
| 
| 


83821 | Brandt Comp. Sci. | 92000 | CS-190 Spring | 2009 
| 83821 | Brandt Comp. Sci. | 92000 | CS-319 Spring | 2010 
_ 98345 | Kim Elec. Eng. | 80000 | FE-181 Spring | 2009 | 





FA 3-8 instructor 关系 和 teaches 关系 的 自然 连接 


select name, course_id 
from insiructor, teaches 
where instructor. ID = teaches. ID; 


该 查询 可 以 用 SQL 的 自然 连接 运算 更 简洁 地 写作 : 
select name, course_id 
from instructor natural join teaches; 


以 上 两 个 查询 产生 相同 的 结果 。 
正如 我 们 此 前 所 见 ， 自 然 连接 运算 的 结果 是 关系 。 从 概念 上 讲 ，from 子 句 中 的 instructor natural 
join eaches "表达 式 可 以 替换 成 执行 该 自然 连接 后 所 得 到 的 关系 。 “然后 在 这 个 关系 上 执行 where 和 
select 子 句 ， 就 如 我 们 在 前 面 3. 3. 2 节 所 看 到 的 那样 。 
在 一 个 SQL 查询 的 from 子 句 中 ， 可 以 用 自然 连接 将 多 个 关系 结合 在 一 起 ， 如 下 所 示 : 
select A,, A,, …, A, 
from r, natural join r, natural join ---natural join r, 
where P; 
更 为 一 般 地 ，from 子 句 可 以 为 如 下 形式 : 


from 天 , E, 0, E 


a 


其 中 每 个 ; 可 以 是 单个 关系 或 一 个 包含 自然 连接 的 表达 式 。 例 如 ， 假 设 我 们 要 回答 查询 “ 列 出 教师 的 
名 字 以 及 他 们 所 讲授 课程 的 名 称 " 。 此 查询 可 以 用 SQL 写 为 : 


select name, title 
from instructor natural join teaches , course 
where teaches. course_id = course. course_id; 


先 计算 instructor 和 teaches 的 自然 连接 ， 正 如 我 们 此 前 所 见 ， 再 计算 该 结果 和 course 的 笛 卡 儿 积 ，where 
子 句 从 这 个 结果 中 提取 出 这 样 的 元 组 : 来 自 连接 结果 的 课程 标识 与 来 自 course 关系 的 课程 标识 相 匹 配 。 
注意 where 子 句 中 的 teaches. course_id 表示 自然 连接 结果 中 的 course_id 域 ， 因 为 该 域 最终 来 自 teaches 
关系 。 

相反 ， 下 面 的 SQL 查询 不 会 计算 出 相同 的 结果 


select name, title 
from instructor natural join teaches natural join course; 


为 了 说 明 原 因 ， 注 意 instructor 和 teaches 的 自然 连接 包括 属性 (1D, name, dept_name, salary, course_id, 
sec_id), Wj course KALE ABE (course_id, title, dept_name, credits)。 作 为 这 二 者 自然 连接 的 结 





O 其 结果 是 不 可 能 用 包含 了 原始 关系 名 的 属性 名 来 指 代 自然 连接 结果 中 的 属性 ， 例 如 instructor. name 或 
teaches. course_id， 但 是 我 们 可 以 使 用 诸如 name 和 course_id 那样 的 属性 名 ， 而 不 带 关系 名 。 
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需要 来 自 这 两 个 输入 的 元 组 既 要 在 属性 dept_name 上 取 值 相同 ， 还 要 在 course_id 上 取 值 相同 。 该 查询 将 
忽略 所 有 这 样 的 (教师 姓名 ， 课 程 名 称 ) 对 : 其 中 教师 所 讲授 的 课程 不 是 他 所 在 系 的 课程 。 而 前 一 个 查 
询 会 正确 输出 这 样 的 对 。 

为 了 发 扬 自然 连接 的 优点 ， 同 时 避免 不 必要 的 相等 属性 带 来 的 危险 ，SQL 提供 了 一 种 自然 连接 的 
构造 形式 ， 允 许 用 户 来 指定 需要 哪些 列 相等 。 下 面 的 查询 说 明了 这 个 特征 : 


select name, title 
from (instructor natural join teaches) join course using (course_id) ; 


join---using 运算 中 需要 给 定 一 个 属性 名 列表 ， 其 两 个 输入 中 都 必须 具有 指定 名 称 的 属性 。 考 虑 运算 7 
join r, using(A,, A,), ES7, 和 六 的 自然 连接 类 似 ， 只 不 过 在 4. A =t. A FFAG. A, =t, A, 成 立 的 前 
EF, KA r 的 元 组 t, 和 来 自 7, 的 元 组 t 就 能 匹配 ， 即 使 r, Mr, 都 具有 名 为 4 的 属性 ， 也 不 需要 
hes Stn A RAPS 

这 样 ， 在 前 述 SQL 查询 中 ， 连 接 构造 允许 teaches. dept_name 和 course. dept_name 是 不 同 的 ， 该 SQL 
查询 给 出 了 正确 的 答案 。 


3.4 附加 的 基本 运算 

SQL 中 还 支持 几 种 附加 的 基本 运算 。 
3. 4.1 更 名 运算 

重新 考察 我 们 此 前 使 用 过 的 查询 : 


select name, course_id 
from instructor, teaches 
where instructor. ID = teaches. ID; 


此 查询 的 结果 是 一 个 具有 下 列 属性 的 关系 : 


name, course_id 


结果 中 的 属性 名 来 自 from 子 句 中 关系 的 属性 名 。 

但 我 们 不 能 总 是 用 这 个 方法 派生 名 字 ， 其 原因 有 几 点 : 首先 ，from 子 句 的 两 个 关系 中 可 能 存在 同 
名 属性 ,在 这 种 情况 下 ， 结 果 中 就 会 出 现 重复 的 属性 名 ; 其 次 ， 如 果 我 们 在 select 子 句 中 使 用 算术 表 
达 式 ， 那 么 结果 属性 就 没有 名 字 ; 再 次 ， 尽 管 如 上 例 所 示 ， 属 性 名 可 以 从 基 关 系 导 出 ， 但 我 们 也 许 想 
要 改变 结果 中 的 属性 名 字 。 因 此 ，SQL 提供 了 一 个 重 命名 结果 关系 中 属性 的 方法 。 即 使 用 如 下 形式 的 
as 子 句 ]: 


old- name as new-name 


as 子 句 既 可 出 现在 select 子 句 中 ， 也 可 出 现在 from 子 句 中 。” 
例如 ， 如 果 我 们 想 用 名 字 instructor_name 来 代替 属性 名 name， 我 们 可 以 重 写 上 述 查 询 如 下 : 


select name as instructor_name, course_id 
from instructor, teaches 
where instructor. ID = teaches. ID; 


as 子 句 在 重 命 名 关系 时 特别 有 用 。 重 命名 关系 的 一 个 原因 是 把 一 个 长 的 关系 名 替换 成 短 的 ， 这 样 
在 查询 的 其 他 地 方 使 用 起 来 就 更 为 方便 。 为 了 说 明 这 一 点 ,我 们 重 写 查询 对 于 大 学 中 所 有 讲授 课程 的 
教师 ， 找 出 他 们 的 姓名 以 及 所 讲述 的 所 有 课程 标识 ”: 
select T. name, S. course_id 


from instructor as T, teaches as S 
where T. 1 = S. ID; 





O SQL 的 早期 版 本 不 包括 关键 字 as。 其 结果 是 在 一 些 SQL 实现 中 ， 特 别 是 Oracle 中 ， 不 允许 在 from 子 句 中 出 现 关 
键 字 as, {E Oracle 的 from FAJ, “old- name as new-name” 被 写作 “old-name new-name”。 在 select 子 句 中 允许 使 
用 关键 字 as 来 重 命 名 属性 ， 但 它 是 可 选项 ， 在 Oracle 中 可 以 省 略 。 
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重 命名 关系 的 另 一 个 原因 是 为 了 适用 于 需要 比较 同一 个 关系 中 的 元 组 的 情况 。 为 此 我 们 需要 把 一 
个 关系 跟 它 自身 进行 笛 卡 儿 积 运算 ， 如 果 不 重 命名 的 话 ， 就 不 可 能 把 一 个 元 组 与 其 他 元 组 区 分 开 来 : 
假设 我 们 希望 写 出 查询 :“ 找 出 满足 下 面条 件 的 所 有 教师 的 姓名 ， 他 们 的 工资 至 少 比 Biology 系 某 一 个 
教师 的 工资 要 高 ”， 我 们 可 以 写 出 这 样 的 SQL RAR: 


select distinct T. name 
from instructor as T, instructor as S 
where T. salary > S. salary and S. dept_name = ’ Biology’ ; 


注意 我 们 不 能 使 用 instructor. salary 这 样 的 写法 ， 因 为 这 样 并 不 清楚 到 底 是 希望 引用 哪 一 个 insmrucror。 

在 上 述 查询 中 ，7 和.$ 可 以 被 认为 是 instructor 关系 的 两 个 拷贝 ， 但 更 准确 地 说 是 被 声明 为 instructor 
关系 的 别名 ， 也 就 是 另外 的 名 字 。 像 了 和 5 那样 被 用 来 重 命名 关系 的 标识 符 在 SQL 标准 中 被 称 作 相关 
名 称 ( correlation name) ， 但 通常 也 被 称 作 表 别 名 (table alias)， 或 者 相关 变量 ( correlation variable), LA 
元 组 变量 (tuple variable) 。 

注意 用 文字 表达 上 述 查 询 更 好 的 方式 是 :“ 找 出 满足 下 面条 件 的 所 有 教师 的 姓名 ， 他 们 上 比 Biology 
系 教师 的 最 低 工资 要 高 ” 。 我 们 早先 的 表述 更 符合 我 们 所 写 的 SQL， 但 后 面 的 表述 更 直观 ， 事 实 上 它 可 
以 直接 用 SQL 来 表达 ， 正 如 我 们 将 在 3. 8. 2 节 看 到 的 那样 。 

3.4.2 字符 串 运 算 

SQL 使 用 一 对 单 引 号 来 标示 字符 串 ， 例 如 Computer 。 如 果 单 引号 是 字符 串 的 组 成 部 分 ， 那 就 用 
两 个 单 引 号 字符 来 表示 ， 如 字符 串 “it's right” 可 表示 为 “it"s right”, 

在 SQL 标准 中 ,字符 串 上 的 相等 运算 是 大 小 写 敏 感 的 ， 所 以 表达 式 “ comp. sci. ’ = 'Comp. Sci. ”的 
结果 是 假 。 然 而 一 些 数 据 库 系 统 ， 如 MySQL 和 SQL Server， 在 匹配 字符 串 时 并 不 区 分 大 小 写 ， 所 以 在 
这 些 数据 库 中 “'comp. sci. ' = 'Comp. Sci. ”的 结果 可 能 是 真 。 然 而 这 种 默认 方式 是 可 以 在 数据 库 级 或 特 
定 属性 级 被 修改 的 。 

SQL 还 允许 在 字符 串 上 有 多 种 函数 ， 例 如 串联 (使 用 “ |”) 、 提 取 子 串 、 计 算 字 符 串 长 度 、 大 小 写 
转换 (用 upper(s ) 将 字符 串 s 转换 为 大 写 或 用 lower(s) 将 字符 串 s 转换 为 小 写 ) 、 去 掉 字 符 串 后 面 的 空 
格 (使 用 trim(s) ) ， 等 等 。 不 同 数据 库 系统 所 提供 的 字符 串 函 数 集 是 不 同 的 ， 请 参阅 你 的 数据 库 系 统 
手册 来 获得 它 所 支持 的 实际 字符 串 函 数 的 详细 信息 。 

在 字符 串 上 可 以 使 用 like 操作 符 来 实现 模式 匹配 。 我 们 使 用 两 个 特殊 的 字符 来 描述 模式 : 

。 百 分 号 (%): 匹配 任意 子 串 。 

© 下 划 线 (_) : 匹配 任意 一 个 字符 。 
模式 是 大 小 写 敏感 的 ， 也 就 是 说 ， 大 写字 符 与 小 写字 符 不 匹配 ， 反 之 亦 然 。 为 了 说 明 模 式 匹 配 ， 考 虑 
下 列 例 子 : 

© ‘Intro% "匹配 任何 以 “Intro" 打头 的 字符 串 。 

o ‘% Comp% 匹配 任何 包含 “Comp” 子 串 的 字符 串 ， 例 如 “Intro.to Computer Science’ ”和 

“ Computational Biology’ 。 

。“___’ 匹 配 只 含 三 个 字符 的 字符 串 。 

。“___%' 匹 配 至 少 含 三 个 字符 的 字符 串 。 

在 SQL 中 用 比较 运算 符 like 来 表达 模式 。 考 虑 查询 “ 找 出 所 在 建筑 名 称 中 包含 子 串 “Watson 的 所 
有 系 名 ”， 该 查询 的 写法 如 下 : 


select dept_name 
from department 
where building like ' % Watson% ’ ; 


为 使 模式 中 能 够 包含 特殊 模式 的 字符 ( 即 % 和 _) ，SQL 允许 定义 转 义 字符 。 转 义 字 符 直 接 放 在 特殊 字 
符 的 前 面 ， 表 示 该 特殊 字符 被 当成 普通 字符 。 我 们 在 like 比较 运算 中 使 用 escape 关键 词 来 定义 转 义 字 
符 。 为 了 说 明 这 一 用 法 ,考虑 以 下 模式 ， 它 使 用 反 斜 线 (\ ) 作为 转 义 字符 : 

e like ‘ab\%cd%’ escape ‘ \ ”匹配 所 有 以 “ab% cd” 开头 的 字符 串 。 
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。 like ‘ab\ \cd%’ escape ‘ \’ 匹配 所 有 以 “ab \ cd" 开 头 的 字符 串 。 

SQL 允许 使 用 not like 比较 运算 符 搜寻 不 匹配 项 。 一 些 数据 库 还 提供 like 运算 的 变 体 ， 不 区 分 大 小 
5. 

在 SQL:1999 中 还 提供 similar to 操作 ， 它 具备 比 like 运算 更 强大 的 模式 匹配 能 力 。 它 的 模式 定义 
语法 类 似 于 UNIX 中 的 正则 表达 式 。 
3.4.3 select 子 句 中 的 属性 说 明 

BS" * ”可 以 用 在 select 子 句 中 表示 “所 有 的 属性 ”， 因 而 ， 如 下 查询 的 select 子 句 中 使 用 
instructor. 


select instructor. ` 
from instructor, teaches 
where instructor. ID = teaches. ID; 


表示 instructor 中 的 所 有 属性 都 被 选中 。 形 如 select ` 的 select 子 句 表示 from 子 句 结果 关系 的 所 有 属性 都 
被 选中 。 
3.4.4 排列 元 组 的 显示 次 序 
SQL 为 用 户 提供 了 一 些 对 关系 中 元 组 显示 次 序 的 控制 。order by 子 句 就 可 以 让 查询 结果 中 元 组 按 
排列 顺序 显示 。 为 了 按 字母 顺序 列 出 在 Physics 系 的 所 有 教师 ， 我 们 可 以 这 样 写 : 
select name 
from instructor 
where dept_name = ’ Physics’ 
order by name; 
order by 子 句 默认 使 用 升序 。 要 说 明 排 序 顺 序 ， 我 们 可 以 用 dese 表示 降序 ， 或 者 用 ase 表示 升序 。 此 
外 ， 排 序 可 在 多 个 属性 上 进行 。 假 设 我 们 希望 按 salary 的 降序 列 出 整个 instructor 关系 。 如 果 有 几 位 教 
师 的 工资 相同 ， 就 将 它们 按 姓名 升序 排列 。 我 们 用 SQL 将 该 查询 表示 如 下 : 


select * 
from instructor 
order by salary desc, name asc; 


3.4.5 where 子 句 谓词 

为 了 简化 where 子 句 ，SQL 提供 between 比较 运算 符 来 说 明 一 个 值 是 小 于 或 等 于 某 个 值 ， 同 时 大 
于 或 等 于 另 一 个 值 的 。 如 果 我 们 想 找 出 工资 在 90 000 美元 和 100 000 美元 之 间 的 教师 的 姓名 ， 我 们 可 
以 使 用 between 比较 运算 符 ， 如 下 所 示 : 


select name 
from instructor 
where salary between 90000 and 100000 ; 


它 可 以 取代 


select name 
from instructor 
where salary <= 100000 and salary >=90000; 


类 似 地 ， 我 们 还 可 以 使 用 mot between 比较 运算 符 。 

我 们 可 以 扩展 前 面 看 到 过 的 查找 教师 名 以 及 课程 标识 的 查询 ， 但 考虑 更 复杂 的 情况 ， 要 求教 师 是 
生物 系 的 :“ 查 找 Biology 系 讲授 了 课程 的 所 有 教师 的 姓名 和 他 们 所 讲授 的 课程 ”。 为 了 写 出 这 样 的 查 
询 ， 我 们 可 以 在 前 面 看 到 过 的 两 个 SQL 查询 的 任意 一 个 的 基础 上 进行 修改 ， 在 where 子 句 中 增加 一 个 
额外 的 条 件 。 我 们 下 面 给 出 修改 后 的 不 使 用 自然 连接 的 SQL 查询 形式 : 


select name, course_id 
from instructor, teaches 
where instructor. ID = teaches. ID and dept_name = ’ Biology’ ; 


SQL HFRS (v, v2, +, v, ) 来 表示 一 个 分 量 值 分 别 为 vw,，…, vw, 的 n 维 元 组 ,在 元 组 
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上 可 以 运用 比较 运算 符 ， 按 字典 顺序 进行 比较 运算 。 例 如 ，(w, a) <= (bi, b,)fEa, <= b Ba, <= 


b, 时 为 真 。 类 似 地 ， 当 两 个 元 组 在 所 有 属性 上 相等 时 ， 它 们 是 相等 的 。 这 样 ， 前 述 查 询 可 被 重 写 为 如 
下 形式 : © 





[78 | 


select name, course_id 
from instructor , teaches 


where (instructor. ID, dept_name) = (teaches. ID, ’ Biology’ ) ; 
a 
3.5 集合 运算 


SQL 作用 在 关系 上 的 union, intersect 和 except 运算 对 应 于 数学 集合 论 中 的 U、m 和 =- 运算。 我 们 
现在 来 构造 包含 在 两 个 集合 上 使 用 union, intersect 和 except 运算 的 查询 。 
© 在 2009 年 秋季 学 期 开设 的 所 有 课程 的 集合 : 
select course_id 
from section 
where semester = ’ Fall’ and year = 2009; 
。 在 2010 年 春季 学 期 开设 的 所 有 课程 的 集合 : 
select course_id 
from section 


where semester = 'Spring” and year = 2010; 
在 我 们 后 面 的 讨论 中 ,将 用 cl 和 <c2 分 别 指 代 包含 以 上 查询 结果 的 两 个 关系 ， 并 在 图 3-9 和 图 3-10 
中 给 出 作用 在 如 图 2-6 所 示 的 section 关系 上 的 查询 结果 。 注 意 c2 包含 两 个 对 应 于 course_id 为 CS-319 的 
元 组 ， 因 为 该 课程 有 两 个 课程 段 在 2010 年 春季 开课 。 


courseid | 
Cs-101 | 
CS-315 
i Cs-319 
| course_id | | cs-319 
| Cs-101 | FIN-201 
| Cs-347 | HIS-351 | 
| PHY-101 | MU-199 | 
图 3-9 cl 关系 ， 列 出 2009 年 图 3-10 2 KR, Fit 2010 年 
秋季 开设 的 课程 春季 开设 的 课程 


3. 5.1 并 运算 


为 了 找 出 在 2009 年 秋季 开课 ， 或 者 在 2010 年 春季 开课 或 两 个 学 期 都 开课 的 所 有 课程 ， 我 们 可 写 
查询 语句 : “ 


( select course_id 





courseid | 
from section r ca | 
= ’ Fall’ ears 2 S- 

semester Fall’ and year = 2009) | C315 
union : | CS-319 | 

(select course_id CS-347 

from section FIN-201 

where semester = ' Spring’ and year = 2010); HIS-351 

_ i MU-199 

与 select FAJA], union 运算 自动 去 除 重复 。 这 样 ， 在 如 图 2-6 所 示 的 section 


关系 中 ，2010 年 春季 开设 CS-319 的 两 个 课程 段 ，CS-101 在 2009 年 秋季 和 2010 a, ag 
年 秋季 学 期 各 开设 一 个 课程 段 ，CS-101 和 CS-319 在 结果 中 只 出 现 一 次 ， 如 图 的 结果 
3-11 所 示 。 





日” 尽管 这 是 SQL-92 标准 的 一 部 分 ， 但 某 些 SQL 实现 中 可 能 不 支持 这 种 语法 。 
© ”我 们 在 每 条 select-from- where 语句 上 使 用 的 括号 是 可 省 略 的 ， 但 易于 阅读 。 
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如 果 我 们 想 保留 所 有 重复 ， 就 必须 用 union all 代替 union; 


(select course_id 
from section 


where semester = ‘Fall’ and year = 2009) 
union all 
( select course_id 
from section 
where semester = ’ Spring’ and year = 2010) ; 


在 结果 中 的 重复 元 组 数 等 于 在 cl 和 c 中 出 现 的 重复 元 组 数 的 和 。 因 此 在 上 述 查询 中 ， 每 个 CS- 
319 和 CS-101 都 将 被 列 出 两 次 。 作 为 一 个 更 深入 的 例子 ， 如 果 存 在 这 样 一 种 情况 : ECE-101 在 2009 年 
秋季 学 期 开设 4 个 课程 段 ， 在 2010 年 春季 学 期 开设 2 个 课程 段 ， 那么 在 结果 中 将 有 6 个 ECE- 101 
元 组 。 
3.5.2 ZZA 

为 了 找 出 在 2009 年 秋季 和 2010 年 春季 同时 开课 的 所 有 课程 的 集合 ， 我 们 可 写 出 : 


(select course_id 

from section 

where semester = ’ Fall’ and year = 2009) 
intersect 
(select course_id 

from section 

where semester = ’ Spring’ and year = 2010) ; 


结果 关系 如 图 3-12 所 示 ， 它 只 包括 一 个 CS-101 元 组 。intersect 运算 自动 去 除 重 复 。 例 如 ， 如 果 存 
在 这 样 的 情况 : ECE-101 在 2009 年 秋季 学 期 开设 4 个 课程 段 ， 在 2010 年 春季 学 期 开设 2 个 课程 段 , BS 
么 在 结果 中 只 有 1 个 ECE-101 元 组 。 


如 果 我 们 想 保 留 所 有 重复 ， 就 必须 用 intersect all 代替 intersect ; | course id | 
(select course_id | €S-101 _ 
from section mae g 
where semester = ’ Fall’ and year = 2009) 图 3-12 cl intersect c2 的 结果 
intersect all 
(select course_id 
from section 
where semester = ’ Spring’ and year = 2010) ; 


在 结果 中 出 现 的 重复 元 组 数 等 于 在 cl 和 c2 中 出 现 的 重复 次 数 里 最 少 的 那个 。 例 如 ， 如 果 ECE-101 
在 2009 年 秋季 学 期 开设 4 个 课程 段 ， 在 2010 年 春季 学 期 开设 2 个 课程 段 ， 那 么 在 结果 中 有 2 个 ECE- 
101 元 组 。 
3.5.3 差 运 算 

为 了 找 出 在 2009 年 秋季 学 期 开课 但 不 在 2010 年 春季 学 期 开课 的 所 有 课程 ， 我 们 可 写 出 


(select course_id 
from section 


where semester = ’ Fall’ and year = 2009) 
except 
(select course_id 

from section 

where semester = ’ Spring’ and year = 2010) ; 


该 查询 结果 如 图 3-13 所 示 。 注 意 这 正好 是 图 3-9 的 cl 关系 减 去 不 出 现 的 CS-101 元 组 。except 运算 ”从 
其 第 一 个 输入 中 输出 所 有 不 出 现在 第 二 个 输入 中 的 元 组 ， 也 即 它 执行 集 差 操作 。 此 运算 在 执行 集 差 操 
作 之 前 自动 去 除 输入 中 的 重复 。 例 如 ， 如 果 ECE-101 在 2009 年 秋季 学 期 开设 4 个 课程 段 ， 在 2010 年 





O 某 些 SQL 实现 ， 特 别 是 Oracle， 使 用 关键 词 minus 代替 except. 
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春季 学 期 开设 2 个 课程 段 ， 那 么 在 except 运算 的 结果 中 将 没有 ECE-101 的 任何 拷贝 。 





如 果 我 们 想 保 留 所 有 重复 ， 就 必须 用 except all 代替 except: | coursed 
(select course_id [ CS-347 
from section |_PHY-101 
where semester = ° Fall’ and year = 2009) 


except all 图 3-13 cl except c2 的 结果 


( select course_id 
from section 
where semester = ’ Spring’ and year = 2010) ; 


结果 中 的 重复 元 组 数 等 于 在 cl 中 出 现 的 重复 元 组 数 减 去 在 c2 中 出 现 的 重复 元 组 数 (前 提 是 此 差 为 
正 )。 因 此 ， 如 果 ECE-101 在 2009 年 秋季 学 期 开设 4 个 课程 段 ， 在 2010 年 春季 学 期 开设 2 个 课程 段 ， 
那么 在 结果 中 有 2 个 ECE-101 元 组 。 然 而 ， 如 果 ECE-101 在 2009 年 秋季 学 期 开设 2 个 或 更 少 的 课程 
段 ， 在 2010 年 春季 学 期 开设 2 个 课程 段 ， 那 么 在 结果 中 将 不 存在 ECE-101 元 组 。 


3.6 {8 


空 值 给 关系 运算 带 来 了 特殊 的 问题 ， 包 括 算术 运算 、 比 较 运 算 和 集合 运算 

如 果 算 术 表达 式 的 任 一 输入 为 空 ， 则 该 算术 表达 式 ( 涉 及 诸如 + 、- 、* 或 /) 结 果 为 空 。 例 如 ， 
如 果 查 询 中 有 一 个 表达 式 是 ~4+5， 并 且 对 于 某 个 特定 的 元 组 , ~ 4 为 空 ， 那 么 对 此 元 组 来 说 ， 该 表 
达 式 的 结果 也 为 空 。 

涉及 空 值 的 比较 问题 更 多 。 例 如 ， 考 虑 比较 运算 “1 < null”"。 因 为 我 们 不 知道 空 值 代 表 的 是 什么 ， 
所 以 说 上 述 比 较为 真 可 能 是 错误 的 。 但 是 说 上 述 比 较为 假 也 可 能 是 错误 的 ， 如 果 我 们 认为 比较 为 假 ， 
那么 “not (1 < null) ”就 应 该 为 真 ， 但 这 是 没有 意义 的 。 因 而 SQL 将 涉及 空 值 的 任何 比较 运算 的 结果 
视 为 unknown( 既 不 是 谓词 is null， 也 不 是 is not null, 我 们 在 本 节 的 后 面 介绍 这 两 个 谓词 )。 这 创建 了 
BR true FI false 之 外 的 第 三 个 逻辑 值 。 

由 于 在 where 子 句 的 谓词 中 可 以 对 比较 结果 使 用 诸如 and, or 和 not 的 布尔 运算 ， 所 以 这 些 布 尔 
运算 的 定义 也 被 扩展 到 可 以 处 理 unknown 值 。 

e and: true and unknown 的 结果 是 unknown, false and unknown 结果 是 false, unknown and unknown 

的 结果 是 unknown , 
© or; true or unknown 的 结果 是 true, false or unknown 结果 是 unknown, unknown or unknown 结果 是 
unknown , 

e not: not unknown 的 结果 是 unknown, 

可 以 验证 ， 如 果 7.4 为 空 ， 那么 “1 < x.4” 和 “not (1 < r.4)" 结 果 都 是 unknown. 

如 果 where 子 句 谓词 对 一 个 元 组 计算 出 false 或 unknown， 那 么 该 元 组 不 能 被 加 入 到 结果 集中 ， 

SQL 在 谓词 中 使 用 特殊 的 关键 词 null 测试 空 值 。 因 而 为 找 出 instructor 关系 中 salary 为 空 值 的 所 有 
教师 ， 我 们 可 以 写成 : 

select name 


from instructor 
where salary is null; 


如 果 谓 词 is not null 所 作用 的 值 非 空 ， 那 么 它 为 真 。 

某 些 SQL 实现 还 允许 我 们 使 用 子 句 is unknown 和 is not unknown 来 测试 一 个 表达 式 的 结果 是 否 为 
unknown， 而 不 是 true 或 false。 

当 一 个 查询 使 用 select distinct 子 句 时 ， 重 复元 组 将 被 去 除 。 为 了 达到 这 个 目的 ， 当 比较 两 个 元 组 
对 应 的 属性 值 时 ， 如 果 这 两 个 值 都 是 非 空 并 且 值 相等 ,或 者 都 是 空 ， 那 么 它们 是 相同 的 。 所 以 诸如 
(CA, null), CA’, null) | 这样 的 两 个 元 组 拷贝 被 认为 是 相同 的 ， 即 使 在 某 些 属性 上 存在 空 值 。 使 
用 distinct 子 句 会 保留 这 样 的 相同 元 组 的 一 份 拷贝 。 注 意 上 述 对 待 空 值 的 方式 与 谓词 中 对 待 空 值 的 方式 
是 不 同 的 ， 在 谓词 中 “null = null" 会 返回 unknown， 而 不 是 true。 

如 果 元 组 在 所 有 属性 上 的 取 值 相等 ， 那 么 它们 就 被 当 作 相同 元 组 ， 即 使 某 些 值 为 室 。 上 述 方式 还 
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应 用 于 集合 的 并 、 交 和 差 运算 。 
3.7 聚集 函数 


聚集 函数 是 以 值 的 一 个 集合 ( 集 或 多 重 集 ) 为 输入 、 返 回 单个 值 的 函数 。SQL 提供 了 五 个 固有 聚集 
函数 : 

。 平均 值 : avg。 

。 最 小 值 : min. 

e 最 大 值 : max, 

e 总 和 : sum, 

© 计数 : count, 

sum 和 avg 的 输入 必须 是 数字 集 ， 但 其 他 运算 符 还 可 作用 在 非 数字 数据 类 型 的 集合 上 ， 如 字符 串 。 
3.7.1 基本 聚集 

考虑 查询 “ 找 出 Computer Science 系 教师 的 平均 工资 "。 我 们 书写 该 查询 如 下 : 


select avg (salary) 
from instructor 
where dept_name = °’ Comp. Sci. ’ ; 


该 查询 的 结果 是 一 个 具有 单 属性 的 关系 ， 其 中 只 包含 一 个 元 组 ， 这 个 元 组 的 数值 对 应 Computer Science 
系 教师 的 平均 工资 。 数 据 库 系 统 可 以 给 结果 关系 的 属性 一 个 任意 的 名 字 ， 该 属性 是 由 聚集 产生 的 。 然 
而 ,我 们 可 以 用 as 子 句 给 属性 赋 个 有 意义 的 名 称 ， 如 下 所 示 : 


select avg (salary) as avg_salary 
from instructor 
where dept_name = ’ Comp. Sci. ’ ; 


在 图 2-1 的 instructor KA, Computer Science 系 的 工资 值 是 75 000 美元 、65 000 美元 和 92 000 美 
元 , 平均 工资 是 232 000/3 =77 333. 33 美元 。 

在 计算 平均 值 时 保留 重复 元 组 是 很 重要 的 。 假 设 Computer Science 系 增加 了 第 四 位 教师 ， 其 工资 正 
好 是 75 000 美元 。 如 果 去 除 重复 的 话 ， 我 们 会 得 到 错误 的 答案 (232 000/4 =58 000 美元 ) ， 而 正确 的 答 
案 是 76 750 美元 。 

有 些 情况 下 在 计算 聚集 函数 前 需 先 删 掉 重复 元 组 。 如 果 我 们 确实 想 删 除 重复 元 组 ， 可 在 聚集 表达 
式 中 使 用 关键 词 distinct。 比 方 有 这 样 一 个 查询 示例 “ 找 出 在 2010 年 春季 学 期 讲授 一 门 课程 的 教师 总 
数 ”， 在 该 例 中 不 论 一 个 教师 讲授 了 几 个 课程 段 ， 他 只 应 被 计算 一 次 。 所 需 信息 包含 在 teaches 关系 中 ， 
我 们 书写 该 查询 如 下 : 

select count (distinct /D) 


from teaches 
where semester = ’ Spring’ and year = 2010; 


我 们 经 常 使 用 聚集 函数 count 计算 一 个 关系 中 元 组 的 个 数 。SQL PRAM SKE count(”), A 
此 ， 要 找 出 course 关系 中 的 元 组 数 ， 可 写成 : 


select count( ` ) 
from course; 


由 于 在 ID 前 面 有 关键 字 distinct， 所 以 即使 某 位 教师 教 了 不 止 一 门 课程 ， 在 结果 中 他 也 仅 被 计数 一 次 。 
SQL 不 允许 在 用 count(“ ) 时 使 用 distinct。 在 用 max 和 min 时 使 用 distinct 是 合法 的 ， 尽 管 结果 并 
无 差别 。 我 们 可 以 使 用 关键 词 al 替代 distinct 来 说 明 保 留 重 复元 组 ， 但 是 ， 既 然 al 是 默认 的 ， 就 没 必 
要 这 么 做 了 。 
3.7.2 分 组 聚集 
有 时 候 我 们 不 仅 希望 将 聚集 函数 作用 在 单个 元 组 集 上 ， 而 且 也 希望 将 其 作用 到 一 组 元 组 集 上 ; 在 
SQL 中 可 用 group by 子 句 实 现 这 个 愿望 。group by 子 句 中 给 出 的 一 个 或 多 个 属性 是 用 来 构造 分 组 的 。 
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在 group by 子 句 中 的 所 有 属性 上 取 值 相同 的 元 组 将 被 分 在 一 个 组 中 。 
作为 示例 ， 考 虑 查询 “ 找 出 每 个 系 的 平均 工资 "， 该 查询 D | name deptname | salary 




















书写 如 下 : 76766 | Crick Biology 72000 
1 45565 | Katz | Comp. Sci. | 75000 

select dept_name, avg( salary) as avg_salary ete! rn an. = 655000 

from sa _83821 | Brandt Comp. Sci. | 92000 

group by dept_name; | 98345 | Kim Elec. Eng. | 80000 

图 3-14 给 出 了 instructor 关系 中 的 元 组 按照 dept_name 属 12121 | Wu Finance 50000 


76543 | Singh | Finance 80000 


性 进行 分 组 的 情况 ， 分 组 是 计算 查询 结果 的 第 一 步 。 在 每 个 |388 | ESaid | History | 60000 
分 组 上 都 要 进行 指定 的 聚集 计算 ， 查 询 结果 如 图 3-15 所 示 。 er M stony OO 
























































| Mozart | Music | 40000 | 
相反 ， 考 虑 查询 “ 找 出 所 有 教师 的 平均 工资 *"。 我 们 把 此 33456 | Gold Physics | 87000 | 
查询 写 做 如 下 形式 : L222 | Einstein _ | Physics | 95000 
select avg (salary) FA 3-14 instructor 关系 的 元 组 按照 
from instructor ; dept_name 属性 分 组 
在 这 里 省 略 了 group by 子 句 ， 因 此 整个 关系 被 当 作 是 一 个 86 | 
分 组 。 
作为 在 元 组 分 组 上 进行 聚集 操作 的 另 一 个 例子 ， 考 虑 查询 “ 找 出 每 | deptname | avg-salary | 
个 系 在 2010 年 春季 学 期 讲授 一 门 课程 的 教师 人 数 ”"。 有 关 每 位 教师 在 Biology | 72000 | 
每 人 学 期 讲授 每 个 课程 段 的 信息 在 teaches 关系 中 。 但是， 这些 信 息 需 | Comp Si 739 | 
要 与 来 自 instructor 关系 的 信息 进行 连接 ， 才 能 够 得 到 每 位 教师 所 在 的 | Finance | 85000 
系 名 。 这 样 ， 我 们 把 此 查询 写 做 如 下 形式 : T o 
select dept_name, count (distinct /D) as instr_count Physics | 91000 | 
fi instructor natural join teaches rom re 
ee ee = i sping" er year = 2010 图 3-15 查询 “ 找 出 每 个 系 的 
group by dept_name; 平均 工资 " 的 结果 关系 
其 结果 如 图 3-16 所 示 。 | dept.name | instrcount | 
当 SQL 查询 使 用 分 组 时 ， 一 个 很 重要 的 事情 是 需要 保证 | Comp. Sci 3 
出 现在 select 语句 中 但 没有 被 聚集 的 属性 只 能 是 出 现在 group p i 
by 子 句 中 的 那些 属性 。 换 名 话说， 任何 没有 出 现在 group by | Music i 
子 句 中 的 属性 如 果 出 现在 select 子 句 中 的 话 ， 它 只 能 出 现在 ”图 3-16 查询 “ 找 出 每 个 系 在 2010 年 
聚集 函数 内 部 ， 否 则 这 样 的 查询 就 是 错误 的 。 例 如 ， 下 述 查 春季 学 期 讲授 一 门 课程 的 
询 是 错误 的 ， 因 为 万 没有 出 现在 group by FAP, (AEH 教师 人 数 " 的 结果 关系 


现在 了 select 子 句 中 ， 而 且 没有 被 聚集 : 
/* 错误 查询 */ 
select dept_name, ID, avg (salary) 
from instructor 
group by dept_name; 
在 一 个 特定 分 组 (通过 dept_name 定义 ) 中 的 每 位 教师 都 有 一 个 不 同 的 DD， 既 然 每 个 分 组 只 输出 一 
个 元 组 ， 那 就 无 法 确定 选 哪个 ID 值 作为 输出 。 其 结果 是 ，SQL 不 允许 这 样 的 情况 出 现 。 
3.7.3 having 子 句 
有 了 时候， 对 分 组 限定 条 件 比 对 元 组 限定 条 件 更 有 用 。 例 如 ,我 们 也 许 只 对 教师 平均 工资 超过 
42 000 美 元 的 系 感 兴趣 。 该 条 件 并 不 针对 单个 元 组 ， 而 是 针对 group by 子 句 构成 的 分 组 。 为 表达 这 样 
的 查询 ， 我 们 使 用 SQL 的 having FAJ, having 子 句 中 的 谓词 在 形成 分 组 后 才 起 作用 ， 因 此 可 以 使 用 聚 
集 函 数 。 我 们 用 SQL 表达 该 查询 如 下 : 


select dept_name, avg (salary) as avg_salary 
from instructor 

group by dept_name 

having avg (salary) > 42000; 








87 
89 
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其 结果 如 图 3-17 Aras. 

















与 select 子 句 的 情况 类 似 ， 任 何 出 现在 having 子 句 中 ,但 | 
没有 被 聚集 的 属性 必须 出 现在 group by 子 句 中 ， 否 则 查询 就 Physics 91000 
被 当成 是 错误 的 。 Elec Eng. aoo 
i inan 85000 
包含 聚集 、group by 或 having 子 句 的 查询 的 含义 可 通过 Comp. Sc 77333 

下 述 操作 序列 来 定义 : pay ND | 

1. 与 不 带 聚 集 的 查询 情况 类 似 ， 最 先 根据 from 子 句 来 计 





图 3-17 查询 “ 找 出 系 平均 工资 超过 


算出 一 个 关系 。 ` i 
42 000 4 那些 系 Fis 
2. 如 果 出 现 了 where Aj, where 子 句 中 的 谓词 将 应 用 a 

到 from 子 句 的 结果 关系 上 。 ee 


3. 如 果 出 现 了 group by 子 句 ， 满 足 where 谓词 的 元 组 通过 group by 子 句 形成 分 组 。 如 果 没 有 
group by 子 句 ， 满 足 where 谓词 的 整个 元 组 集 被 当 作 一 个 分 组 。 

4. 如 果 出 现 了 having 子 句 ， 它 将 应 用 到 每 个 分 组 上 ; 不 满足 having 子 句 谓词 的 分 组 将 被 抛弃 。 

5. select 子 句 利用 剩 下 的 分 组 产生 出 查询 结果 中 的 元 组 ， 即 在 每 个 分 组 上 应 用 聚集 函数 来 得 到 单 
个 结果 元 组 。 

为 了 说 明 在 同一 个 查询 中 同时 使 用 having 子 句 和 where 子 句 的 情况 ， 我 们 考虑 查询 “对 于 在 2009 
年 讲授 的 每 个 课程 段 ， 如 果 该 课程 段 有 至 少 2 名 学 生 选 课 ， 找 出 选修 该 课程 段 的 所 有 学 生 的 总 学 分 (tot 
cred) 的 平均 值 ”。 


select course_id, semester, year, sec_id, avg (tot_cred) 
from takes natural join student 

where year = 2009 

group by course_id, semester, year, sec_id 

having count (JD) >= 2; 


注意 上 述 查 询 需要 的 所 有 信息 来 自 关 系 takes 和 student， 尽 管 此 查询 是 关于 课程 段 的 ， 却 并 不 需要 
与 section 进行 连接 。 
3.7.4 对 空 值 和 布尔 值 的 聚集 

空 值 的 存在 给 聚集 运算 的 处 理 带 来 了 麻烦 。 例 如 ， 假 设 instructor 关系 中 有 些 元 组 在 salary 上 取 空 
值 。 考 虑 以 下 计算 所 有 工资 总 额 的 查询 : 


select sum( salary) 
from instructor ; 


由 于 一 些 元 组 在 salary 上 取 空 值 ， 上 述 查 询 待 求 和 的 值 中 就 包含 了 空 值 。SQL 标准 并 不 认为 总 和 
KGH null, ÆA sum 运算 符 应 忽略 输入 中 的 null 值 。 

总 而 言 之 ， 聚 集 函 数 根据 以 下 原则 处 理 空 值 : 除了 count(“ ) 外 所 有 的 聚集 函数 都 忽略 输入 集合 中 
的 空 值 。 由 于 空 值 被 忽略 ， 有 可 能 造成 参加 函数 运算 的 输入 值 集 合 为 空 集 。 规 定 空 集 的 Count 运算 值 
为 0， 其 他 所 有 聚集 运算 在 输入 为 空 集 的 情况 下 返回 一 个 空 值 。 在 一 些 更 复杂 的 SQL 结构 中 空 值 的 影 
响 会 更 难以 琢磨 。 

在 SQL:1999 中 引入 了 布尔 (boolean ) 数据 类 型 ， 它 可 以 取 true, false, unknown 三 个 值 。 有 两 个 
聚集 函数 : some 和 every， 其 含义 正如 直观 意义 一 样 ， 可 用 来 处 理 布尔 (boolean) 值 的 集合 


3.8 RETEK 


SQL 提供 扔 套子 查询 机 制 。 子 查询 是 坐 套 在 另 一 个 查询 中 的 select- from- where KAR, TAHE 
套 在 where 子 句 中 ,通常 用 于 对 集合 的 成 员 资 格 、 集 合 的 比较 以 及 集合 的 基数 进行 检查 。 从 3. 8.1 到 
3. 8. 4 节 我 们 学 习 在 where 子 句 中 能 套子 查询 的 用 法 。 在 3. 8.5 节 我 们 学 习 在 from Fa PRE Fe 
询 。 在 3. 8.7 节 我 们 将 看 到 一 类 被 称 作 标量 子 查询 的 子 查询 是 如 何 出 现在 一 个 表达 式 所 返回 的 单个 值 
可 以 出 现 的 任何 地 方 的 。 
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3. 8.1 集合 成 员 资格 

SQL 允许 测试 元 组 在 关系 中 的 成 员 资格 。 连 接 词 in 测试 元 组 是 否 是 集合 中 的 成 员 ， 集 合 是 由 
select 子 句 产生 的 一 组 值 构成 的 。 连 接 词 not in 则 测试 元 组 是 否 不 是 集合 中 的 成 员 。 

作为 示例 ， 考 虑 查询 “ 找 出 在 2009 年 秋季 和 2010 年 春季 学 期 同时 开课 的 所 有 课程 ”。 先 前 ， 我 
们 通过 对 两 个 集合 进行 交 运 算 来 书写 该 查询 ， 这 两 个 集合 分 别 是 : 2009 年 秋季 开课 的 课程 集合 与 
2010 年 春季 开课 的 课程 集合 。 现 在 我 们 采用 另 一 种 方式 ， 查 找 在 2009 年 秋季 开课 的 所 有 课程 ， 看 它 
们 是 否 也 是 2010 年 春季 开课 的 课程 集合 中 的 成 员 。 很 明显 ， 这 种 方式 得 到 的 结果 与 前 面相 同 ， 但 我 
们 可 以 用 SQL 中 的 in 连 接 词 书写 该 查询 。 我 们 从 找 出 2010 年 春季 开课 的 所 有 课程 开始 ， 写 出 子 
查询 : 

(select course_id 


from section 
where semester = ’ Spring’ and year = 2010) 


然后 我 们 需要 从 子 查询 形成 的 课程 集合 中 找 出 那些 在 2009 年 秋季 开课 的 课程 。 为 完成 此 项 任务 可 
将 子 查询 戏 入 外 部 查询 的 where 子 句 中 。 最 后 的 查询 语句 是 : 


select distinct course_id 90 | 
from section 
where semester = ’ Fall’ and year = 2009 and 


course_id in (select course_id 
from section 
where semester = ‘Spring’ and year = 2010) ; 


该 例 说 明了 在 SQL 中 可 以 用 多 种 方法 书写 同一 查询 。 这 种 灵活 性 是 有 好 处 的 ， 因 为 它 允 许 用 户 用 
最 接近 自然 的 方法 去 思考 查询 。 我 们 将 看 到 在 SQL 中 有 许多 这 样 的 元 余 。 
RAS in 结构 类 似 的 方式 使 用 not in 结构 。 例 如 ， 为 了 找 出 所 有 在 2009 年 秋季 学 期 开课 ,但 不 
在 2010 年 春季 学 期 开课 的 课程 ， 我们 可 写 出 : 
select distinct course_id 
from section 
where semester = “Fall” and year = 2009 and 
course_id not in (select course_id 


from section 
where semester = ’ Spring’ and year = 2010) ; 


in 和 not in 操作 符 也 能 用 于 枚 举 集 合 。 下 面 的 查询 找 出 既 不 叫 " Mozart”, ti, AN 84“ Einstein "的 教师 
的 姓名 : 


select distinct name 
from instructor 
where name not in (’ Mozart’ , ’ Einstein’ ) ; 


在 前 面 的 例子 中 ， 我 们 是 在 单 属 性 关系 中 测试 成 员 资格 。 在 SQL 中 测试 任意 关系 的 成 员 资 格 也 是 
可 以 的 。 例 如 ， 我 们 可 以 这 样 来 表达 查询 “ 找 出 (不 同 的 ) 学 生 总 数 ， 他 们 选修 了 ID 为 10101 的 教师 所 
讲授 的 课程 段 ”: 
select count ( distinct /1D) 
from takes 
where (course_id, sec_id, semester, year) in (select course_id, sec_id, semester, year 


from teaches 
where teaches. ID = 10101); 


3.8.2 集合 的 比较 
作为 一 个 说 明 舱 套子 查询 能 够 对 集合 进行 比较 的 例子 ， 考 虑 查询 " 找 出 满足 下 面条 件 的 所 有 教师 
的 姓名 ， 他 们 的 工资 至 少 比 Biology 系 某 一 个 教师 的 工资 要 高 ”， 在 3.4. 1 节 ， 我 们 将 此 查询 写作 : 
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select distinct 7. name 
from instructor as T, instructor as S 
where T. salary > S. salary and S. dept_name = ’ Biology’ ; 


但 是 SQL 提供 另外 一 种 方式 书写 上 面 的 查询 。 短 语 “ 至 少 比 某 一 个 要 大 "在 SQL 中 用 > some 表示 。 此 
结构 允许 我 们 用 一 种 更 贴近 此 查询 的 文字 表达 的 形式 重 写 上 面 的 查询 : 
select name 
from instructor 
where salary > some (select salary 
from instructor 
where dept_name = ’ Biology’ ) ; 
子 查询 
(select salary 
from instructor 
where dept_name = ’ Biology’ ) 


产生 Biology 系 所 有 教师 的 所 有 工资 值 的 集合 。 当 元 组 的 salary 值 至 少 比 Biology 系 教师 的 所 有 工资 值 集 
合 中 某 一 成 员 高 时 ， 外 层 select 的 where 子 句 中 > some 的 比较 为 真 。 

SQL 也 允许 <some, <=some, >=some, =some 和 <> some 的 比较 。 作 为 练习 ， 请 验证 = some 
等 价 于 in, SRT <> some 并 不 等 价 于 not in, © 

现在 我 们 稍微 修改 一 下 我 们 的 查询 。 找 出 满足 下 面条 件 的 所 有 教师 的 姓名 ， 他 们 的 工资 值 比 
Biology 系 每 个 教师 的 工资 都 高 。 结 构 > all 对 应 于 词组 比 所 有 的 都 大 ”。 使 用 该 结构 ,我 们 写 出 查询 
如 下 : 


select name 
from instructor 
where salary > all (select salary 
from instructor 
where dept_name = ’ Biology’ ) ; 


类 似 于 some, SQL 也 人 允许 <al，<=al，>=al，=al 和 <>al 的 比较 。 作 为 练习 ， 请 验证 
<> all 等 价 于 not in, 但 =al 并 不 等 价 于 in, 

作为 集合 比较 的 男 一 个 例子 ， 考 虑 查询 “ 找 出 平均 工资 最 高 的 系 ”。 我 们 首先 写 一 个 查询 来 找 出 每 
个 系 的 平均 工资 ， 然 后 把 它 作为 子 查询 谋 套 在 一 个 更 大 的 查询 中 ， 以 找 出 那些 平均 工资 大 于 等 于 所 有 
系 平均 工资 的 系 。 


select depi_name 

from instructor 

group by dept_name 

having avg (salary) >= all (select avg (salary) 
from instructor 
group by dept_name) ; 


3.8.3 空 关系 测试 

SQL 还 有 一 个 特性 可 测试 一 个 子 查 询 的 结果 中 是 否 存在 元 组 。exists 结构 在 作为 参数 的 子 查询 非 空 
时 返回 true 值 。 使 用 exists 结构 ， 我 们 还 能 用 另外 一 种 方法 书写 查询 “ 找 出 在 2009 年 秋季 学 期 和 2010 
年 春季 学 期 同时 开课 的 所 有 课程 ”: 


select course_id 

from section as S 

where semester = ` Fall’ and year = 2009 and 
exists (select + 





© 在 SQL 中 关键 词 any 同 义 于 some。 早 期 SQL 版 本 中 仅 允 许 使 用 any， 后 来 的 版 本 为 了 避免 和 英语 中 any 一 词 在 
语言 上 的 混淆 ， 又 添加 了 另 一 个 可 选择 的 关键 词 some. 
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from section as 了 
where semester = “Spring”and year = 2010 and 
S. course_id = T. course_id) ; 

上 述 查 询 还 说 明了 SQL 的 一 个 特性 ,来 自 外 层 查询 的 一 个 相关 名 称 ( 上 述 查 询 中 的 S) 可 以 用 在 
where 子 句 的 子 查询 中 。 使 用 了 来 自 外 层 查 询 相 关 名 称 的 子 查询 被 称 作 相关 子 查询 (correlated 
subquery ) 。 

在 包含 了 子 查 询 的 查询 中 ， 在 相关 名 称 上 可 以 应 用 作用 域 规则 。 根 据 此 规则 ， 在 一 个 子 查 询 中 只 
能 使 用 此 子 查询 本 身 定义 的 ， 或 者 在 包含 此 子 查询 的 任何 查询 中 定义 的 相关 名 称 。 如 果 一 个 相关 名 称 
既 在 子 查询 中 定义 ， 又 在 包含 该 子 查询 的 查询 中 定义 ， 则 子 查询 中 的 定义 有 效 。 这 条 规则 类 似 于 编程 
语言 中 通用 的 变量 作用 域 规则 。 

我 们 可 以 用 not exists 结构 测试 子 查询 结果 集中 是 否 不 存在 元 组 。 我 们 可 以 使 用 not exists 结构 模 
拟 集合 包含 ( 即 超 集 ) 操作 : 我 们 可 将 “关系 4 包含 关系 B" 写成 “not exists( B except A)”, (尽管 
contains 运算 符 并 不 是 当前 SQL 标准 的 一 部 分 ， 但 这 一 运算 符 曾 出 现在 某 些 早期 的 关系 系统 中 - ) 为 了 
说 明 not exists 操作 符 ， 考 虑 查询 “ 找 出 选修 了 Biology 系 开 设 的 所 有 课程 的 学 生 ”- 使 用 except 结构 ， 
我 们 可 以 书写 此 查询 如 下 : [92] 

select S. ID, S. name | 93 
from student as S -3 
where not exists ( ( select course_id 

from course 

where dept_name = ’ Biology’ ) 

except 

( select T. course_id 


from takes as T 
where S. ID = T.ID)); 


这 里 ， 子 查询 
(select course_id 
from course 
where dept_name = ’ Biology’ ) 


找 出 Biology 系 开设 的 所 有 课程 集合 。 子 查询 


(select 7. course_id 
from takes as T 
where S. JD = T./D) 


找 出 S. ID 选修 的 所 有 课程 。 这 样 ， 外 层 select 对 每 个 学 生 测试 其 选修 的 所 有 课程 集合 是 否 包含 Biology 
系 开设 的 所 有 课程 集合 。 
3.8.4 重复 元 组 存在 性 测试 

SQL 提供 一 个 布尔 函数 ， 用 于 测试 在 一 个 子 查询 的 结果 中 是 否 存在 重复 元 组 。 如 果 作为 参数 的 子 
查询 结果 中 没有 重复 的 元 组 ，unique 结构 将 返回 true 值 。 我 们 可 以 用 unique 结构 书写 查询 * 找 出 所 
有 在 2009 年 最 多 开设 一 次 的 课程 "， 如 下 所 示 : 


select T. course_id 
from course as T 
where unique (select R. course_id 
from section as R 
where 7. course_id = R. course_id and 
R. year = 2009) ; 
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注意 如 果 某 门 课程 不 在 2009 年 开设 ， 那 么 子 查询 会 返回 一 个 空 的 结果 ，unique 谓词 在 空 集 上 计算 出 
真 值 。 
在 不 使 用 unique 结构 的 情况 下 ， 上 述 查 询 的 一 种 等 价 表 达 方 式 是 : 
select 7. course_id 
from course as T 
where | >= (select count( R. course_id) 
from section as R 


where T. course_id = R. course_id and 
R. year = 2009) ; 


我 们 可 以 用 not unique 结构 测试 在 一 个 子 查询 结果 中 是 和 否 存在 重复 元 组 。 为 了 说 明 这 一 结构 ， 考 
虚 查 询 “ 找 出 所 有 在 2009 年 最 少 开 设 两 次 的 课程 ”， 如 下 所 示 : 
select T. course_id 
from course as T 
where not unique (select R. course_id 
from section as R 
where T. course_id = R. course_id and 
R. year = 2009) ; 
形式 化 地 ， 对 一 个 关系 的 unique 测试 结果 为 假 的 定义 是 ， 当 且 仅 当 在 关系 中 存在 着 两 个 元 组 t, 和 
th, Hy =t,。 由 于 在 4 Ri 的 某 个 域 为 空 时 ,判断 4 = 为 假 ， 所 以 尽管 一 个 元 组 有 多 个 副本 ， 只 要 
该 元 组 有 一 个 属性 为 空 ，unique 测试 就 有 可 能 为 真 。 
3.8.5 from 子 句 中 的 子 查 询 
SQL 允许 在 from 子 句 中 使 用 子 查 询 表达 式 。 在 此 采用 的 主要 观点 是 : 任何 select-from-where 表达 
式 返回 的 结果 都 是 关系 ， 因 而 可 以 被 插入 到 另 一 个 select-from- where 中 任何 关系 可 以 出 现 的 位 置 。 
考虑 查询 “ 找 出 系 平均 工资 超过 42 000 美元 的 那些 系 中 教师 的 平均 工资 " 。 在 3.7 节 我 们 使 用 了 
having 子 句 来 书写 此 查询 。 现 在 我 们 可 以 不 用 having 子 句 来 重 写 这 个 查询 ， 而 是 通过 如 下 这 种 在 from 
子 句 中 使 用 子 查询 的 方式 : 


select dept_name, avg_salary 

from (select dept_name, avg (salary) as avg_salary 
from instructor 
group by dept_name ) 

where avg_salary > 42000; 








94 
95 








该 子 查询 产生 的 关系 包含 所 有 系 的 名 字 和 相应 的 教师 平均 工资 。 子 查询 的 结果 属性 可 以 在 外 层 查询 中 
使 用 ， 正 如 上 例 所 示 。 

注意 我 们 不 需要 使 用 having 子 句 ， 因 为 from 子 句 中 的 子 查询 计算 出 了 每 个 系 的 平均 工资 ， 早 先 
在 having 子 句 中 使 用 的 谓词 现在 出 现在 外 层 查询 的 where 子 句 中 。 

我 们 可 以 用 as 子 句 给 此 子 查询 的 结果 关系 起 个 名 字 ， 并 对 属性 进行 重合 名。 如 下 所 示 : 


select dept_name, avg_salary 
from (select dept_name, avg (salary) 

from instructor 

group by dept_name) 

as dept_avg (dept_name, avg_salary) 
where avg_salary > 42000; 


子 查询 的 结果 关系 被 命名 为 dept_avg， 其 属性 名 是 dept_name 和 avg_salary. 

很 多 (但 并 非 全 部 )SQL 实现 都 支持 在 from FA PRELAM. TER, Hee SQL 实现 要 求 对 每 
一 个 子 查询 结果 关系 都 给 一 个 名 字 ， 即 使 该 名 字 从 不 被 引用 ; Oracle 允许 对 子 查询 结果 关系 命名 ( 省略 
掉 关 键 字 as) ， 但 是 不 允许 对 关系 中 的 属性 重 命名 。 

作为 另 一 个 例子 ， 假 设 我 们 想 要 找 出 在 所 有 系 中 工资 总 额 最 大 的 系 。 在 此 having 子 句 是 无 能 为 力 
的 ， 但 我 们 可 以 用 from 子 句 中 的 子 查 询 轻易 地 写 出 如 下 查询 : 
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select max (tot_salary) 
from (select dept_name, sum( salary) 
from instructor 
group by dept_name) as dept_total (dept_name, tot_salary) ; 


我 们 注意 到 在 from 子 句 艇 套 的 子 查询 中 不 能 使 用 来 自 from 子 句 其 他 关系 的 相关 变量 。 然 而 SQL: 
2003 允许 from 子 句 中 的 子 查 询 用 关键 词 lateral 作为 前 级 ， 以 便 访问 from 子 句 中 在 它 前 面 的 表 或 子 查 
询 中 的 属性 。 例 如 ， 如 果 我 们 想 打印 每 位 教师 的 姓名 ， 以 及 他 们 的 工资 和 所 在 系 的 平均 工资 ， 可 书写 
查询 如 下 : 


select name, salary, avg_salary 
from instructor 11, lateral (select avg( salary) as avg_salary 
from instructor [2 
where /2. dept_name = I. dept_name) ; 


没有 lateral 子 句 的 话 ， 子 查询 就 不 能 访问 来 自 外 层 查 询 的 相关 变量 几 。 目 前 只 有 少数 SQL 实现 支持 
lateral 子 句 ， 比 如 IBM DB2。 [96 | 
3.8.6 with FA 

with 子 句 提供 定义 临时 关系 的 方法 ， 这 个 定义 只 对 包含 with 子 句 的 查询 有 效 。 考 虑 下 面 的 查询 ， 
它 找 出 具有 最 大 预算 值 的 系 。 





with max_budget (value) as 
(select max ( budget ) 
from department ) 

select budget 

from department , max_budget 

where department. budget = max_budget. value ; 
with 子 句 定义 了 临时 关系 max_budget， 此 关系 在 随后 的 查询 中 马上 被 使 用 了 。with 子 句 是 在 SQL: 1999 
中 引入 的 ， 目 前 有 许多 (但 并 非 所 有 ) 数 据 库 系统 都 提供 了 支持 。 

我 们 也 能 用 from 子 句 或 where 子 句 中 的 嵌 套 子 查询 书写 上 述 查 询 。 但 是 ， 用 谤 套子 查询 会 使 得 查 
AA a) GE ETE. with 子 句 使 查询 在 逻辑 上 更 加 清晰 ， 它 还 允许 在 一 个 查询 内 的 多 个 地 方 使 用 视图 
定义 。 

例如 ， 假 设 我 们 要 查 出 所 有 工资 总 额 大 于 所 有 系 平均 工资 总 额 的 系 ， 我 们 可 以 利用 如 下 with 子 句 
写 出 查询 : 

with dept_total (dept_name, value) as 
(select dept_name, sum( salary) 
from instructor 
group by dept_name) , 
dept_total_avg( value) as 
(select avg( value) 
from dept_total ) 
select dept_name 
from dept_total , dept_total_avg 
where dept_total. value >= dept_total_avg. value; 
我 们 当然 也 可 以 不 用 with 子 句 来 建立 等 价 的 查询 ,但 是 那样 会 复杂 很 多 ,而 且 也 不 易 看 懂 。 作 为 练 
习 ， 你 可 以 把 它 转化 为 不 用 with 子 句 的 等 价 查 询 。 
3.8.7 ”标量 子 查询 

SQL 允许 子 查询 出 现在 返回 单个 值 的 表达 式 能 够 出 现 的 任何 地 方 ， 只 要 该 子 查询 只 返回 包含 单个 
属性 的 单个 元 组 ; 这 样 的 子 查 询 称 为 标量 子 查询 (scalar subquery ) 。 例 如 ， 一 个 子 查 询 可 以 用 到 下 面 例 
子 的 select 子 句 中 ， 这 个 例子 列 出 所 有 的 系 以 及 它们 拥有 的 教师 数 : [ 97 ] 
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select dept_name, 
(select count( ` ) 
from instructor 
where department. dept_name = instructor, dept_name ) 
as num_instructors 
from department ; 


上 面 例子 中 的 子 查询 保证 只 返回 单个 值 ， 因 为 它 使 用 了 不 带 group by 的 count( * ) SE eR. HA 
说 明了 对 相关 变量 的 使 用 ， 即 使 用 在 外 层 查询 的 from 子 句 中 关系 的 属性 ， 例 如 上 例 中 的 
department. dept_name , 

标量 子 查询 可 以 出 现在 select, where 和 having 子 句 中 。 也 可 以 不 使 用 聚集 函数 来 定义 标量 子 查 
询 。 在 编译 时 并 非 总 能 判断 一 个 子 查询 返回 的 结果 中 是 否 有 多 个 元 组 ， 如 果 在 子 查 询 被 执行 后 其 结果 
中 有 不 止 一 个 元 组 ， 则 产生 一 个 运行 时 错误 。 

注意 从 技术 上 讲 标量 子 查询 的 结果 类 型 仍然 是 关系 ， 尽 管 其 中 只 包含 单个 元 组 。 然 而 ， 当 在 表达 
式 中 使 用 标量 子 查询 时 ， 它 出 现 的 位 置 是 单个 值 出 现 的 地 方 ，SQL 就 从 该 关系 中 包含 单 属性 的 单元 组 
中 取出 相应 的 值 ， 并 返回 该 值 。 


3.9 ”数据 库 的 修改 
目前 为 止 我 们 的 注意 力 集中 在 对 数据 库 的 信息 抽取 上 。 现 在 我 们 将 展示 如 何 用 SQL 来 增加 、 删 除 


和 修改 信息 。 
3.9.1 删除 
删除 请 求 的 表达 与 查询 非常 类 似 。 我 们 只 能 删除 整个 元 组 ， 而 不 能 只 删除 某 些 属性 上 的 值 。SQL 
用 如 下 语句 表示 删除 : 
delete from r 
where P; 


其 中 PP 代表 一 个 谓词 ,，r 代表 一 个 关系 。delete 语句 首先 从 7 中 找 出 所 有 使 P(t) 为 真 的 元 组 上， 然后 把 
它们 从 r 中 删除 。 如 果 省 略 where 子 句 ， 则 7 中 所 有 元 组 将 被 删除 。 
注意 delete 命令 只 能 作用 于 一 个 关系 。 如 果 我 们 想 从 多 个 关系 中 删除 元 组 ， 必 须 在 每 个 关系 上 使 
用 一 条 delete 命令 。where 子 句 中 的 谓词 可 以 和 select 命令 的 where 子 句 中 的 谓词 一 样 复杂 。 在 另 一 种 
[98 | 极端 情况 下 ，where 子 句 可 以 为 空 ， 请 求 
delete from instructor ; 
将 删除 instructor 关系 中 的 所 有 元 组 。instructor 关系 本 身 仍 然 存 在 ， 但 它 变 成 空 的 了 。 
下 面 是 SQL 删除 请 求 的 一 些 例 子 : 
© 从 instructor 关系 中 删除 与 Finance 系 教师 相关 的 所 有 元 组 。 
delete from instructor 
where dept_name = ° Finance’ ; 
。 删除 所 有 工资 在 13 000 美元 到 15 000 美元 之 间 的 教师 。 


delete from instructor 
where salary between 13000 and 15000; 


© 从 instructor 关系 中 删除 所 有 这 样 的 教师 元 组 ， 他 们 在 位 于 Watson 大 楼 的 系 工作 。 


delete from instructor 
where dept_name in (select dept_name 
from department 
where building = “Watson ) ; 


此 delete 请 求 首先 找 出 所 有 位 于 Watson 大 楼 的 系 ， 然 后 将 属于 这 些 系 的 instructor 元 组 全 部 删除 。 
注意 ， 虽 然 我 们 一 次 只 能 从 一 个 关系 中 删除 元 组 ， 但 是 通过 在 delete 的 where 4) +74 select- 
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from-where， 我 们 可 以 引用 任意 数目 的 关系 。delete 请 求 可 以 包含 垦 套 的 select， 该 select 引用 待 删除 
元 组 的 关系 。 例 如 ， 假 设 我 们 想 删 除 工资 低 于 大 学 平均 工资 的 教师 记录 ， 可 以 写 出 如 下 语句 : 


delete from instructor 
where salary < (select avg (salary) 
from instructor ) ; 


& delete 语句 首先 测试 instructor 关系 中 的 每 一 个 元 组 ， 检 查 其 工资 是 否 小 于 大 学 教师 的 平均 工资 。 然 
后 删除 所 有 符合 条 件 的 元 组 ， 即 所 有 低 于 平均 工资 的 教师 。 在 执行 任何 删除 之 前 先进 行 所 有 元 组 的 测 
试 是 至 关 重 要 的 ， 因 为 车 有 些 元 组 在 其 余 元 组 未 被 测试 前 先 被 删除 ， 则 平均 工资 将 会 改变 ， 这 样 
delete 的 最 后 结果 将 依赖 于 元 组 被 处 理 的 顺序 ! 
3.9.2 插入 
要 往 关 系 中 插入 数据 ， 我 们 可 以 指定 待 插入 的 元 组 ,或 者 写 一 条 查询 语句 来 生成 待 插 入 的 元 组 集 
合 。 显 然 ， 待 插入 元 组 的 属性 值 必须 在 相应 属性 的 域 中 。 同 样 ， 待 插入 元 组 的 分 量 数 也 必须 是 正确 的 。 
最 简单 的 insert 语句 是 单个 元 组 的 插入 请 求 。 假 设 我 们 想 要 插入 的 信息 是 Computer Science 系 开 设 
的 名 为 “Database Systems "的 课程 CS-437， 它 有 4 个 学 分 。 我 们 可 写成 : 


insert into course 
values (’ CS437’ , ’ Database Systems’ , ’ Comp. Sci.’ , 4); 


在 此 例 中 ,元 组 属性 值 的 排列 顺序 和 关系 模式 中 属性 排列 的 顺序 一 致 。 考 虑 到 用 户 可 能 不 记得 关系 属 
性 的 排列 顺序 ，SQL 允许 在 insert 语句 中 指定 属性 。 例 如 ， 以 下 SQL insert 语句 与 前 述 语句 的 功能 
相同 。 
insert into course (course_id, title, dept_name, credits ) 
values (’ CS —437’ , ’ Database Systems’ , "Comp. Sei. ° , 4) ; 
insert into course (title, course_id, credits, dept_name) 
values (’ Database Systems’, ° CS -437° , 4, ’ Comp. Sci. ’ ) ; 
更 通常 的 情况 是 ， 我 们 可 能 想 在 查询 结果 的 基础 上 插入 元 组 。 假 设 我 们 想 让 Music 系 每 个 修 满 144 
学 分 的 学 生成 为 Music 系 的 教师 ， 其 工资 为 18 000 美元 。 我 们 可 写作 : 


insert into instructor 
select ID, name, dept_name, 18000 
from student 
where dept_name = ’ Music’ and tot_cred > 144; 


和 本 节 前 面 的 例子 不 同 的 是 ， 我 们 没有 指定 一 个 元 组 ， 而 是 用 select 选 出 一 个 元 组 集合 。SQL 先 执行 
这 条 select 语句 ， 求 出 将 要 插入 到 instructor 关系 中 的 元 组 集合 。 每 个 元 组 都 有 ID, name, dept_name 
(Music) 和 工资 (18 000 美元 ) 。 

在 执行 插入 之 前 先 执行 完 select 语句 是 非常 重要 的 。 如 果 在 执行 select 语句 的 同时 执行 插入 动作 ， 
如 果 在 student 上 没有 主 码 约束 的 话 ， 像 


insert into student 
select” 
from student ; 


这 样 的 请 求 就 可 能 会 插入 无 数 元 组 。 如 果 没 有 主 码 约束 ， 上 述 请 求 会 重新 插入 student 中 的 第 一 个 
元 组 ， 产 生 该 元 组 的 第 二 份 拷贝 。 由 于 这 个 副本 现在 是 student 中 的 一 部 分 ，select 语句 可 能 找到 
它 ， 于 是 第 三 份 拷贝 被 插入 到 studen 中 。 第 三 份 拷贝 又 可 能 被 select 语句 发 现 ， 于 是 又 插入 第 四 
份 拷贝 ， 如 此 等 等 ， 无 限 循环 。 在 执行 插入 之 前 先 完成 select 语句 的 执行 可 以 避免 这 样 的 问题 。 
这 样 ， 如 果 在 student 关系 上 没有 主 码 约束 ， 那 么 上 述 insert 语句 就 只 是 把 student 关系 中 的 每 个 元 
组 都 复制 一 遍 。 

在 讨论 insert 语句 时 我 们 只 考虑 了 这 样 的 例子 ; 待 插入 元 组 的 每 个 属性 都 被 赋 了 值 。 但 是 有 可 能 
待 插入 元 组 中 只 给 出 了 模式 中 部 分 属性 的 值 ， 那 么 其 余 属 性 将 被 赋 空 值 ， 用 nul RR BERR: 
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insert into student 
values (3003’ , ’Green’, ’ Finance’ , null) ; 
此 请 求 所 插入 的 元 组 代表 了 一 个 在 Finance A, ID 为 "3003 "的 学 生 ， 但 其 tot_cred 值 是 未 知 的 。 考 虑 
查询 : 
select ID 


from student 
where tot_cred > 45; 


既然 “3003" 号 学 生 的 tot_cred 值 未 知 ， 我 们 不 能 确定 它 是 否 大 于 45。 
大 部 分 关系 数据 库 产 品 有 特殊 的 “bulk loader” 工具 ， 它 可 以 向 关系 中 插入 一 个 非常 大 的 元 组 集合 。 
这 些 工 具 允 许 从 格式 化 文本 文件 中 读 出 数据 ， 且 执行 速度 比 同 等 目的 的 插入 语句 序列 要 快 得 多 。 
3.9.3 更 新 
有 些 情 况 下 ， 我 们 可 能 希望 在 不 改变 整个 元 组 的 情况 下 改变 其 部 分 属性 的 值 。 为 达到 这 一 目的 ， 
可 以 使 用 update 语句 。 与 使 用 insert, delete 类 似 ， 待 更 新 的 元 组 可 以 用 查询 语句 找到 。 
假设 要 进行 年 度 工资 增长 ， 所 有 教师 的 工资 将 增长 5% 。 我 们 写 出 : 
update instructor 
set salary = salary ”1. 05 ; 
上 面 的 更 新 语句 将 在 instructor 关系 的 每 个 元 组 上 执行 一 次 。 
如 果 只 给 那些 工资 低 于 70 000 美元 的 教师 涨 工资 ， 我 们 可 以 这 样 写 : 


update instructor 
set salary = salary ”1. 05 
where salary < 70 000; 


总 之 ，update 语句 的 where 子 句 可 以 包含 select 语句 的 where F4 PAE AKA ( MIRREN 
select), 。 和 insert, delete 类 似 ，update 语句 中 嵌 套 的 select 可 以 引用 待 更 新 的 关系 。 同 样 ，SQL 首先 
检查 关系 中 的 所 有 元 组 ， 看 它们 是 否 应 该 被 更 新 ， 然 后 才 执 行 更 新 。 例 如 ， 请 求 “ 对 工资 低 于 平均 数 的 
教师 涨 5% 的 工资 " 可 以 写 为 如 下 形式 : 

update instructor 

set salary = salary © 1.05 

where salary < (select avg (salary) 

from instructor) ; 
我 们 现在 假设 给 工资 超过 100 000 美元 的 教师 涨 3% 的 工资 ， 其 余 教师 涨 5% 。 我 们 可 以 写 两 条 
update 语句 : 
update instructor 


set salary = salary ° 1.03 
where salary > 100000 ; 


update instructor 
set salary = salary * 1.05 
where salary <= 100000; 
注意 这 两 条 update 语句 的 顺序 十 分 重要 。 假 如 我 们 改变 这 两 条 语句 的 顺序 ， 工 资 略 少 于 100 000 美元 
的 教师 将 增长 8% 的 工资 。 
SQL 提供 case 结构 ， 我 们 可 以 利用 它 在 一 条 update 语句 中 执行 前 面 的 两 种 更 新 ， 避 免 更 新 次 序 引 
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update instructor 
set salary = case 
when salary <= 100000 then salary ` 1.05 
else salary ` 1.03 
end 


case 语句 的 一 般 格式 如 下 : 
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Case 
when pred, then result, 
when pred, then result, 


when pred, then result, 
else result, 
end 


M4 i 是 第 一 个 满足 的 pred , pred,---pred, 时 ， 此 操作 就 会 返回 result; 如 果 没 有 一 个 谓词 可 以 满足 ， 则 
返回 result... case 语句 可 以 用 在 任何 应 该 出 现 值 的 地 方 。 
标量 子 查询 在 SQL 更 新 语句 中 也 非常 有 用 ， 它 们 可 以 用 在 set 子 句 中 。 考 虑 这 样 一 种 更 新 : 我 们 
JERE student 元 组 的 tot_cred 属性 值 设 为 该 生成 功 学 完 的 课程 学 分 的 总 和 。 我 们 假设 如 果 一 个 学 生 在 
某 门 课程 上 的 成 绩 既 不 是 'F' ， 也 不 是 空 ， 那 么 他 成 功 学 完了 这 门 课程 。 我 们 需要 使 用 set 子 句 中 的 子 
查询 来 写 出 这 种 更 新 ， 如 下 所 示 : 
update student S 
set tot_cred = ( 
select sum( credits ) 
from takes natural join course 
where S. JD = takes. ID and 
takes. grade <> °F’ and 
takes. grade is not null) ; 
注意 子 查询 使 用 了 来 自 update 语句 中 的 相关 变量 S。 如 果 一 个 学 生 没有 成 功 学 完 任何 课程 ， 上 述 更 新 
语句 将 把 其 tot_cred 属性 值 设 为 空 。 如 果 想 把 这 样 的 属性 值 设 为 0 的 话 ， 我 们 可 以 使 用 另 一 条 update 
语句 来 把 空 值 蔡 换 为 0。 更 好 的 方案 是 把 上 述 子 查询 中 的 “select sum ( credis ) " 子 句 替换 为 如 下 使 用 
case 表达 式 的 select 子 句 : 
Select case 
when sum( credits) is not null then sum( credits ) 
else 0 
end 


3.10 总结 


SQL 是 最 有 影响 力 的 商用 市 场 化 的 关系 查询 语言 。SQL 语言 包括 几 个 部 分 : 

口 数据 定义 语言 (DDL) ， 它 提供 了 定义 关系 模式 、 删 除 关系 以 及 修改 关系 模式 的 命令 。 

O 数据 操纵 语言 (DML) ， 它 包括 查询 语言 ， 以 及 往 数据 库 中 插入 元 组 、 从 数据 库 中 删除 元 组 和 修改 
数据 库 中 元 组 的 命令 。 

SQL 的 数据 定义 语言 用 于 创建 具有 特定 模式 的 关系 。 除 了 声明 关系 属性 的 名 称 和 类 型 之 外 ，SQL 还 

允许 声明 完整 性 约束 ， 例 如 主 码 约 束 和 外 码 约束 。 

SQL 提供 多 种 用 于 查询 数据 库 的 语言 结构 ， 其 中 包括 select, from 和 where 子 句 。SQL 支持 自然 连接 

操作 。 

SQL 还 提供 了 对 属性 和 关系 重 命 名 ， 以 及 对 查询 结果 按 特定 属性 进行 排序 的 机 制 。 

SQL 支持 关系 上 的 基本 集合 运算 ， 包 括 并 、 交 和 差 运 算 ， 它 们 分 别 对 应 于 数学 集合 论 中 的 U 、 门 和 
-运算 。 

SQL 通过 在 通用 真 值 tue 和 false 外 增加 真 值 “ unknown”， 来 处 理 对 包含 空 值 的 关系 的 查询 。 

SQL 支持 聚集 ， 可 以 把 关系 进行 分 组 ， 在 每 个 分 组 上 单独 运用 聚集 。SQL 还 支持 在 分 组 上 的 集合 

运算 。 

SQL 支持 在 外 层 查询 的 where 和 from 子 句 中 嵌 套 子 查询 。 它 还 在 一 个 表达 式 返 回 的 单个 值 所 允许 出 

现 的 任何 地 方 支持 标量 子 查询 。 

SQL 提供 了 用 于 更 新 、 插 和 人、 删除 信息 的 结构 。 
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术语 回顾 
。 数据 定义 语言 口 where 子 句 口 group by 
。 数据 操纵 语言 。 自然 连接 运算 口 having 
。 数据 库 模 式 。 as FAJ e KETAM 
。 数据 库 实例 e order by 于 句 。 集合 比较 
。 关系 模式 © 相关 名 称 ( 相关 变量 ， 元 组 |<, <=, >, >=] 
。 关系 实例 变量 ) | some, all} 
。 主 码 。 集合 运算 口 exists 
。 外 码 口 union 口 unique 
口 参照 关系 口 intersect lateral 子 句 
口 被 参照 关系 口 except e with 子 句 
e {A 。 空 值 。 标量 子 查询 
。 查询 语言 O 真 值 * unknown” e 数据 库 修改 
。 SQL 查询 结构 。 聚集 函数 O 删除 
口 select 子 句 O avg, min, max, sum, 口 插入 
口 from 子 句 count 更 新 
实践 习题 


3.1 


353 


3.4 


使 用 大 学 模式 ， 用 SQL 写 出 如 下 查询 。( 建议 在 一 个 数据 库 上 实际 运行 这 些 查 询 ， 使 用 我 们 在 本 书 的 
Web 网 站 db-book. com 上 提供 的 样本 数据 ， 上 述 网 站 还 提供 了 如 何 建立 一 个 数据 库 和 加 载 样本 数据 的 
说 明 。) 
a. 找 出 Comp. Sci. 系 开设 的 具有 3 个 学 分 的 课程 名 称 。 
b. 找 出 名 叫 Einstein 的 教师 所 教 的 所 有 学 生 的 标识 ， 保 证 结果 中 没有 重复 。 
c. 找 出 教师 的 最 高 工资 。 
d 找 出 工资 最 高 的 所 有 教师 ( 可 能 有 不 止 一 位 教师 具有 相同 的 工资 ) 。 
e. 找 出 2009 年 秋季 开设 的 每 个 课程 段 的 选课 人 数 。 
f 从 2009 年 秋季 开设 的 所 有 课程 段 中 ， 找 出 最 多 的 选课 人 数 。 
g 找 出 在 2009 年 秋季 拥有 最 多 选课 人 数 的 课程 段 。 
假设 给 你 一 个 关系 grade_points( grad_e, points) ， 它 提供 从 takes 关系 中 用 字母 表示 的 成 绩 等 级 到 数字 表 
示 的 得 分 之 间 的 转换 。 例 如 ,“A” 等 级 可 指定 为 对 应 于 4 分 ,“A - "对 应 于 3.7 od, “B+” 对 应 于 3.3 
分 ,，“B” 对 应 于 3 分 ， 等 等 。 学 生 在 某 门 课程 (课程 段 ) 上 所 获得 的 等 级 分 值 被 定义 为 该 课程 段 的 学 分 
乘 以 该 生得 到 的 成 绩 等 级 所 对 应 的 数字 表示 的 得 分 。 
给 定 上 述 关 系 和 我 们 的 大 学 模式 ， 用 SQL 写 出 下 面 的 每 个 查询 。 为 简单 起 见 ， 可 以 假设 没有 任何 
takes 元 组 在 grade 上 取 null 值 。 
a. 根据 ID 为 12345 的 学 生 所 选修 的 所 有 课程 ， 找 出 该 生 所 获得 的 等 级 分 值 的 总 和 。 
b. 找 出 上 述 学 生 等 级 分 值 的 平均 值 ( GPA) ， 即 用 等 级 分 值 的 总 和 除 以 相关 课程 学 分 的 总 和 。 
c 找 出 每 个 学 生 的 ID 和 等 级 分 值 的 平均 值 。 
使 用 大 学 模式 ， 用 SQL 写 出 如 下 插入 、 删 除 和 更 新 语句 。 
a. 给 Comp. Sci. 系 的 每 位 教师 涨 10% 的 工资 。 
b. 删除 所 有 未 开设 过 ( 即 没 有 出 现在 section 关系 中 ) 的 课程 。 
c. 把 每 个 在 tot_cred 属性 上 取 值 超过 100 的 学 生 作为 同系 的 教师 插入 ， 工 资 为 10 000 美元 。 
考虑 图 3-18 中 的 保险 公司 数据 库 ， 其 中 加 下 划 线 的 是 主 码 。 为 这 个 关系 数据 库 构 造 出 如 下 SQL 查询 : 
a. 找 出 2009 年 其 车 辆 出 过 交通 事故 的 人 员 总 数 。 
b. 向 数据 库 中 增加 一 个 新 的 事故 ， 对 每 个 必需 的 属性 可 以 设 定 任意 值 。 
c 删除 “John Smith” 拥 有 的 马自达 车 (Mazda ) 


3.5 


3.6 


3.7 


3.8 


3.9 


#32 SQL 59 





person (driver_id, name, address) 

car (license, model, year) 

accident ( report_number, date, location) 

owns ( driver_id, license} 

participated (report_number , license, driver_id , damage_amount ) 


PA 3-18 习题 3. 4 和 习题 3. 14 的 保险 公司 数据 库 








假设 有 关系 marks(ID, score) ， 我 们 希望 基于 如 下 标准 为 学 生 评定 等 级 : 如 果 score <40 得 F; 如 
R 40 <score <60 得 C; WMR 60 < score < 80 得 B; 如 果 80 < score 得 A。 写 出 SQL 查询 完成 下 列 
操作 : 

a. 基于 marks 关系 显示 每 个 学 生 的 等 级 。 

b. 找 出 各 等 级 的 学 生 数 。 

SQL 的 like 运算 符 是 大 小 写 敏感 的 ， 但 字符 串 上 的 lower( ) 函数 可 用 来 实现 大 小 写 不 敏感 的 匹配 。 
为 了 说 明 是 怎么 用 的 ， 写 出 这 样 一 个 查询 : 找 出 名 称 中 包含 了 ”sci" 子 串 的 系 ， 忽 略 大 小 写 。 

考虑 SQL 查询 


select distinct p. al 
from p, rl, 72 
where p. al =rl. al or p. al =12. al 


在 什么 条 件 下 这 个 查询 选择 的 p. al 值 要 么 在 rl 中 ,要 么 在 72 中 ? 仔细 考察 rl BK 2 可 能 为 空 的 
情况 。 

考虑 图 3-19 中 的 银行 数据 库 ， 其 中 加 下 划 线 的 是 主 码 。 为 这 个 关系 数据 库 构造 出 如 下 SQL 查询 : 
a. 找 出 银行 中 所 有 有 账户 但 无 贷款 的 客户 。 

b. 找 出 与 “Smith” 居 住 在 同一 个 城市 、 同 一 个 街道 的 所 有 客户 的 名 字 . 

c. 找 出 所 有 支行 的 名 称 ， 在 这 些 支 行 中 都 有 居住 在 ”Harrison" 的 客户 所 开设 的 账户 。 





branch( branch_name, branch_city, assets) 

customer (customer_name, customer_street, customer_city ) 
loan (loan_number, branch_name, amount) 

borrower (customer_name, loan_number) 

account (account_number, branch_name, balance ) 
depositor (customer_name, account_number ) 


图 3-19 习题 3. 8 和 习题 3. 15 的 银行 数据 库 


考虑 图 3-20 的 雇员 数据 库 ， 其 中 加 下 划 线 的 是 主 码 。 为 下 面 每 个 查询 写 出 SQL 表达 式 : 

a. 找 出 所 有 为 “First Bank Corporation ”工作 的 雇员 名 字 及 其 居住 城市 。 [106 | 

b. 找 出 所 有 为 First Bank Corporation ”工作 且 薪 金 超过 10 000 美元 的 雇员 名 字 、 居 住 街道 和 城市 。 

c 找 出 数据 库 中 所 有 不 为 “First Bank Corporation” 工作 的 雇员 。 

d. 找 出 数据 库 中 工资 高 于 “Small Bank Corporation ”的 每 个 雇员 的 所 有 雇员 。 

e 假设 一 个 公司 可 以 在 好 几 个 城市 有 分 部 。 找 出 位 于 “Small Bank Corporation” 所 有 所 在 城市 的 所 
有 公司 。 

f. 找 出 雇员 最 多 的 公司 。 

g 找 出 平均 工资 高 于 “First Bank Corporation "平均 工资 的 那些 公司 。 
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employee( employee_name, street , city) 
works ( employee_name, company_name, salary) 
company ( company_name , city) 
managers ( employee_name , manager_name ) 


图 3-20 习题 3.9、 习 题 3. 10 、 习 题 3. 16 、 习 题 3. 17 和 习题 3. 20 的 雇员 数据 库 
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3. 10 考虑 图 3-20 的 关系 数据 库 ， 给 出 下 面 每 个 查询 的 SQL 表达 式 : 
a. 修改 数据 库 使 “Jones" 现 在 居住 在 “Newtown T o 
b. 为 “First Bank Corporation” 所 有 工资 不 超过 100 000 美元 的 经 理 增长 10% 的 工资 ， 对 工资 超过 
100 000 美元 的 只 增长 3% 。 
习题 
3. 11 使 用 大 学 模式 ， 用 SQL 写 出 如 下 查询 。 
a. 找 出 所 有 至 少 选修 了 一 门 Comp. Sci. 课程 的 学 生 姓 名 ， 保 证 结果 中 没有 重复 的 姓名 。 
b. 找 出 所 有 没有 选修 在 2009 年 春季 之 前 开设 的 任何 课程 的 学 生 的 ID 和 姓名 。 
c. 找 出 每 个 系 教师 的 最 高 工资 值 。 可 以 假设 每 个 系 至 少 有 一 位 教师 。 
d. 从 前 述 查 询 所 计算 出 的 每 个 系 最 高 工资 中 选 出 最 低 值 。 
3.12 ”使 用 大 学 模式 ， 用 SQL 写 出 如 下 查询 。 
a. 创建 一 门 课程 “CS -001”， 其 名 称 为 ”Weekly Seminar”， 学 分 为 0。 
b. 创建 该 课程 在 2009 年 秋季 的 一 个 课程 段 ，sec_id 为 1 。 
c. 让 Comp. Sci. 系 的 每 个 学 生 都 选修 上 述 课程 段 。 
d. 删除 名 为 Chavez 的 学 生 选 修 上 述 课程 段 的 信息 。 
e. 删除 课程 CS-001。 如 果 在 运行 此 删除 语句 之 前 ， 没 有 先 删 除 这 门 课程 的 授课 信息 (课程 段 )， 
会 发 生 什 么 事情 ? 
f 删除 课程 名 称 中 包含 “database” 的 任意 课程 的 任意 课程 段 所 对 应 的 所 有 takes 元 组 ， 在 课程 名 
的 匹配 中 忽略 大 小 写 。 
.13” 写 出 对 应 于 图 3-18 中 模式 的 SQL DDL。 在 数据 类 型 上 做 合理 的 假设 ,确保 声明 主 码 和 外 码 。 
考虑 图 3-18 中 的 保险 公司 数据 库 ， 其 中 加 下 划 线 的 是 主 码 。 对 这 个 关系 数据 库 构造 如 下 的 SQL 
查询 : : 
a. 找 出 和 “John Smith ”的 车 有 关 的 交通 事故 数量 。 
b. 对 事故 报告 编号 为 “AR2197” 中 的 车 牌 是 *AABB2000” 的 车 辆 损坏 保险 费用 更 新 到 3000 美元 。 
3.15 考虑 图 3-19 中 的 银行 数据 库 ， 其 中 加 下 划 线 的 是 主 码 。 为 这 个 关系 数据 库 构造 出 如 下 SQL 
查询 : 
a. 找 出 在 “Brooklyn ”的 所 有 支行 都 有 账户 的 所 有 客户 。 
b. 找 出 银行 的 所 有 贷款 额 的 总 和 。 
c 找 出 总 资产 至 少 比 位 于 Brooklyn 的 某 一 家 支行 要 多 的 所 有 支行 名 字 
3.16 考虑 图 3-20 中 的 雇员 数据 库 ， 其 中 加 下 划 线 的 是 主 码 。 给 出 下 面 每 个 查询 对 应 的 SQL 表达 式 : 
a. 找 出 所 有 为 "First Bank Corporation” 工作 的 雇员 名 字 。 
b. 找 出 数据 库 中 所 有 居住 城市 和 公司 所 在 城市 相同 的 雇员 。 
c. 找 出 数据 库 中 所 有 居住 的 街道 和 城市 与 其 经 理 相同 的 雇员 。 
d 找 出 工资 高 于 其 所 在 公司 雇员 平均 工资 的 所 有 雇员 。 
e. 找 出 工资 总 和 最 小 的 公司 。 
3.17 考虑 图 3-20 中 的 关系 数据 库 。 给 出 下 面 每 个 查询 对 应 的 SQL 表达 式 : 
a. 为 “First Bank Corporation ”的 所 有 雇员 增长 10% 的 工资 。 
b. 为 “First Bank Corporation” 的 所 有 经 理 增长 10% 的 工资 。 
c. 删除 “Small Bank Corporation” HJE RÆ works 关系 中 的 所 有 元 组 。 
列 出 两 个 原因 ， 说 明 为 什么 空 值 可 能 被 引入 到 数据 库 中 。 
证 明 在 SQL 中 ，<>all 等 价 于 not in, 
给 出 图 3-20 中 雇员 数据 库 的 SQL 模式 定义 。 为 每 个 属性 选择 合适 的 域 ， 并 为 每 个 关系 模式 选择 
合适 的 主 码 。 
3.21 考虑 图 3-21 中 的 图 书馆 数据 库 。 用 SQL 写 出 如 下 查询 : 


w w 
_ 
A 


wow ow 
noe 一 
© O œ 
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. 打印 借阅 了 任意 由 “McGraw-Hill" 出 版 的 书 的 会 员 名 字 。 

. 打印 借阅 了 所 有 由 “McGraw-Hill” 出 版 的 书 的 会 员 名 字 。 

. 对 于 每 个 出 版 商 ， 打 印 借阅 了 多 于 五 本 由 该 出 版 商 出 版 的 书 的 会 员 名 字 。 

. 打印 每 位 会 员 借阅 书籍 数量 的 平均 值 。 考 虑 这 样 的 情况 : 如 果 某 会 员 没 有 借阅 任何 书籍 ， 那 
么 该 会 员 根 本 不 会 出 现在 borrowed 关系 中 。 


o yp 


a 





member( memb_no, name, age) 
book( isbn, title, authors, publisher ) 
borrowed ( memb_no , isbn, date) 











3-21 习题 3. 21 的 图 书馆 数据 库 
3.22 不 使 用 unique 结构 ， 重 写 下 面 的 where 子 句 : 


where unique (select title from course ) 


3.23 考虑 查询 : 


select course_id, semester, year, sec_id, avg (tot_cred) 
from takes natural join student 
where year = 2009 
group by course_id, semester, year, sec_id 
having count (JD) >= 2; 
解释 为 什么 在 from 子 句 中 还 加 上 与 section 的 连接 不 会 改变 查询 结果 。 
3.24 考虑 查询 : 
with dept total (depi_name, value) as 
(select dept_name, sum( salary) 
from instructor 
group by dept_name) , 
dept_total_avg( value) as 
(select avg( value) 
from dept_total ) 
select dept_name 
from dept_total, dept_total_avg 
where dept_total. value >= dept_total_avg. value; 


不 使 用 with 结构 ， 重 写 此 查询 。 
工具 


很 多 关系 数据 库 系 统 可 以 从 市 场 上 购 得 ， 包 括 IBM DB2 IBM Informix, Oracle, 、Sybase， 以 及 微软 
的 SQL Server。 另 外 还 有 几 个 数据 库 系统 可 以 从 网 上 下 载 并 免费 使 用 ， 包括 PostgreSQL、MySQL( 除 几 
种 特定 的 商业 化 使 用 外 是 免费 的 ) 和 Oracle Express edition。 

大 多 数 数据 库 系统 提供 了 命令 行 界面 ， 用 于 提交 SQL 命令 。 此 外 ， 大 多 数 数据 库 还 提供 了 图 形 
化 的 用 户 界 面 (GUI) ， 它 们 简化 了 浏览 数据 库 、 创 建 和 提交 查询 ， 以 及 管理 数据 库 的 任务 。 还 有 商 
品 化 的 IDE， 用 于 在 多 个 数据 库 平台 上 运行 SQL， 包括 Embarcadero 的 RAD Studio 与 Aqua Data 
Studio, 

pgAdmin 工具 为 PostgreSQL 提供 了 GUI 功能 ; phpMyAdmin 为 MySQL 提供 了 GUI DHE, NetBeans 
IDE 提供 了 一 个 GUI 前 端 ， 可 以 与 很 多 不 同 的 数据 库 交 互 ， 但 其 功能 有 限 ; Eclipse IDE 通过 几 种 不 同 
插件 支持 类 似 的 功能 ， 这 些 插件 包括 Data Tools Platform( DTP) #1 JBuilder, 


本 书 的 Web 网 站 db-book. com 提供 了 SQL 模式 定义 和 大 学 模式 的 样本 数据 。 该 Web 网 站 还 提供 了 [1 
如 何 建 立 和 访问 一 些 流行 的 数据 库 系 统 的 说 明 。 本 章 讨论 的 SQL 结构 是 SQL 标准 的 一 部 分 ， 但 一 些 特 | 11 


征 可 能 没 被 某 些 数据 库 所 支持 。Web 网 站 上 列 出 了 这 些 不 相 容 的 特征 ， 在 这 些 数据 库 上 执行 查询 时 需 
要 多 加 考虑 。 


112 





62 第 一 部 分 关系 数据 库 


文献 注解 


SQL 的 最 早 版 本 Sequel 2 由 Chamberlin 等 [1976 | fiz. Sequel 2 是 从 Square 语言 ( Boyce 等 | 1975 ] 
以 及 Chamberlin 和 Boyce [1974] ) 派 生出 来 的 。 美 国 国家 标准 SQL-86 在 ANSI [1986] 中 描述 。IBM A 
统 应 用 体系 结构 对 SQL 的 定义 由 IBM[ 1987] 给 出 。SQL-89 和 SQL-92 官方 标准 可 分 别 从 ANSI[ 1989 ] 和 
ANSI[ 1992 ] 获 得 。 

介绍 SQL-92 语言 的 教材 包括 Date 和 Darwen[ 1997 ] Melton 和 Simon[ 1993 ] 以 及 Cannan 和 Otten 
[1993 ] Date 和 Darwen[ 1997] 以 及 Date[ 1993a] 都 包含 了 从 编程 语言 角度 对 SQL-92 的 评论 。 

介绍 SQL:1999 的 教程 包括 Melton 和 Simon[ 2001] 以 及 Melton[ 2002], Eisenberg 和 Melton| 1999 ] 提 
供 了 对 SQL:1999 的 概览 。Donahoo 和 Speegle[ 2005 | 从 开发 者 的 角度 介绍 了 SQL. Eisenberg 等 [2004 | 
提供 了 对 SQL:2003 的 概览 。 

SQL:1999、SQL:2003 、SQL:2006 和 SQL:2008 标准 都 是 作为 ISO/IEC 标准 文档 集 被 发 布 的 ，24. 4 
节 将 介绍 关于 它们 的 更 多 细节 。 标 准 文档 中 塞 满 了 大 量 的 信息 ， 非 常 难以 阅读 ， 主 要 用 于 数据 库 系统 
的 实现 。 标 准 文档 可 以 从 Web 网 站 http: //webstore. ansi. org 上 购买 。 

很 多 数据 库 产品 支持 标准 以 外 的 SQL 特性 ， 还 可 能 不 支持 标准 中 的 某 些 特性 。 关 于 这 些 特性 的 更 
多 信息 可 在 各 产品 的 SQL 用 户 手册 中 找到 。 

SQL 查询 的 处 理 ， 包 括 算法 和 性 能 等 问题 ， 将 在 第 12 章 和 第 13 章 讨论 。 关 于 这 些 问 题 的 参考 文 
献 也 在 那里 。 


| 第 4 章 


Database System Concepts, 6E 


中 级 SQL 


本 章 我 们 继续 学 习 SQL。 我 们 考虑 具有 更 复杂 形式 的 SQL 查询 、 视 图 定义 、 事 务 、 完 整 性 约束 、 



























































关于 SQL 数据 定义 的 更 详细 介绍 以 及 授权 。 ID name deptname | tot-cred | 
` ` 00128 | Zhang Comp. Sci. 102 
4.1 连接 表达 式 12345 | Shankar | Comp. Sci. 32 
i L 19991 | Brandt History 80 
E 3.3.3 节 我 们 介绍 了 自然 连接 运算 。SQL 提供 了 连接 | 23121 | Chavez | Finance 110 
4 zg secs ss: 44553 | Peltier Physics 56 
运算 的 其 他 形式 , 包括 能 够 指定 显 式 的 连接 谓词 (join 45678 | Levy Physics 46 
predicate) ， 能 够 在 结果 中 包含 被 自然 连接 排除 在 外 的 元 组 。 54321 | Williams | Comp. Sci. 54 
ee eye A 55739 | Sanchez | Music 38 
本 节 的 例子 涉及 student Fil takes 两 个 关系 ， 分 别 如 图 4-1 76543 | Brown Comp. Sci. 58 
te 76653 | Aoi Elec. Eng. 60 
和 图 4-2 所 示 。 注 意 到 对 于 ID Wy 98988 的 学 生 , 他 在 2010 夏 | 98765 | Bourikas | Elec, Ene 98 
季 选 修 的 BIO-301 课程 的 1 号 课程 段 的 grade 属性 为 空 值 。 该 98988 | Tanaka Biology 120 
空 值 表 示 这 门 课程 的 成 绩 还 没有 得 到 。 图 4-1 studeni 关系 
4.1.1 连接 条 件 ID | courseid | secid semester | year | grade 
在 3.3.3 节 我 们 介绍 了 如 何 表 达 自 然 连 接 , 并 | 00128 | CS-101 1 Fall 2009 | A 
ts z ae , | 00128 | CS-347 1 | Fall 2009 | A- 
且 介绍 了 join…using 子 句 ， 它 是 一 种 自然 连接 的 形 | 12345 | cs-101 1 Fall 2009 | C 
式 ， 只 需要 在 指定 属性 上 的 取 值 匹配 。SQL 支持 另 | 12345 cece 2 | Spring | 2009 | A 
i 、 12345 | CS-315 1 | Spring | 2010 | A 
外 一 种 形式 的 连接 ， 其 中 可 以 指定 任意 的 连接 条 件 。 | 12355 | ce347 | 1 Rn |20o|A 
on 条 件 允 许 在 参与 连接 的 关系 上 设置 通用 的 谓 | 19991 | HIS-351 L | Spring | 2010 | B 
RS í ROA 23121 | FIN-201 1 | Spring | 2010 | C+ 
词 。 该 谓词 的 写法 与 where 子 句 谓词 类 似 ， 只 不 过 | 44553 | PHY101 | 1 | Fall 2009 | B- 
= b usi — | 45678 | CS-101 1 | Fall 2009 | F 
使 用 的 是 关键 词 on 而 不 是 where, -F miig 条 件 45678 | CS-101 1 | Spring | 2010 | B+ 
RE, on 条 件 出 现在 连接 表达 式 的 末尾 。 45678 | CS-319 1 | Spring | 2010 | B 
ar A j 54321 | CS-101 1 | Fall 2009 | A- 
考虑 下 面 的 查询 ， 它 具有 包含 on 条 件 的 连接 表 | 54321 | GS190 | 2 | Spring | 2009 | Be 
K: 55739 | MU-199 1 Spring 2010 | A- 
. 76543 | CS-101 1 | Fall 2009 | A 
select 76543 | CS-319 2 | Spring | 2010 | A 
from student join takes on student. ID = takes. ID; 76653 | EE-181 1 Spring 2009 | C 
98765 | CS-101 1 | Fall 2009 | C- 
上 述 on 条 件 表明 : 如 果 一 个 来 自 student 的 元 组 和 | 98765 | GS-315 1 | Spring | 2010 | B 
一 个 来 自 takes 的 元 组 在 ID 上 的 取 值 相同 ， 那 么 它 98988 | BIO-101 l Summer | 2009 | A 
、 | 98988 | BIO-301 1 |S sr | 2010 | null 
们 是 匹配 的 。 在 上 例 中 的 连接 表达 式 与 连接 表达 式 = 
student natural join takes 几乎 是 一 样 的 ， 因 为 自然 连 图 4-2 takes 关系 
接 运 算 也 需要 student 元 组 和 takes 元 组 是 匹配 的 。 这 113 | 





两 者 之 间 的 一 个 区 别 在 于 : 在 上 述 连接 查询 结果 中 ， 冯 属性 出 现 两 次 ， 一 次 是 student 中 的 ， 另 一 次 是 | 114 | 
takes 中 的 ， 即 便 它们 的 ID 属性 值 是 相同 的 。 
实际 上 ， 上 述 查 询 与 以 下 查询 是 等 价 的 (换言之 ,它们 产生 了 完全 相同 的 结果 ): 
select © 


from student, takes 
where student. ID = takes. ID; 
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正如 我 们 此 前 所 见 ， 关 系 名 用 来 区 分 属性 名 ID, AFE ID 的 两 次 出 现 被 分 别 表示 为 student. ID 和 
takes. ID。 只 显示 一 次 ID 值 的 查询 版 本 如 下 : 


select student. ID as ID, name, dept_name, tot_cred, 
course_id, sec_id, semester, year, grade 
from student join takes on student. 1D = takes. ID; 


上 述 查 询 的 结果 如 图 4-3 所 示 。 




















ID |name |deptname |totcred |courseid |secid|semester | year | grade 
00128 | Zhang “| Comp. Sci. 102 | CS-101 1 | Fall 2009 | A 
00128 | Zhang “| Comp. Sci. 102 | CS-347 1 | Fall 2009 | A- 
12345 | Shankar | Comp. Sci. 32 | CS-101 1 | Fall 2009 | C 
12345 | Shankar | Comp. Sci. 32 | CS-190 2 |Spring |2009|A 
12345 | Shankar | Comp. Sci. 32 | CS-315 1 |Spring | 2010|A 
12345 | Shankar | Comp. Sci. 32 | CS-347 1 | Fall 2009 | A 
19991 | Brandt | History 80 | HIS-351 1 |Spring |2010 |B 
23121 | Chavez | Finance 110 | FIN-201 1 |Spring |2010|C+ | 
44553 | Peltier | Physics 56|PHY-101| 1 | Fall 2009 |B- | 
45678 | Levy Physics 46 | CS-101 1 | Fall 2009 | F 
45678 | Levy Physics 46 | CS-101 1 |Spring | 2010} B+ 
45678 | Levy Physics 46 | CS-319 1 |Spring | 2010|B 
54321 | Williams | Comp. Sci. 54 | CS-101 1 | Fall 2009 | A- 
54321 | Williams | Comp. Sci. 54 | CS-190 2 |Spring | 2009) B+ 
55739 | Sanchez | Music 38 | MU-199 | 1 |Spring |2010 | A- 
76543 | Brown | Comp. Sci. 58 | CS-101 1 | Fall 2009 | A 
76543 | Brown | Comp. Sci. 58 | CS-319 2 |Spring | 2010|/A | 
76653 | Aoi Elec. Eng. 60 | EE-181 1 |Spring | 2009/C 
98765 | Bourikas | Elec. Eng. 98 | CS-101 1 | Fall 2009|C- | 
98765 | Bourikas | Elec. Eng. 98 | CS-315 1 |Spring | 2010/B | 
98988 | Tanaka | Biology 120 | BIO-101 1 | Summer | 2009 | A 
98988 | Tanaka | Biology 120 | BIO-301 1 | Summer | 2010 | null 


























图 4-3 student join takes on student. ID = takes. 万 的 结果 ， 其 中 省 略 了 ID 的 第 二 次 出 现 


on 条 件 可 以 表示 任何 SQL 谓词 ， 从 而 使 用 on 条 件 的 连接 表达 式 就 可 以 表示 比 自然 连接 更 为 丰富 
的 连接 条 件 。 然 而 ， 正 如 上 例 所 示 ， 使 用 带 on 条 件 的 连接 表达 式 的 查询 可 以 用 不 带 on 条 件 的 等 价 表 
达 式 来 替换 ， 只 要 把 on 子 句 中 的 谓词 移 到 where 子 句 中 即 可 。 这 样 看 来 ，on 条 件 似乎 是 一 个 元 余 的 
SQL 特征 。 

但 是 ， 引 入 on 条 件 有 两 个 优点 。 首 先 ， 对 于 我 们 马上 要 介绍 的 ， 被 称 作 外 连接 的 这 类 连接 来 说 ， 
on 条 件 的 表现 与 where 条 件 是 不 同 的 。 其 次 ， 如 果 在 on 子 句 中 指定 连接 条 件 ， 并 在 where 子 句 中 出 
现 其 余 的 条 件 ， 这 样 的 SQL 查询 通常 更 容易 让 人 读 懂 。 

4.1.2 外 连接 

假设 我 们 要 显示 一 个 所 有 学 生 的 列表 ， 显 示 他 们 的 ID. name, dept_name 和 tot_cred， 以 及 他 们 所 

选修 的 课程 。 下 面 的 查询 好 像 检 索 出 了 所 需 的 信息 : 

select * 

from studeni natural join takes ; 
遗憾 的 是 ， 上 述 查 询 与 想 要 的 结果 是 不 同 的 。 假 设 有 一 些 学 生 ， 他 们 没有 选修 任何 课程 。 那 么 这 些 学 
生 在 student 关系 中 所 对 应 的 元 组 与 takes 关系 中 的 任何 元 组 配对 ， 都 不 会 满足 自然 连接 的 条 件 ， 从 而 这 
些 学 生 的 数据 就 不 会 出 现在 结果 中 。 这 样 我 们 就 看 不 到 没有 选修 任何 课程 的 学 生 的 任何 信息 。 例 如 ， 
在 图 4-1 的 student 关系 和 图 4-2 的 takes HAH, ID 为 70557 的 学 生 Snow 没有 选修 任何 课程 。Snow 出 
现在 student 关系 中 ,但 是 Snow 的 ID 号 没有 出 现在 takes 的 ID 列 中 。 从 而 Snow 不 会 出 现在 自然 连接 的 
结果 中 。 

更 为 一 般 地 ， 在 参与 连接 的 任何 一 个 或 两 个 关系 中 的 某 些 元 组 可 能 会 以 这 种 方式 “丢失 ”。 外 连接 
(outer join) 运算 与 我 们 已 经 学 过 的 连接 运算 类 似 ， 但 通过 在 结果 中 创建 包含 空 值 元 组 的 方式 ,保留 了 
那些 在 连接 中 丢失 的 元 组 。 

例如 ， 为 了 保证 在 我 们 前 例 中 的 名 为 Snow 的 学 生出 现在 结果 中 ， 可 以 在 连接 结果 中 加 入 一 个 元 


第 4 章 中 级 SQL 65 


H, CER K studet 关系 的 所 有 属性 上 的 值 被 设置 为 学 生 Snow 的 相应 值 ， 在 所 有 余下 的 来 自 takes X 
系 属 性 上 的 值 被 设 为 wzx1， 这 些 属性 是 course_id , 


实际 上 有 三 种 形式 的 外 连接 : 
© 左 外 连接 (left outer join) 只 保留 出 现在 左 外 连接 运算 之 前 (左边 ) 的 关系 中 的 元 组 : 


© 右 外 连接 (right outer join) 只 保留 出 现在 右 外 连接 运算 之 后 (右边 ) 的 关系 中 的 元 组 。 


© 全 外 连接 (full outer join) 保 留 出 现在 两 个 关系 中 的 元 组 。 
相 比 而 言 ， 为 了 与 外 连接 运算 相 区 分 ， 我 们 此 前 学 习 的 不 保留 未 匹配 元 组 的 连接 运算 被 称 作 内 连接 


(inner join) 运算 。 


sec_id, semester 和 year, 


我 们 现在 详细 解释 每 种 形式 的 外 连接 是 怎样 操作 的 。 我 们 可 以 按照 如 下 方式 计算 左 外 连接 运算 : 
首先 ， 像 前 面 那样 计算 出 内 连接 的 结果 ; 然后 ， 对 于 在 内 连接 的 左 侧 关 系 中 任意 一 个 与 右 侧 关系 中 任 


何 元 组 都 不 匹配 的 元 组 , 


向 连接 结果 中 加 入 一 个 


元 组 7， 


© 元 组 r 从 左 侧 关系 得 到 的 属性 被 赋 为 1 中 的 值 。 
。 的 其 他 属性 被 赋 为 空 值 。 
图 4-4 给 出 了 下 面 查 询 的 结果 : 


与 内 连接 的 结果 不 同 ， 此 结果 中 包含 了 学 生 Snow( 1D 70557), 


select * 


r 的 构造 如 下 : 


from student natural left outer join takes ; 


现在 takes 关系 模式 中 的 属性 上 取 空 值 。 


但 是 在 Snow 对 应 的 元 组 中 ， 在 那些 


只 出 





























ID |name tname | tot.cred | courseid | secid| semester | year EC 
[00128 | Zhang | Comp. Sci. 102 | CS-101 1 |Fall T2009T | 
00128 | Zhang | Comp. Sci. 102 | CS-347 1 | Fall 2009 a 
12345 | Shankar | Comp. Sci. 32 | CS-101 1 | Fall 2009 | C 
12345 | Shankar | Comp. Sci. 32 | CS-190 2 |Spring | 2009|A 
12345 | Shankar | Comp. Sci. 32 | CS-315 1 |Spring |2010|A 
12345 | Shankar | Comp. Sci. 32 | CS-347 1 | Fall 2009 | A 
19991 | Brandt | History 80 | HIS-351 1 |Spring |2010 |B 
23121 | Chavez | Finance 110 | FIN-201 1 |Spring | 2010) C+ 
44553 | Peltier | Physics 56 | PHY-101| 1 | Fall 2009 | B- 
45678 | Levy Physics 46 | CS-101 1 | Fall 2009 | F 
45678 | Levy Physics 46 | CS-101 1 |Spring |2010 | B+ 
45678 | Levy Physics 46 | CS-319 1 |Spring |2010|B 
54321 | Williams | Comp. Sci. 54 | CS-101 1 | Fall 2009 | A- 
54321 | Williams | Comp. Sci. 54 | CS-190 2 |Spring |2009|B+ | 
55739 | Sanchez | Music 38 | MU-199 1 |Spring |2010 |A- 
70557 | Snow Physics 0 | null null | null null | null 
76543 | Brown | Comp. Sci. 58 | CS-101 1 | Fall 2009 | A 
76543 | Brown “| Comp. Sci. 58 | CS-319 2 |Spring | 2010)A 
76653 | Aoi Elec. Eng. 60 | EE-181 1 |Spring |2009 |C | 
98765 | Bourikas | Elec. Eng. 98 | CS-101 | 1 | Fall }2009|C- | 
98765 | Bourikas | Elec. Eng. 98 | CS-315 1 |Spring | 2010|B 
98988 | Tanaka | Biology 120 | BIO-101 | 1 | Summer | 2009 | A 
98988 | Tanaka | Biology 120 | BIO-301 | 1  |Summer |2010 | null | 

















作为 使 用 外 连接 运算 的 另 一 个 例子 ， 我 们 可 以 写 出 查询 ” 找 出 所 有 一 门 课程 也 没有 选修 的 


Fe, 如 下 所 示 : 


我 们 得 到 的 结果 是 一 样 的 ， 


图 4-4 student natural left outer join takes 的 结果 


select ID 


from student natural left outer join takes 
where course_id is null; 


右 外 连接 和 左 外 连接 是 对 称 的。 来 自 右 侧 关系 中 的 不 匹配 左 侧 关系 任何 元 组 的 元 组 被 补 上 空 值 ， 
并 加 入 到 右 外 连接 的 结果 中 。 这 样 ， 如 果 我 们 使 用 右 外 连接 来 重 写 前 面 的 查询 ， 并 交换 列 出 关系 的 次 


Select“ 


from takes natural right outer join student ; 


只 不 过 结果 中 属性 出 现 的 顺序 不 同 ( 


见 图 4-5) 。 


学 生 ”: 
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ID Teourseid |secid|semester [year [grade |name |deptname | tot_cred 
00128]CS-101 | 1 [Fall 120091A [Zhang |Comp.Sci.| 102 
00128 | CS-347 | 1 Fall 2009|A- | Zhang Comp.Sci.| 102| 
12345 | CS-101 | 1 | Fall |2009/C | Shankar | Comp. Sci. | 32 
12345 | CS-190 2 (Spring |2009|A {Shankar Comp. Sci. 32 | 
12345 | CS-315 1 [Spring |2010|A | Shankar | Comp. Sci. 32 | 
12345 | CS-347 1 | Fall 2009|A | Shankar | Comp. Sci. 32 
19991 | HIS-351 | 1 |Spring |2010 |B Brandt | History | 80 | 
23121 | FIN-201 1 |Spring |2010|C+ | Chavez | Finance 110 | 
44553 | PHY-101| 1 | Fall 2009 | B- Peltier | Physics 56 
45678 | CS-101 1 | Fall 2009 | F Levy Physics 46 
45678 | CS-101 1 |Spring |2010|B+ | Levy Physics 46 
45678 | CS-319 1 |Spring | 2010/B Levy Physics 46 
54321 | CS-101 1 | Fall 2009| A- | Williams | Comp. Sci. 54 
54321 | CS-190 2 |Spring | 2009|B+ | Williams | Comp. Sci. 54 
55739 |MU-199 | 1 |Spring | 2010} A- | Sanchez | Music 38 
70557 | null null | null null | null Snow | Physics 0 
76543 | CS-101 1 |Fall |2009|A | Brown | Comp. Sci. | 58 
76543 | CS-319 2 (Spring |20101A (Brown |， Comp. Sci. | 58 
76653 | EE-181 1 [Spring |2009 |C Aoi Elec. Eng. 60 | 
98765 | CS-101 1 | Fall 2009 |C- | Bourikas | Elec. Eng. | 98 | 
98765 | CS-315 | 1 |Spring |2010|B | Bourikas | Elec. Eng. 98 
98988 | BIO-101 1 |Summer}2009;A |Tanaka |Biology 120 
98988 | BIO-301 1 | Summer | 2010 | null | Tanaka [Biology | 120 


























图 4-5 takes natural right outer join student 的 结果 


全 外 连接 是 左 外 连接 与 右 外 连接 类 型 的 组 合 。 在 内 连接 结果 计算 出 来 之 后 ， 左 侧 关 系 中 不 匹配 右 
侧 关 系 任何 元 组 的 元 组 被 添上 空 值 并 加 到 结果 中 。 类 似 地 ， 右 侧 关 系 中 不 匹配 左 侧 关 系 任何 元 组 的 元 
组 也 被 添上 空 值 并 加 到 结果 中 。 
作为 使 用 全 外 连接 的 例子 ， 考 虑 查询 :“ 显示 Comp. Sci. 系 所 有 学 生 以 及 他 们 在 2009 年 春季 选修 
的 所 有 课程 段 的 列表 。2009 年 春季 开设 的 所 有 课程 段 都 必须 显示 ， 即 使 没有 Comp. Sci. 系 的 学 生 选 修 
这 些 课程 段 "。 此 查询 可 写 为 : 
select” 
from( select * 
from student 
where dept_name = ’ Comp. Sci’ ) 
natural full outer join 
(select ” 
from takes 
where semester = ’ Spring’ and year = 2009) ; 
on 子 句 可 以 和 外 连接 一 起 使 用 。 下 述 查询 与 我 们 见 过 的 第 一 个 使 用 "student natural left outer join 
takes” 的 查询 是 相同 的 ， 只 不 过 属性 ID 在 结果 中 出 现 两 次 。 


select ` 
from student left outer join takes on student. ID = takes. ID; 


正如 我 们 前 面 提 到 的 ，on 和 where 在 外 连接 中 的 表现 是 不 同 的 。 其 原因 是 外 连接 只 为 那些 对 相应 
内 连接 结果 没有 贡献 的 元 组 补 上 空 值 并 加 入 结果 。on 条 件 是 外 连接 声明 的 一 部 分 ， 但 where 子 句 却 不 
是 。 在 我 们 的 例子 中 ，ID 为 70557 的 学 生 “Snow” 所 对 应 的 student 元 组 的 情况 就 说 明了 这 样 的 差异 。 假 
设 我 们 把 前 述 查 询 中 的 on 子 句 谓词 换 成 where 子 句 ， 并 使 用 on 条 件 true: 


select” 
from student left outer join takes on true 
where student. ID = takes. ID; 


117 早先 的 查询 使 用 带 on 条 件 的 左 外 连接 ， 包 括 元 组 (705$7 Snow, Physics, O, null, null, null, null, 
119 | null, null ) ， 因 为 在 takes 中 没有 ID = 70557 的 元 组 。 然 而 在 后 面 的 查询 中 ， 每 个 元 组 都 满足 连接 条 件 
tirue， 因 此 外 连接 不 会 产生 出 补 上 空 值 的 元 组 。 外 连接 实际 上 产生 了 两 个 关系 的 笛 卡 儿 积 。 因 为 在 takes 
中 没有 ID = 70557 的 元 组 ， 每 次 当 外 连接 中 出 现 name =“Snow” 的 元 组 时 ，student. ID 与 takes. ID 的 取 
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值 必然 是 不 同 的 ， 这 样 的 元 组 会 被 where 子 句 谓词 排除 掉 。 从 而 学 生 Snow 不 会 出 现在 后 面 查询 的 结 
果 中 。 
4.1.3 连接 类 型 和 条 件 

为 了 把 常规 连接 和 外 连接 区 分 开 来 ，SQL 中 把 常规 连接 称 作 内 连接 。 这 样 连接 子 句 就 可 以 用 inner 
join 来 替换 outer join， 说 明 使 用 的 是 常规 连接 。 然 而 关键 词 inner 是 可 选 的 ， 当 join 子 句 中 没有 使 用 
outer 前 级 ， 默 认 的 连接 类 型 是 inner join。 从 而 ， 


select * 
from student join takes using (ID) ; 


等 价 于 : 


select ` 
from student inner join takes using (/D) ; 


ZE (yh, natural join 等 价 于 natural inner join, 

图 4-6 给 出 了 我 们 所 讨论 的 所 有 连接 类 型 的 列表 。 从 图 中 可 以 看 出 ， 任 意 的 连接 形式 (内 连接 、 左 
外 连接 、 右 外 连接 或 全 外 连接 ) 可 以 和 任意 的 连接 条 件 ( 自然 连接 using 条 件 连接 或 on 条 件 连接 ) HE 
行 组 合 。 


| “连接 类 型 | 


EE Tix FP 
inner join natural 


left outer join on < predicate> 
right outer join using (A, Az, ..., An) 
full outer join 


图 4-6 连接 类 型 和 连接 条 件 





4.2 视图 


在 上 面 的 所 有 例子 中 ， 我 们 一 直 都 在 逻辑 模型 层 操作 ， 即 我 们 假定 了 给 定 的 集合 中 的 关系 都 是 实 
际 存储 在 数据 库 中 的 。 

让 所 有 用 户 都 看 到 整个 逻辑 模型 是 不 合适 的 。 出 于 安全 考虑 ， 可 能 需要 向 用 户 隐 藏 特定 的 数据 。 
考虑 一 个 职员 需要 知道 教师 的 标识 、 姓 名 和 所 在 系 名 ， 但 是 没有 权限 看 到 教师 的 工资 值 。 此 人 应 该 看 
到 的 关系 由 如 下 SQL 语句 所 描述 : 





select ID, name, dept_name 
from instructor ; 


除了 安全 考虑 ， 我 们 还 可 能 希望 创建 一 个 比 逻 辑 模型 更 符合 特定 用 户 直觉 的 个 人 化 的 关系 集合 。 我 们 
可 能 希望 有 一 个 关于 Physics 系 在 2009 年 秋季 学 期 所 开设 的 所 有 课程 段 的 列表 ， 其 中 包括 每 个 课程 段 
在 哪 栋 建筑 的 哪个 房间 授课 的 信息 。 为 了 得 到 这 样 的 列表 ， 我 们 需要 创建 的 关系 是 : 


select course. course_id, sec_id, building, room_number 
from course, section 
where course. Raa = section. course_id 
and course. dept_name = ’ Physics’ 
and section. semester = ° Fall’ 
and section. year = * 2009’ ; 
我 们 可 以 计算 出 上 述 查 询 的 结果 并 存储 下 来 ， 然 后 把 存储 关系 提供 给 用 户 。 但 如 果 这 样 做 的 话 ， 
— H instructor, course 或 section 关系 中 的 底层 数据 发 生变 化 ， 那 么 所 存储 的 查询 结果 就 不 再 与 在 这 些 关 
系 上 重新 执行 查询 的 结果 匹配 。 一 般 说 来 ， 对 像 上 例 那 样 的 查询 结果 进行 计算 并 存储 不 是 一 种 好 的 方 
式 ( 尽 管 也 存在 某 些 例外 情况 ， 我 们 会 在 后 面 讨论 ) 。 
相反 ，SQL 允许 通过 查询 来 定义 “ 虚 关 系 ”， 它 在 概念 上 包含 查询 的 结果 。 虚 关系 并 不 预先 计算 并 
存储 ， 而 是 在 使 用 虚 关 系 的 时 候 才 通过 执行 查询 被 计算 出 来 。 
任何 像 这 种 不 是 逻辑 模型 的 一 部 分 ， 但 作为 虚 关 系 对 用 户 可 见 的 关系 称 为 视图 (view)。 在 任何 给 
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定 的 实际 关系 集合 上 能 够 支持 大 量 视图 。 
4.2.1 视图 定义 

我 们 在 SQL 中 用 create view 命令 定义 视图 。 为 了 定义 视图 ,我 们 必须 给 视图 一 个 名 称 ， 并 且 必 须 
提供 计算 视图 的 查询 。create view 命令 的 格式 为 : 

[121 | create view v as < query expression > ; 

其 中 < query expression > 可 以 是 任何 合法 的 查询 表达 式 ，" 表示 视图 名 。 

重新 考虑 需要 访问 instructor 关系 中 除 salary 之 外 的 所 有 数据 的 职员 。 这 样 的 职员 不 应 该 授予 访问 
instructor 关系 的 权限 (我 们 将 在 后 面 4.6 节 介 绍 如 何 进行 授权 )。 相 反 ， 可 以 把 视图 关系 faculty 提供 给 
职员 ， 此 视图 的 定义 如 下 : 





create view faculty as 
select JD, name, dept_name 
from instructor; 


正如 前 面 已 经 解释 过 的 ， 视 图 关系 在 概念 上 包含 查询 结果 中 的 元 组 ， 但 并 不 进行 预计 算 和 存储 。 
相反 ， 数 据 库 系 统 存储 与 视图 关系 相关 联 的 查询 表达 式 。 当 视图 关系 被 访问 时 ， 其 中 的 元 组 是 通过 计 
算 查 询 结果 而 被 创建 出 来 的 。 从 而 ， 视 图 关系 是 在 需要 的 时 候 才 被 创建 的 。 

为 了 创建 一 个 视图 ， 列 出 Physics 系 在 2009 年 秋季 学 期 所 开设 的 所 有 课程 段 ， 以 及 每 个 课程 段 在 
哪 栋 建筑 的 哪个 房间 授课 的 信息 ， 我 们 可 以 写 出 : 


create view physics_fall_2009 as 
select course. course_id, sec_id, building, room_number 
from course, section 
where course. course_id = section. course_id 


and course. dept_name = ° Physics’ 
and section. semester = ° Fall’ 
and section. year = * 2009’ ; 


4.2.2 SQL 查询 中 使 用 视图 
一 旦 定义 了 一 个 视图 ， 我 们 就 可 以 用 视图 名 指 代 该 视图 生成 的 虚 关 系 。 使 用 视图 physics_ fall_ 
2009 ， 我 们 可 以 用 下 面 的 查询 找到 所 有 于 2009 年 秋季 学 期 在 Watson 大 楼 开设 的 Physics 课程 : 


select course_id 
from physics_fall_2009 
where building = ’ Watson’ ; 
在 查询 中 ， 视 图 名 可 以 出 现在 关系 名 可 以 出 现 的 任何 地 方 。 
视图 的 属性 名 可 以 按 下 述 方式 显 式 指 定 : 


create view departments_total_salary( dept_name, total_salary) as 
select dept_name, sum (salary) 
from instructor 
group by dept_name; 


122] 上述 视 图 给 出 了 每 个 系 中 所 有 教师 的 工资 总 和 。 因 为 表达 式 sum( salary) 没有 名 称 ， 其 属性 名 是 在 视图 

定义 中 显 式 指定 的 。 

直觉 上 ， 在 任何 给 定时 刻 ， 视 图 关系 中 的 元 组 集 是 该 时 刻 视图 定义 中 的 查询 表达 式 的 计算 结果 。 
因此 ， 如 果 一 个 视图 关系 被 计算 并 存储 ,一 旦 用 于 定义 该 视图 的 关系 被 修改 ， 视 图 就 会 过 期 。 为 了 避 
免 这 一 点 ， 视 图 通常 这 样 来 实现 : 当 我 们 定义 一 个 视图 时 ， 数 据 库 系统 存储 视图 的 定义 本 身 ， 而 不 存 
储 定义 该 视图 的 查询 表达 式 的 执行 结果 。 一 旦 视图 关系 出 现在 查询 中 ， 它 就 被 已 存储 的 查询 表达 式 代 
替 。 因 此 ， 无 论 我 们 何 时 执行 这 个 查询 ， 视 图 关系 都 被 重新 计算 。 

一 个 视图 可 能 被 用 到 定义 另 一 个 视图 的 表达 式 中 。 例 如 ， 我 们 可 以 如 下 定义 视图 physics_ fall_ 
2009_watson， 它 列 出 了 于 2009 年 秋季 学 期 在 Watson 大 楼 开设 的 所 有 Physics 课程 的 标识 和 房间 号 : 





第 4 章 中 级 SQL 69 


create view physics_fall_2009_watson as 
select course_id , room_number 
from physics_fall_2009 
where building = “Watson ; 


其 中 physics_fall_2009_watson 本 身 是 一 个 视图 关系 ， 它 等 价 于 : 


create view physics_fall_2009_watson as 
(select course_id , room_number 
from (select course. course_id, building, reom_number 
from course, section 
where course. course_id = section. course_id 


and course. dept_name = ° Physics’ 
and section. semester = ’ Fall’ 
and section. year = *2009’ ) 


where building = ° Watson’ ; 


4.2.3 物化 视图 

特定 数据 库 系统 允许 存储 视图 关系 ， 但 是 它们 保证 : 如 果 用 于 定义 视图 的 实际 关系 改变 ， 视 图 也 
跟着 修改 。 这 样 的 视图 被 称 为 物化 视图 (materialized view) 。 

例如 ， 考 察 视 图 departments_total_salary。 如 果 上 述 视 图 是 物化 的 ， 它 的 结果 就 会 存放 在 数据 库 中 。 
然而 ， 如 果 一 个 instructor 元 组 被 插入 到 instructor KAP, MAM instructor 关系 中 删除 ， 定 义 视图 的 查 
询 结果 就 会 变化 ， 其 结果 是 物化 视图 的 内 容 也 必须 更 新 。 类 似 地 ， 如 果 一 位 教师 的 工资 被 更 新 ， 那 么 
departments_total_salary 中 对 应 于 该 教师 所 在 系 的 元 组 必须 更 新 。 123 

保持 物化 视图 一 直 在 最 新 状态 的 过 程 称 为 物化 视图 维护 ( materialized view maintenance) ， 或 者 通常 
简称 视图 维护 (view maintenance) ， 这 将 在 13. 5 节 进 行 介 绍 。 当 构成 视图 定义 的 任何 关系 被 更 新 时 ， 可 
以 马上 进行 视图 维护 。 然 而 某 些 数 据 库 系统 在 视图 被 访问 时 才 执 行 视图 维护 。 还 有 一 些 系统 仅 采用 周 
期 性 的 物化 视图 更 新 方式 ， 在 这 种 情况 下 ， 当 物化 视图 被 使 用 时 ， 其 中 的 内 容 可 能 是 陈旧 的 ， 或 者 说 
过 时 的 。 如 果 应 用 需要 最 新 数据 的 话 ， 这 种 方式 是 不 适用 的 。 某 些 数据 库 系统 允许 数据 库 管 理 员 来 控 
制 在 每 个 物化 视图 上 需要 采取 上 述 的 哪 种 方式 。 

频繁 使 用 视图 的 应 用 将 会 从 视图 的 物化 中 获 益 。 那 些 需 要 快速 响应 基于 大 关系 上 聚集 计算 的 特定 
查询 也 会 从 创建 与 查询 相对 应 的 物化 视图 中 受益 良 多 。 在 这 种 情况 下， 聚集 结果 很 可 能 比 定义 视图 的 
大 关系 要 小 得 多 ， 其 结果 是 利用 物化 视图 来 回答 查询 就 很 快 ， 它 避免 了 读 取 大 的 底层 关系 。 当 然 ， 物 
化 视图 查询 所 带 来 的 好 处 还 需要 与 存储 代价 和 增加 的 更 新 开销 相 权衡 。 

SQL 没有 定义 指定 物化 视图 的 标准 方式 ， 但 是 很 多 数据 库 系 统 提供 了 各 自 的 SQL 扩展 来 实现 这 项 
任务 。 一 些 数据 库 系 统 在 底层 关系 变化 时 ， 总 是 把 物化 视图 保持 在 最 新 状态 ; 也 有 另外 一 些 系统 允许 
物化 视图 过 时 ， 但 周期 性 地 重新 计算 物化 视图 。 

4.2.4 视图 更 新 

尽管 对 查询 而 言 ， 视 图 是 一 个 有 用 的 工具 ， 但 如 果 我 们 用 它们 来 表达 更 新 、 插 入 或 删除 ， 它 们 可 
能 带 来 严重 的 问题 。 困 难 在 于 ， 用 视图 表达 的 数据 库 修改 必须 被 翻译 为 对 数据 库 逻 辑 模 型 中 实际 关系 
的 修改 。 

假设 我 们 此 前 所 见 的 视图 faculty 被 提供 给 一 个 职员 。 既 然 我 们 允许 视图 名 出 现在 任何 关系 名 可 以 
出 现 的 地 方 ， 该 职员 可 以 这 样 写 出 : 


insert into faculty 
values (’30765', ’Green’ , ' Music’ ) ; 


这 个 插入 必须 表示 为 对 instructor 关系 的 插入 ， 因 为 instructor 是 数据 库 系 统 用 于 构造 视图 faculty 的 实际 
关系 。 然 而 ， 为 了 把 一 个 元 组 插 和 人 到 instructor 中 ， 我 们 必须 给 出 salary 的 值 。 存 在 两 种 合理 的 解决 方 
法 来 处 理 该 插入 : 
。 拒绝 插入 ， 并 向 用 户 返 回 一 个 错误 信息 。 
© jn] instructor 关系 插 和 人 元 组 ( 30765" ，" Green?’ , ° Music’ , null) 。 [124 | 
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通过 视图 修改 数据 库 的 男 一 类 问题 发 生 在 这 样 的 视图 上 : 


create view instructor_info as 

select ID, name, building 

from instructor, department 

where instructor. dept_name = department. dept_name; 


这 个 视图 列 出 了 大 学 里 每 个 教师 的 ID. name 和 建筑 名 。 考 虑 如 下 通过 该 视图 的 插入 : 


insert into instructor_info 
values (’69987’ , ° White? , ’ Taylor’ ) ; 


假设 没有 标识 为 69987 的 教师 ， 也 没有 位 于 Taylor 大 楼 的 系 。 那 么 向 instructor 和 department 关系 中 












































插入 元 组 的 唯一 可 能 的 方法 是 : 向 instructor 中 插入 元 组 ID name deptname | salary 
(° 69987’ , ° White’ , null, null) ， 并 向 department 中 插入 元 组 ve | oe | eee. Sci. ] on 
(null, Taylor’ nul) 。 于 是 我 们 得 到 如 图 4-7 所 示 的 关系 。 | 15151 | Mozart | Music. | 40000 
、 22222 | Einstei Physi 95000 
但 是 这 ü 更 新 并 没有 产生 出 所 需 的 fa Re 因 为 z 图 关 村 32343 El Said. | storm 60000 
instructor _ info 中 仍然 不 包含 元 组 ( ”69987 ， ' White’, | 33456 | Gold Physics 87000 
, ， 、 ee ae 45565 | Kat Comp. Sci. | 75000 
Taylor )。 因 此 ， 通 过 利用 空 值 来 更 新 instructor 和 | 58583 | Califieri History | 62000 
department 关系 以 得 到 对 instructor _info 所 需 的 更 新 是 不 可 76543 | Singh | Finance 80000 | 
行 的 76766 | Crick | Biology 72000 
5 83821 | Brandt Comp. Sci. | 92000 
由 于 如 上 所 述 的 种 种 问题 ， 除 了 一 些 有 限 的 情况 之 外 ， | 98345 | Kim Elec. Eng. | 80000 
一 般 不 允许 对 视图 关系 进行 修改 。 不 同 的 数据 库 系统 指定 了 EST White al | 
不 同 的 条 件 以 允许 更 新 视图 关系 ; 请 参考 数据 库 系统 手册 以 instructor 
获得 详细 信息 。 通 过 视图 进行 数据 库 修 改 的 通用 问题 已 经 成 PETIT [ building | budget | 
为 重要 的 研究 课题 ， 文 献 注 解 中 引用 了 一 些 这 方面 的 研究 。 Biology Watson 90000 
一 般 说 来 ， 如果 定义 视图 的 查询 对 下 列 条 件 都 能 满足 ， id | tole | oD 


我 们 称 SQL 视图 是 可 更 新 的 (updatable) ( 即 视图 上 可 以 执行 Finance 


Painter 120000 











HA RMR): E ee 
e from 子 句 中 只 有 一 个 数据 库 关 系 。 | Physics | Watson 70000 
。 select 子 句 中 只 包含 关系 的 属性 名 ， 不 包含 任何 表达 eal | 
ch, RÆ distinct 声明 。 department 
o 任何 没有 出 现在 select 子 句 中 的 属性 可 以 取 空 值 ， 即 图 4.7 插入 元 组 后 的 instructor 
这 些 属性 上 没有 not null 约束 ， 也 不 构成 主 码 的 一 和 department 关系 
部 分 。 


e 查询 中 不 含有 group by 或 having 子 句 。 
在 这 些 限制 下 ， 下 面 的 视图 上 人 允许 执行 update, insert 和 delete 操作 : 


create view history_instructors as 
select” 

from instructor 

where dept_name = ’ History’ ; 


即便 是 在 可 更 新 的 情况 下 ， 下 面 这 些 问题 仍然 存在 。 假 设 一 个 用 户 尝 试 向 视图 history_instructors 中 
插入 元 组 ( 25566”，’ Brown’, ’ Biology’ , 100000) ， 这 个 元 组 可 以 被 插入 到 instructor 关系 中 ,但 是 由 
于 它 不 满足 视图 所 要 求 的 选择 条 件 ， 它 不 会 出 现在 视图 history_instructors 中 
在 默认 情况 下 ，SQL 允许 执行 上 述 更 新 。 但 是 ， 可 以 通过 在 视图 定义 的 末尾 包含 with check option 
子 句 的 方式 来 定义 视图 。 这 样 ， 如 果 向 视图 中 插入 一 条 不 满足 视图 的 where 子 句 条 件 的 元 组 ， 数 据 库 
系统 将 拒绝 该 插入 操作 。 类 似 地 ， 如 果 新 值 不 满足 where 子 句 的 条 件 ， 更 新 也 会 被 拒绝 。 
125 SQL:1999 对 于 何 时 可 以 在 视图 上 执行 插入 、 更 新 和 删除 有 更 复杂 的 规则 集 ， 该 规则 集 允 许 通过 一 
类 更 大 视图 进行 更 新 ， 但 是 这 些 规则 过 于 复杂 ， 我 们 就 不 在 这 里 讨论 了 。 
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4.3 事务 


事务 (transaction ) 由 查询 和 (或 ) 更 新 语句 的 序列 组 成 。SQL 标准 规定 当 一 条 SQL 语句 被 执行 ， 就 
隐 式 地 开始 了 一 个 事务 。 下 列 SQL 语句 之 一 会 结束 一 个 事务 : 

e Commit work: 提交 当前 事务 ， 也 就 是 将 该 事务 所 做 的 更 新 在 数据 库 中 持久 保存 。 在 事务 被 提 

交 后 ,一 个 新 的 事务 自动 开始 。 
è Rollback work: 回 滚 当前 事务 ， 即 撤销 该 事务 中 所 有 SQL 语句 对 数据 库 的 更 新 。 这 样 ， 数 据 库 
就 恢复 到 执行 该 事务 第 一 条 语句 之 前 的 状态 。 

关键 词 work 在 两 条 语句 中 都 是 可 选 的 。 

当 在 事务 执行 过 程 中 检测 到 错误 时 ， 事 务 回 滚 是 有 用 的 。 在 某 种 意义 上 ， 事 务 提交 就 像 对 编辑 文 
档 的 变化 存盘 ， 而 回 滚 就 像 不 保存 变化 退出 编辑 。 一 旦 某 事务 执行 了 commit work， 它 的 影响 就 不 能 
用 rollback work 来 撤销 了 。 数 据 库 系统 保证 在 发 生 诸 如 某 条 SQL 语句 错误 、 汤 电 、 系 统 崩 演 这 些 故 障 
的 情况 下 ， 如 果 一 个 事务 还 没有 完成 commit work， 其 影响 将 被 回 深 。 在 断 电 和 系统 崩溃 的 情况 下 ， 
回 滚 会 在 系统 重启 后 执行 。 

例如 ， 考 虑 一 个 银行 应 用 ， 我 们 需要 从 一 个 银行 账户 上 把 钱 转 到 同一 家 银行 的 另 一 个 账户 。 为 了 
这 样 做 ， 我 们 需要 更 新 两 个 账户 的 余额 ， 把 需要 转移 的 资金 额 从 一 个 账户 划 走 ， 并 把 它 加 到 另 一 个 账 
户 上 。 如 果 在 从 第 一 个 账户 上 划 走 资金 以 后 ， 但 在 把 这 笔 资 金 加 入 第 二 个 账户 之 前 发 生 了 系统 崩溃 ， 
那么 银行 账户 就 会 不 一 致 。 如 果 在 第 一 个 账户 划 走 资金 之 前 先 往 第 二 个 账户 存款 ， 并 且 在 存款 之 后 马 
上 发 生 系统 崩 演 ， 那 么 也 会 出 现 类 似 的 问题 。 

作为 另 一 个 例子 ， 考 虑 我 们 正在 使 用 的 大 学 应 用 的 例子 。 我 们 假设 student 关系 中 每 个 元 组 在 tot_cred 
属性 上 的 取 值 需要 保持 在 最 新 状态 ， 只 要 学 生成 功 修 完 一 门 课 程 ， 该 属性 值 就 要 更 新 。 为 了 这 样 做 ， 
只 要 takes 关系 被 更 新 为 记录 一 位 学 生成 功 修 完 一 门 课程 的 信息 (通过 赋予 适当 的 成 绩 ) ， 相 应 的 student 
元 组 也 必须 更 新 。 如 果 执 行 这 两 个 更 新 的 任务 在 执行 完 一 个 更 新 后 ， 但 在 第 二 个 更 新 前 崩溃 了 ， 数 据 
库 中 的 数据 就 是 不 一 致 的 。 

一 个 事务 或 者 在 完成 所 有 步 又 后 提交 其 行为 ,或 者 在 不 能 成 功 完成 其 所 有 动作 的 情况 下 回 滚 其 所 
有 动作 ， 通 过 这 种 方式 数据 库 提 供 了 对 事务 具有 原子 性 (atomic ) 的 抽象 ， 原 子 性 也 就 是 不 可 分 割 性 。 
要 么 事务 的 所 有 影响 被 反映 到 数据 库 中 ， 要 么 任何 影响 都 没有 (在 回 滚 之 后 ) 。 

如 果 把 事务 的 概念 应 用 到 上 述 应 用 中 ， 那 些 更 新 语句 就 会 作为 单个 事务 执行 。 在 事务 执行 其 某 一 
条 语句 时 出 错 会 导致 事务 早先 执行 的 语句 的 影响 被 撤销 ， 从 而 不 会 让 数据 库 处 于 部 分 更 新 状态 。 

如 果 程 序 没有 执行 两 条 命令 中 的 任何 一 条 而 终止 了 ， 那 么 更 新 要 么 被 提交 要 么 被 回 深 。SQL 标准 
并 没有 指出 究竟 执行 哪 一 种 ， 如 何 选择 依赖 于 具体 实现 。 

在 很 多 SQL 实现 中 ， 默 认 方式 下 每 个 SQL 语句 自 成 一 个 事务 ， 且 一 执行 完 就 提交 。 如 果 一 个 事务 
要 执行 多 条 SQL 语句 ， 就 必须 关闭 单独 SQL 语句 的 自动 提交 。 如 何 关闭 自动 提交 也 依赖 于 特定 的 SQL 
实现 ， 尽 管 在 诸如 JDBC 或 ODBC 那样 的 应 用 编程 接口 中 存在 标准 化 方式 来 完成 这 项 工作 。 我 们 将 在 
5.1.1 和 5.1.2 节 分 别 学 习 JDBC 和 ODBC。 

一 个 较 好 的 选择 是 ， 作 为 SQL:1999 标准 的 一 部 分 (但 目前 只 有 一 些 SQL 实现 支持 ) ， 人 允许 多 条 
SQL 语句 包含 在 关键 字 begin atomic…end 之 间 。 所 有 在 关键 字 之 间 的 语句 构成 了 一 个 单一 事务 。 

我 们 将 在 第 14 章 学 习 事务 的 更 多 特性 ; 第 15 章 和 第 16 章 介绍 在 单个 数据 库 中 实现 事务 的 相关 问 
题 ， 而 在 第 19 章 介绍 跨 多 个 数据 库 上 实现 事务 的 相关 问题 ， 这 是 为 了 处 理 不 同 银行 的 账户 之 间 转 账 的 
问题 ， 不 同 银行 有 不 同 的 数据 库 。 


4.4 完整 性 约束 


完整 性 约束 保证 授权 用 户 对 数据 库 所 做 的 修改 不 会 破坏 数据 的 一 致 性 。 因 此 ， 完 整 性 约束 防止 的 
是 对 数据 的 意外 破坏 。 
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完整 性 约束 的 例子 有 : 

e 教师 姓名 不 能 为 null。 

。 任意 两 位 教师 不 能 有 相同 的 教师 标识 。 

© course 关系 中 的 每 个 系 名 必须 在 department 关系 中 有 一 个 对 应 的 系 名 。 

。 一 个 系 的 预算 必须 大 于 0. 00 美元 。 

一 般 说 来 ， 一 个 完整 性 约束 可 以 是 属于 数据 库 的 任意 谓词 。 但 检测 任意 谓词 的 代价 可 能 太 高 。 因 
此 ， 大 多 数 数据 库 系 统 允 许 用 户 指定 那些 只 需 极 小 开销 就 可 以 检测 的 完整 性 约束 。 

在 3.2. 2 节 我 们 已 经 见 过 了 一 些 完 整 性 约束 的 形式 。 本 节 我 们 将 学 习 更 多 的 完整 性 约束 形式 。 在 

[128] 第 8 章 我 们 学 习 另 一 种 被 称 作 函数 依赖 的 完整 性 约束 形式 ， 它 主要 应 用 在 模式 设计 的 过 程 中 。 

完整 性 约束 通常 被 看 成 是 数据 库 模 式 设计 过 程 的 一 部 分 ， 它 作为 用 于 创建 关系 的 create table 命令 
的 一 部 分 被 声明 。 然 而 ， 完 整 性 约束 也 可 以 通过 使 用 alter table table-name add constraint 命令 施加 到 已 
有 关系 上 ， 其 中 constrain 可 以 是 关系 上 的 任意 约束 。 当 执行 上 述 命令 时 ， 系 统 首先 保证 关系 满足 指定 
的 约束 。 如 果 满 足 ， 那 么 约束 被 施加 到 关系 上 ; 如 果 不 满足 ， 则 拒绝 执行 上 述 命令 。 
4.4.1 单个 关系 上 的 约束 

我 们 在 3. 2 节 中 描述 了 如 何 用 create table 命令 定义 关系 表 。create table 命令 还 可 以 包括 完整 性 约 
束 语句 。 除 了 主 码 约束 之 外 ， 还 有 许多 其 他 可 以 包括 在 create table 命令 中 的 约束 。 人 允许 的 完整 性 约束 
包括 : 


e not null, 





e unique, 

e check( < 谓词 > ) 。 

我 们 将 在 下 面 的 几 节 中 讨论 上 述 每 一 种 约束 。 
4.4.2 not null 约束 

正如 我 们 在 第 3 章 中 讨论 过 的 ， 空 值 是 所 有 域 的 成 员 ， 因 此 在 默认 情况 下 是 SQL 中 每 个 属性 的 合 
法 值 。 然 而 对 于 一 些 属 性 来 说 ， 空 值 可 能 是 不 合适 的 。 考 虑 student 关系 中 的 一 个 元 组 ， 其 中 name 是 
null。 这 样 的 元 组 给 出 了 一 个 未 知 学 生 的 学 生 信息 ; 因此 它 不 含有 有 用 的 信息 。 类 似 地 ， 我 们 不 会 希望 
系 的 预算 为 null。 在 这 些 情 况 下 ， 我 们 希望 禁止 空 值 ， 我 们 可 以 通过 如 下 声明 来 通过 限定 属性 name 和 
budget 的 域 来 排除 空 值 : 


name varchar( 20) not null 
budget numeric( 12, 2) not null 


not null 声明 禁止 在 该 属性 上 插入 空 值 。 任 何 可 能 导致 向 一 个 声明 为 not null 的 属性 插入 空 值 的 数据 库 
修改 都 会 产生 错误 诊断 信息 。 

许多 情况 下 我 们 希望 避免 空 值 。 尤 其 是 SQL 禁止 在 关系 模式 的 主 码 中 出 现 空 值 。 因 此 ， 在 我 们 的 

[129] 大 学 例子 中 ， 在 department 关系 上 如 果 声 明 属 性 dept_name 为 department 的 主 码 ， 那 它 就 不 能 为 空 。 因 

此 它 不 必 显 式 地 声明 为 not null, 
4. 4. 3 unique 约束 

SQL 还 支持 下 面 这 种 完整 性 约束 : 

unique ( A; Åp, sAm ) 

unique 声明 指出 属性 A, ,4;,,… ,4;, 形成 了 一 个 候选 码 ; 即 在 关系 中 没有 两 个 元 组 能 在 所 有 列 出 的 属性 
上 取 值 相同 。 然 而 候选 码 属性 可 以 为 null1， 除 非 它们 已 被 显 式 地 声明 为 not null。 回 忆 一 下 ， 空 值 不 等 
于 其 他 的 任何 值 。( 这 里 对 空 值 的 处 理 与 3. 8. 4 节 中 定义 的 unique 结构 一 样 。) 
4.4.4 check 子 句 

当 应 用 于 关系 声明 时 ，check(P) 子 句 指 定 一 个 谓词 P， 关 系 中 的 每 个 元 组 都 必须 满足 谓词 P。 
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通常 用 check 子 句 来 保证 属性 值 满足 指定 的 条 件 ， 实 际 上 创建 了 一 个 强大 的 类 型 系统 。 例 如 ， 在 
创建 关系 department 的 create table 命令 中 的 check( budget > 0 ) 子 句 将 保证 budget 上 的 取 值 是 正 数 。 
作为 另 一 个 例子 ， 考 虑 如 下 语句 : 


create table section 
(course_id varchar (8) , 
sec_id varchar (8) , 
semester varchar (6) , 
year numeric (4, 0), 
building varchar (15) , 
room_number varchar (7) , 
time_slot_id varchar (4) , 
primary key (course_id, sec_id, semester, year) , 
check (semester in (’ Fall’ , ’ Winter’ , ’ Spring’ , ' Summer’ ) ) ) ; 


这 里 我 们 用 check 子 句 模拟 了 一 个 枚 举 类 型 ， 通 过 指定 semester 必须 是 Fall’ |’ Winter’ ,’ Spring’ 
aK’ Summer 中 的 一 个 来 实现 。 这 样 check 子 句 允许 以 有 力 的 方式 对 属性 域 加 以 限制 ， 这 是 大 多 数 编 
程 语 言 的 类 型 系统 都 不 能 允许 的 。 

根据 SQL 标准 ，check 子 句 中 的 谓词 可 以 是 包括 子 查询 在 内 的 任意 谓词 。 然 而 ， 当 前 还 没有 一 个 
广泛 使 用 的 数据 库 产品 允许 包含 子 查 询 的 谓词 。 [130 
4.4.5 参照 完整 性 

我 们 常常 希望 保证 在 一 个 关系 中 给 定 属性 集 上 的 取 值 也 在 另 一 关系 的 特定 属性 集 的 取 值 中 出 现 
这 种 情况 称 为 参照 完整 性 ( referential integrity ) 。 

正如 我 们 此 前 在 3. 2. 2 节 所 见 ， 外 码 可 以 用 作为 SQL 中 ereate table 语句 一 部 分 的 foreign key 子 
句 来 声明 。 我 们 用 大 学 数据 库 SQL DLL 定义 的 一 部 分 来 说 明 外 码 声 明 ， 如 图 4-8 所 示 。course 表 的 定 
义 中 有 一 个 声明 “foreign key( dept_name) references depariment”。 这 个 外 码 声明 表示 ， 在 每 个 课程 元 
组 中 指定 的 系 名 必须 在 department 关系 中 存在 。 没 有 这 个 约束 ， 就 可 能 会 为 一 门 课程 指定 一 个 不 存在 
的 系 名 。 

更 一 般 地 ,， 令 关系 r, 和 7, 的 属性 集 分 别 为 R 和 尼 ， 主 码 分 别 为 天 和 K,。 如 果 要 求 对 7, 中 任意 
元 组 i ， 均 存在 r, 中 元 组 使 得 1. K =t.0, RIIE R, 的 子 集 a 为 参照 关系 7 中 天 的 外 码 (foreign 
key) o 

这 种 要 求 称 为 参照 完整 性 约束 ( referential-intergrity constraint ) 或 子 集 依赖 (subset dependency) 。 后 一 
种 称 法 是 由 于 上 述 参照 完整 性 可 以 表示 为 这 样 一 种 要 求 : r, 中 a 上 的 取 值 集合 必须 是 7, 中 天 上 的 取 值 
集合 的 子 集 。 请 注意 ， 为 使 参照 完整 性 约束 有 意义 , a AK, 必须 是 相 容 的 属性 集 ; 也 就 是 说 ， 要 么 a 
等 于 K|， 要 么 它们 必须 包含 相同 数目 的 属性 ， 并 且 对 应 属性 的 类 型 必须 相 容 ( 这 里 我 们 假设 a 和 KK, 是 
有 序 的 ) 。 不 同 于 外 码 约束 ， 参 照 完 整 性 约束 通常 不 要 求 K, 是 六 的 主 码 ; 其 结果 是 ，m 中 可 能 有 不 止 
一 个 元 组 在 属性 K, 上 取 值 相同 。 

默认 情况 下 ，SQL 中 外 码 参 照 的 是 被 参照 表 中 的 主 码 属性 。SQL 还 支持 一 个 可 以 显 式 指定 被 参照 
关系 的 属性 列表 的 references 子 句 。 然 而 ， 这 个 指定 的 属性 列表 必须 声明 为 被 参照 关系 的 候选 码 ， 要 
么 使 用 primary key 约束 ， 要 么 使 用 unique 约束 。 在 更 为 普遍 的 参照 完整 性 约束 形式 中 ， 被 参照 的 属 
性 不 必 是 候选 码 ， 这 样 的 形式 还 不 能 在 SQL 中 直接 声明 。SQL 标准 提供 了 另外 的 结构 用 于 实现 这 样 的 
约束 ，4. 4.7 节 将 描述 这 样 的 结构 。 

我 们 可 以 使 用 如 下 的 简写 形式 作为 属性 定义 的 一 部 分 ， 并 声明 该 属性 为 外 码 : 


dept_name varchar( 20) references department 


当 违 反 参 照 完 整 性 约束 时 ， 通 常 的 处 理 是 拒绝 执行 导致 完整 性 破坏 的 操作 ( 即 进行 更 新 操作 的 事 
务 被 回 滚 ) 。 但 是 ， 在 foreign key 子 句 中 可 以 指明 : 如 果 被 参照 关系 上 的 删除 或 更 新 动作 违反 了 约束 ， 
那么 系统 必须 采取 一 些 步骤 通过 修改 参照 关系 中 的 元 组 来 恢复 完整 性 约束 ， 而 不 是 拒绝 这 样 的 动作 。[131] 


考虑 在 关系 course 上 的 如 下 完整 性 约束 定义 : 
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由 于 有 了 与 外 码 声明 相关 联 的 on delete cascade 子 句 ， 如 果 删 除 department 中 的 元 组 导致 了 此 参照 
完整 性 约束 被 违反 ， 则 删除 并 不 被 系统 拒绝 ， 而 是 对 course KRE BK” 删除 ， 即 删除 参照 了 被 删除 
系 的 元 组 。 类 似 地 ， 如 果 更 新 被 参照 字段 时 违反 了 约束 ， 则 更 新 操作 并 不 被 系统 拒绝 ， 而 是 将 course 
SQL 还 允许 foreign key 子 句 指明 除 cascade 以 外 的 其 他 动 
作 ， 如 果 约 束 被 违反 : 可 将 参照 域 (这 里 是 dept_name ) $X null ( 用 set null 代替 cascade), z 
的 默认 值 (用 set default) 。 

如 果 存 在 涉及 多 个 关系 的 外 码 依赖 链 ， 则 在 链 一 端 所 做 的 删除 或 更 新 可 能 传 至 整个 链 。 实 践 习题 
4.9 中 的 一 个 有 趣 的 情况 是 ， 在 一 个 关系 上 定义 的 foreign key 约束 所 参照 的 关系 就 是 它 自己 。 如 果 一 
个 级 联 更 新 或 删除 导致 的 对 约束 的 违反 不 能 通过 进 一 eee 则 系统 中 止 该 事务 。 于 是 ， 


中 参照 的 元 组 的 dept_name 字段 也 改 为 新 值 。 


create table classroom 


( building varchar (15) , 
room_number varchar (7) , 
capacity numeric (4, 0) , 
primary key (building, room_number ) ) 
create table department 
( dept_name varchar (20) , 
building varchar (15) , 
budget numeric (12, 2) check (budget > 0), 
primary key ( dept_name) ) 
create table course 
( course_id varchar (8) , 
title varchar (50) , 
dept_name varchar (20) , 
credits numeric (2, 0) check (credits > 0), 
primary key (course_id) , 
foreign key ( dept_name) references department ) 
create table instructor 
(ID varchar (5) , 
name varchar (20), not null 
dept_name varchar (20) , 
salary numeric (8, 2), check (salary > 29000) , 
primary key (1D), 
foreign key (dept_name) references depariment ) 
create table section 
( course_id varchar (8) , 
sec_id varchar (8) , 
semester varchar (6) , check (semester in 
(’ Fall’, ’ Winter’ , ’ Spring’ , ’Summer’ ) , 
year numeric (4, 0), check (year > 1759 and year < 2100) 
building varchar (15) , 
room_number varchar (7) , 
time_slot_id varchar (4) , 
primary key (course_id, sec_id, semester, year) , 
foreign key (course_id) references course , 
foreign key (building, room_number) references classroom ) 





图 4-8 大 学 数据 库 的 部 分 SQL 数据 定义 


create table course 
foreign key (dept_name) references department 
on delete cascade 
on update cascade , 
ose ) ; 


该 事务 所 做 的 所 有 改变 及 级 联动 作 将 被 撤销 。 
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空 值 使 得 SQL 中 参照 约束 的 语义 复杂 化 了 。 外 码 中 的 属性 允许 为 ml&， 只 要 它们 没有 被 声明 为 not 
nul。 如 果 给 定 元 组 中 外 码 的 所 有 列 上 均 取 非 空 值 ， 则 对 该 元 组 采用 外 码 约 束 的 通常 定义 。 如 果 某 外 
码 列 为 null， 则 该 元 组 自动 被 认为 满足 约束 。 

这 样 的 规定 有 时 不 一 定 是 正确 的 选择 ， 因 此 SQL 也 提供 一 些 结构 使 你 可 以 改变 对 空 值 的 处 理 ; 我 
们 在 此 不 讨论 这 样 的 结构 。 

4.4.6 事务 中 对 完整 性 约束 的 违反 

事务 可 能 包括 几 个 步 又， 在 某 一 步 之 后 完整 性 约束 也 许 会 暂时 被 违反 ,但 是 后 面 的 某 一 步 也许 就 
会 消除 这 个 违反 。 例 如 ， 假 设 我 们 有 一 个 主 码 为 name 的 person 关系 ， 还 有 一 个 属性 是 spouse, 并且 
spouse 是 在 person 上 的 一 个 外 码 。 也 就 是 说 ， 约 束 要 求 spouse 属性 必须 包含 在 person 表 里 出 现 的 名 字 。 
假设 我 们 希望 在 上 述 关系 中 插入 两 个 元 组 ,一 个 是 关于 John 的 ， 另 一 个 是 关于 Mary 的 ， 这 两 个 元 组 
的 配偶 属性 分 别 设置 为 Mary 和 John， 以 此 表示 John 和 Mary 彼此 之 间 的 婚姻 关系 。 无 论 先 插 入 哪个 元 
组 ,插入 第 一 个 元 组 的 时 候 都 会 违反 外 码 约束 。 在 插入 第 二 个 元 组 后 ， 外 码 约束 又 会 满足 了 。 

为 了 处 理 这 样 的 情况 ，SQL 标准 允许 将 initially deferred 子 句 加 入 到 约束 声明 中 ; 这 样 完 整 性 约束 
不 是 在 事务 的 中 间 步 又 上 检查 ， 而 是 在 事务 结束 的 时 候 检 查 。 一 个 约束 可 以 被 指定 为 可 延迟 的 
(deferrable) ， 这 意味 着 默认 情况 下 它 会 被 立即 检查 ,但 是 在 需要 的 时 候 可 以 延迟 检查 。 对 于 声明 为 可 
延迟 的 约束 ， 执 行 set constraints constraint-list deferred 语句 作为 事务 的 一 部 分 ， 会 导致 对 指定 约束 的 
检查 被 延迟 到 该 事务 结束 时 执行 。 

然而 ， 读 者 应 该 注意 的 是 默认 的 方式 是 立即 检查 约束 ， 而 且 许多 数据 库 实 现 不 支持 延迟 约束 检查 。 

如 果 spouse 属性 可 以 被 赋 为 ww&， 我 们 可 以 用 另 一 种 方式 来 避 开 在 上 面 例子 中 的 问题 : 在 插入 John 
和 Mary 元 组 时 ， 我 们 设置 其 spouse 属性 为 wz&， 然 后 再 更 新 它们 的 值 。 然 而 ， 这 个 技术 需要 更 大 的 编 
程 量 ， 而 且 如 果 属 性 不 能 设 为 null 的 话 ， 此 方法 就 不 可 行 。 

4.4.7 复杂 check 条 件 与 断言 

本 节 描 述 SQL 标准 所 支持 的 另外 一 些 用 于 声明 完整 性 约束 的 结构 。 然 而 ， 读 者 应 该 注意 的 是 ， 这 
些 结构 目前 还 没有 被 大 多 数 数据 库 系统 支持 。 

正如 SQL 标准 所 定义 的 ，check 子 句 中 的 谓词 可 以 是 包含 子 查询 的 任意 谓词 。 如 果 一 个 数据 库 实现 支持 
在 check 子 句 中 出 现 子 查询 ， 我 们 就 可 以 在 关系 section 上 声明 如 下 所 示 的 参照 完整 性 约束 : 

check (time_slot_id in (select time_slot_id from time_slot) ) 
这 个 check 条 件 检测 在 section 关系 中 每 个 元 组 的 time_slot_id 的 确 是 在 time_slot 关系 中 某 个 时 间 段 的 标 
识 。 因 此 这 个 条 件 不 仅 在 section 中 插入 或 修改 元 组 时 需要 检测 ， 而 且 在 time_slot 关系 改变 时 也 需要 检 
测 ( 如 在 time_slot 关系 中 ， 当 一 个 元 组 被 删除 或 修改 的 情况 下 ) 。 

在 我 们 的 大 学 模式 上 ， 另 一 个 自然 的 约束 是 : 每 个 课程 段 都 需要 有 至 少 一 位 教师 来 讲授 。 为 了 强 
制 实 现 此 约束 ， 一 种 方案 是 声明 section 关系 的 属性 集 ( course_id， sec_id, semester, year) 为 外 码 ， 它 参照 
teaches 关系 中 的 相应 属性 。 遗 憾 的 是 ， 这 些 属性 并 未 构成 teaches 关系 的 主 码 。 如 果 数 据 库 系统 支持 在 
check 约束 中 出 现 子 查询 的 话 ， 可 以 使 用 与 time_slot 属性 类 似 的 check 约束 来 强制 实现 上 述 约束 。 

复杂 check 条 件 在 我 们 希望 确保 数据 完整 性 的 时 候 是 很 有 用 的 ， 但 其 检测 开销 可 能 会 很 大 。 例 如 ， 
check 子 句 中 的 谓词 不 仅 需 要 在 section 关系 发 生 更 新 时 计算 ， 而 且 也 可 能 在 time_slot 关系 发 生 更 新 时 检 
WW, FA time_slot 在 子 查询 中 被 引用 了 。 

一 个 断言 (assertion ) 就 是 一 个 谓词 ， 它 表达 了 我 们 希望 数据 库 总 能 满足 的 一 个 条 件 。 域 约束 和 参照 
完整 性 约束 是 断言 的 特殊 形式 。 我 们 前 面 用 大 量 篇 幅 介 绍 了 这 几 种 形式 的 断言 ， 是 因为 它们 容易 检测 
并 且 适 用 于 很 多 数据 库 应 用 。 但 是 ， 还 有 许多 约束 不 能 仅 用 这 几 种 特殊 形式 来 表达 。 如 有 两 个 这 样 的 
例子 : 

© 对 于 student 关系 中 的 每 个 元 组 ， 它 在 属性 tot_cred 上 的 取 值 必 须 等 于 该 生 所 成 功 修 完 课程 的 学 

分 总 和 。 
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。 每 位 教师 不 能 在 同一 个 学 期 的 同一 个 时 间 段 在 两 个 不 同 的 教室 授课 。 
SQL 中 的 断言 为 如 下 形式 : 
create assertion < assertion-name > check < predicate > ; 
图 4-9 给 出 了 我 们 如 何 用 SQL 写 出 第 一 个 约束 的 示例 。 由 于 SQL 不 提供 “for al X, P(X)” H 
中 PP 是 一 个 谓词 )， 我 们 只 好 通过 等 价 的 “not exists X such that not P(X) "结构 来 实现 此 约束 ， 这 一 结构 
可 以 用 SQL 来 表示 。 





create assertion credits_earned_constraint check 
(not exists ( select ID 
from student 
where tot_cred < > (select sum( credits ) 
from takes natural join course 
where student. ID = takes. ID 
and grade is not null and grade < > `F’ ); 


图 4-9 一 个 断言 的 例子 


我 们 把 第 二 个 约束 的 声明 留 作 练习 。 

当 创建 断言 时 ， 系 统 要 检测 其 有 效 性 。 如 果断 言 有 效 ， 则 今后 只 有 不 破坏 断言 的 数据 库 修 改 才 被 
人 允许。 如 果断 言 较 复 杂 ， 则 检测 会 带 来 相当 大 的 开销 。 因 此 ， 使 用 断言 应 该 特别 小 心 。 由 于 检测 和 维 
护 断 言 的 开销 较 大 ， 一 些 系 统 开发 者 省 去 了 对 一 般 性 断言 的 支持 ， 或 者 只 提供 易于 检测 的 特殊 形式 的 
断言 。 

目前 ， 还 没有 一 个 广泛 使 用 的 数据 库 系 统 支持 在 check 子 句 的 谓词 中 使 用 子 查询 或 create assertion 
结构 。 然 而 ， 如 果 数 据 库 系统 支持 触发 器 的 话 ， 可 以 通过 使 用 触发 器 来 实现 等 价 的 功能 ， 触 发 器 将 在 
5.3 节 介 绍 ，5. 3 节 还 将 介绍 如 何 用 触发 器 来 实现 time_slot_id 上 的 参照 完整 性 约束 。 


4.5 SQL 的 数据 类 型 与 模式 


在 第 3 章 中 ， 我 们 介绍 了 一 些 SQL 支持 的 固有 数据 类 型 ， 如 整数 类 型 、 实 数 类 型 和 字符 类 型 。 
SQL 还 支持 一 些 其 他 的 固有 数据 类 型 ， 我 们 将 在 下 面 描述 。 我 们 还 将 描述 如 何在 SQL 中 创建 基本 的 用 
户 定义 类 型 。 

4.5.1 SQL 中 的 日 期 和 时 间 类 型 

除了 我 们 在 3. 2 节 介 绍 过 的 基本 数据 类 型 以 外 ，SQL 标准 还 支持 与 日 期 和 时 间 相 关 的 几 种 数据 
类 型 : 

e date: 日 历 日 期 ， 包 括 年 (四 位 )、 月 和 日 。 

e time: 一 天 中 的 时 间 ， 包 括 小 时 、 分 和 秒 。 可 以 用 变量 time(p) 来 表示 秒 的 小 数 点 后 的 数字 位 

数 (这 里 默认 值 为 0) 。 通 过 指定 time with timezone ， 还 可 以 把 时 区 信息 连同 时 间 一 起 存储 
è timestamp; date 和 time 的 组 合 。 可 以 用 变量 timestamp (p ) 来 表示 秒 的 小 数 点 后 的 数字 位 数 
(这 里 默认 值 为 6) 。 如 果 指 定 with timezone， 则 时 区 信息 也 会 被 存储 。 
日 期 和 时 间 类 型 的 值 可 按 如 下 方式 说 明 : 
date ‘2001 -04 -25° 
time ’ 09: 30: 00° 
timestamp ‘2001 -04 -25 10:29:01. 45° 

日 期 类 型 必须 按照 如 上 年 月 日 的 格式 顺序 指定 。time 和 timestamp 的 秒 部 分 可 能 会 有 小 数 部 分 ， 
像 上 述 时 间 惟 中 的 情况 一 样 。 

我 们 可 以 利用 cast e as t 形式 的 表达 式 来 将 一 个 字符 串 ( 或 字符 串 表 达 式 )e 转换 成 类 型 +， 其 中 上 是 














操 ” 我 们 假设 不 在 第 二 课程 采用 远程 授课 的 形式 ! 另 一 个 约束 是 指定 "一 位 教师 在 一 个 给 定 学 期 的 相同 时 间 段 不 能 讲授 
两 门 课 程 ”， 由 于 有 时 候 课程 是 交叉 排 课 的 ， 即 对 一 门 课程 给 出 了 两 个 标识 和 名 称 ， 所 以 可 能 不 满足 此 约束 。 
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date, time, timestamp 中 的 一 种 。 字 符 串 必须 符合 正确 的 格式 ， 像 本 段 开头 说 的 那样 。 当 需要 时 ， 时 
区 信息 可 以 从 系统 设置 中 得 到 。 

我 们 可 以 利用 extract (field from d), J date 或 time {A d 中 提取 出 单独 的 域 ， 这 里 的 域 可 以 是 
year, month, day, hour, minute 或 者 second 中 的 任意 一 种 。 时 区 信息 可 以 用 timezone_hour 和 
timezone_minute 来 提取 。 

SQL 定义 了 一 些 函 数 以 获取 当前 日 期 和 时 间 。 例 如 ，current_date 返回 当前 日 期 ，current_time ik 
回 当前 时 间 ( 带 有 时 区 ) ， 还 有 localtime 返回 当前 的 本 地 时 间 ( 不 带 时 区 )。 时 间 戳 (日 期 加 上 时 间 ) 由 
current_timestamp( 带 有 时 区 ) 以 及 localtimestamp( 本 地 日 期 和 时 间 ， 不 带 时 区 ) 返 回 。 

SQL 允许 在 上 面 列 出 的 所 有 类 型 上 进行 比较 运算 ， 也 允许 在 各 种 数字 类 型 上 进行 算术 运算 和 比较 
运算 。SQL 还 支持 interval 数据 类 型 ， 它 允许 在 日 期 、 时 间 和 时 间 间 隔 上 进行 计算 。 例 如 ,假设 x* 和 yy 
都 是 date 类 型 ， 那 么 x - y 就 是 时 间 间 隔 类 型 ， 其 值 为 从 日 期 x 到 日 期 y 间隔 的 天 数 。 类 似 地 ， 在 日 
期 或 时 间 上 加 减 一 个 时 间 间 隔 将 分 别 得 到 新 的 日 期 或 时 间 。 

4.5.2 默认 值 
SQL 人 允许 为 属性 指定 默认 值 ， 如 下 面 的 create table 语句 所 示 : 


create table student 
(ID varchar (5), 
name varchar (20) not null, 
dept_name varchar (20) , 
tot_cred numeric (3, 0) default 0, 
primary key (/D) ) ; 


tot_cred 属性 的 默认 值 被 声明 为 0。 这样 ， 当 一 个 元 组 被 插 和 人 到 student 关系 中 ， 如 果 没 有 给 出 tot_ 
cred 属性 的 值 ， 那 么 该 元 组 在 此 属性 上 的 取 值 就 被 置 为 0。 下 面 的 插入 语句 说 明了 在 插 人 操作 中 如 何 省 
略 tot_cred 属性 的 值 : 

insert into student( ID, name, dept_name) 
values (’12789’ , ’Newman’ , ’ Comp. Sci. ’ ) ; 

4.5.3 创建 索引 

许多 查询 只 涉及 文件 中 的 少量 记录 。 例 如 ， 像 这 样 的 查询 “ 找 出 Physics 系 的 所 有 教师 ”， 或“ 找 出 
万 为 22201 的 学 生 的 tot_cred 值 ”"， 只 涉及 学 生 记录 中 的 一 小 部 分 。 如 果 系 统 读 取 每 条 记录 并 一 一 检查 
H ID SUE “22201” , A dept_name 域 是 否 取 值 为 "Physics”， 这 样 的 方式 是 很 低 效 的 。 

在 关系 的 属性 上 所 创建 的 索引 (index) 是 一 种 数据 结构 ， 它 允许 数据 库 系 统 高 效 地 找到 关系 中 那些 
在 索引 属性 上 取 给 定 值 的 元 组 ， 而 不 用 扫描 关系 中 的 所 有 元 组 。 例 如 ， 如 果 我 们 在 student 关系 的 属性 
ID 上 创建 了 索引 ， 数 据 库 系 统 不 用 读 取 student 关系 中 的 所 有 元 组 ， 就 可 以 直接 找到 任何 像 22201 或 
44553 那样 具有 指定 ID 值 的 记录 。 索 引 也 可 以 建立 在 一 个 属性 列表 上 ， 例 如 在 student 的 属性 name 和 
dept_name 上 。 

我 们 将 在 后 面 第 11 章 学 习 索 引 是 如 何 实现 的 ， 包括 一 种 被 称 作 B 树 的 索引 ， 它 是 一 种 特别 的 、 
广泛 使 用 的 索引 类 型 。 

尽管 SQL 语言 没有 给 出 创建 索引 的 正式 语法 定义 ,但 很 多 数据 库 都 支持 使 用 如 下 所 示 的 语法 形式 
来 创建 索引 : 

create index student/D_index on student( ID) ; 

上 述 语句 在 student 关系 的 属性 ID 上 创建 了 一 个 名 为 studentID_index 的 索引 。 

如 果 用 户 提 交 的 SQL 查询 可 以 从 索引 的 使 用 中 获 益 ， 那 么 SQL 查询 处 理 器 就 会 自动 使 用 索引 。 例 
如 ， 给 定 的 SQL 查询 是 选 出 万 为 22201 的 student 元 组 ，SQL 查询 处 理 兢 就 会 使 用 上 面 定义 的 studentID 
_index 索引 来 找到 所 需 元 组 ， 而 不 用 读 取 整个 关系 。 
4.5.4 大 对 象 类 型 

许多 当前 的 数据 库 应 用 需要 存储 可 能 很 大 (KB 级 ) 的 属性 ， 例 如 一 张 照 片 ; 或 者 非常 大 的 属性 





[137 ] 


78 ”第 一 部 分 关系 数据 库 


(MB 级 甚至 GB 级 ) ， 例 如 高 清晰 度 的 医学 图 像 或 视频 片断 。 因 此 SQL 提供 字符 数据 的 大 对 象 数据 类 
型 (clob) 和 二 进 制 数据 的 大 对 象 数 据 类 型 (blob)。 在 这 些 数 据 类 型 中 字符 “lob” 代表 "Large OBject”。 
例如 ,我们 可 以 声明 属性 

book_review clob (10KB) 

image blob (10MB) 

movie blob (2GB) 

对 于 包含 大 对 象 ( 好 几 个 MB 甚至 GB) 的 结果 元 组 而 言 ， 把 整个 大 对 象 放 入 内 存 中 是 非常 低 效 和 不 
现实 的 。 相 反 ， 一 个 应 用 通常 用 一 个 SQL 查询 来 检索 出 一 个 大 对 象 的 “定位 器 "， 然 后 在 宿主 语言 中 用 
这 个 定位 器 来 操纵 对 象 ， 应 用 本 身 也 是 用 宿主 语言 书写 的 。 例 如 ，JDBC 应 用 编程 接口 (5. 1. 1 节 描 述 ) 
允许 获取 一 个 定位 器 而 不 是 整个 大 对 象 ; 然后 用 这 个 定位 器 来 一 点 一 点 地 取出 这 个 大 对 象 ， 而 不 是 一 
次 取出 全 部 ， 这 很 像 用 一 个 read 也 数 调用 从 操作 系统 文件 中 读 取 数据 。 

4. 5.5 用 户 定义 的 类 型 
SQL 支持 两 种 形式 的 用 户 定 义 数 据 类 型 。 第 一 种 称 为 独特 类 型 ( distinct type) ， 我 们 将 在 这 里 介绍 。 
另 一 种 称 为 结构 化 数据 类 型 ( structured data type) ， 人 允许 创 建 具有 嵌 套 记录 结构 、 数 组 和 多 重 集 的 复杂 
数据 类 型 。 在 本 章 我 们 不 介绍 结构 化 数据 类 型 ， 而 是 在 后 面 第 22 章 描述 。 

一 些 属性 可 能 会 有 相同 的 数据 类 型 。 例 如 ， 用 于 学 生 名 和 教师 名 的 name 属性 就 可 能 有 相同 的 域 : 
所 有 人 名 的 集合 。 然 而 ，budget 和 dept_name 的 域 肯 定 应 该 是 不 同 的 。name 和 dept_name 是 否 应 该 有 相 
ASR, 这 一 点 就 不 那么 明显 了。 在 实现 层 ， 教 师 姓名 和 系 的 名 字 都 是 字符 串 。 然 而 ,我们 通常 不 认 
为 “ 找 出 所 有 与 某 个 系 同名 的 教师 "是 一 个 有 意义 的 查询 。 因 此 ， 如 果 我 们 在 概念 层 而 不 是 物理 层 来 看 
待 数 据 库 的 话 ，name 和 dept_name 应 该 有 不 同 的 域 。 

更 重要 的 是 ， 在 现实 中 ， 把 一 个 教师 的 姓名 赋 给 一 个 系 名 可 能 是 一 个 程序 上 的 错误 ; 类 似 地 ， 把 
一 个 以 美元 表示 的 货币 值 直接 与 一 个 以 英镑 表示 的 货币 值 进行 比较 几乎 可 以 肯定 是 程序 上 的 错误 。 一 
个 好 的 类 型 系统 应 该 能 够 检测 出 这 类 赋值 或 比较 。 为 了 支持 这 种 检测 ，SQL 提供 了 独特 类 型 ( distinct 
type) 的 概念 。 

可 以 用 create type 子 句 来 定义 新 类 型 。 例 如 ， 下 面 的 语句 : 


create type Dollars as numeric (12, 2) final; 
create type Pounds as numeric (12, 2) final; 


把 两 个 用 户 定义 类 型 Dollars 和 Pounds 定义 为 总 共 12 位 数字 的 十 进 制 数 ， 其 中 两 位 放 在 十 进 制 小 数 点 
后 。 (在 此 关键 字 final 并 不 是 真 的 有 意义 ， 它 是 SQL:1999 标准 要 求 的 ， 其 原因 我 们 不 在 这 里 讨论 了 ; 
一 些 系统 实现 允许 忽略 final 关键 字 。) 然 后 新 创建 的 类 型 就 可 以 用 作 关 系 属性 的 类 型 。 例 如 ， 我 们 可 以 
把 department 表 定 义 为 : 
create table department 
(dept_name varchar (20) , 
building varchar (15) , 
budget Dollars) ; 
尝试 为 Pounds 类 型 的 变量 赋予 一 个 Dollars 类 型 的 值 会 导致 一 个 编译 时 错误 ， 尽 管 这 两 者 都 是 相同 的 数 
值 类 型 。 这 样 的 赋值 很 可 能 是 由 程序 错误 引起 的 ， 或 许 是 程序 员 忘 记 了 货币 之 间 的 区 别 。 为 不 同 的 货 
币 声明 不 同 的 类 型 能 帮助 发 现 这 些 错 误 。 
由 于 有 强 类 型 检查 ， 表 达 式 ( department. budget + 20 ) 将 不 会 被 接受 ， 因 为 属性 和 整 型 常数 20 具有 
不 同 的 类 型 。 一 种 类 型 的 数值 可 以 被 转换 (也 即 cast) 到 另 一 个 域 ， 如 下 所 示 : 


139 cast ( department. budget to numeric( 12, 2) ) 


我 们 可 以 在 数值 类 型 上 做 加 法 ， 但 是 为 了 把 结果 存 回 到 一 个 Dollars 类 型 的 属性 中 ， 我 们 需要 用 另 一 个 
类 型 转换 表达 式 来 把 数值 类 型 转换 回 Dollars 类 型 。 

SQL 提供 了 drop type 和 alter type 子 句 来 删除 或 修改 以 前 创建 过 的 类 型 。 

在 把 用 户 定义 类 型 加 入 到 SQL( 在 SQL:1999 中 ) 之 前 ，SQL 有 一 个 相似 但 稍 有 不 同 的 概念 : 域 
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(domain) (在 SQL-92 中 引入 ) ， 它 可 以 在 基本 类 型 上 施加 完整 性 约束 。 例 如 ， 我 们 可 以 定义 一 个 域 
DDollars， 如 下 所 示 : 


create domain DDollars as numeric( 12, 2) not null; 


DDollars 域 可 以 用 作 属 性 类 型 ， 正 如 我 们 用 Dollars 类 型 一 样 。 然 而 ， 类 型 和 域 之 间 有 两 个 重大 的 
差别 : 

1. 在 域 上 可 以 声明 约束 ， 例 如 mot null， 也 可 以 为 域 类 型 变量 定义 默认 值 ， 然 而 在 用 户 定 义 类 型 
上 不 能 声明 约束 或 默认 值 。 设 计 用 户 定 义 类 型 不 仅 是 用 它 来 指定 属性 类 型 ， 而 且 还 将 它 用 在 不 能 施加 
约束 的 地 方 对 SQL 进行 过 程 扩展 。 

2. 域 并 不 是 强 类 型 的 ，。 因 此 一 个 域 类 型 的 值 可 以 被 赋 给 另 一 个 域 类 型 ， 只 要 它们 的 基本 类 型 是 相 
容 的 。 

当 把 check 子 句 应 用 到 域 上 时 ， 人 允许 模式 设计 者 指定 一 个 谓词 ， 被 声明 为 来 自 该 域 的 任何 变量 都 
必须 满足 这 个 谓词 。 例 如 ，check 子 句 可 以 保证 教师 工资 域 中 只 允许 出 现 大 于 给 定 值 的 值 : 


create domain YearlySalary numeric(8, 2) 
constraint salary_value_test check( value >= 29000. 00) ; 


YearlySalary 域 有 一 个 约束 来 保证 年 薪 大 于 或 等 于 29 000. 00 ŽC. constraint salary_value_test 子 句 是 可 
选 的 ， 它 用 来 将 该 约束 命名 为 salary_value_test。 系 统 用 这 个 名 字 来 指出 一 个 更 新 违反 了 哪个 约束 。 
作为 另 一 个 例子 ， 使 用 馆子 句 可 以 限定 一 个 域 只 包含 指定 的 一 组 值 : 


create domain degree_level varchar( 10) 
constraint degree_level_iest 
check (value in (’ Bachelors’ , ’ Masters’ , or ’ Doctorate’ ) ) ; 


在 数据 库 实现 中 对 类 型 和 域 的 支持 

尽管 本 节 描 述 的 create type 和 create domain 结构 是 SQL 标准 的 部 分 ， 但 这 里 描述 的 这 些 结构 形 
式 还 没有 被 大 多 数 数 据 库 实现 完全 支持 。PostgreSQL 支持 create domain 结构 ， 但 是 其 create type 结 
构 具 有 不 同 的 语法 和 解释 。 

IBM DB2 支持 create type 的 一 个 版 本 ， 它 使 用 create distinct type 语法 ,但 不 支持 create 
domain。 微 软 的 SQL Server 实现 了 create type 结构 的 一 个 版 本 ， 支 持 域 约束 ， 与 SQL 的 create 
domain 结构 类 似 。 

Oracle 不 支持 在 此 描述 的 任何 一 种 结构 。 然 而 ，SQL 还 定义 了 一 个 更 复杂 的 面向 对 象 类 型 系统 ， 
我 们 将 在 后 面 第 22 章 学 习 。 通 过 使 用 不 同形 式 的 ereate type 结构 ，Oracle、IBM DB2 PostgreSQL 和 
SQL Server 都 支持 面向 对 象 类 型 系统 。 


4.5.6 create table 的 扩展 
应 用 常常 要 求 创建 与 现 有 的 某 个 表 的 模式 相同 的 表 。SQL 提供 了 一 个 create table like 的 扩展 来 支 
持 这 项 任务 : 
create table temp_instructor like instructor ; 
上 述 语句 创建 了 一 个 与 instructor 具有 相同 模式 的 新 表 temp_instructor , 
当 书写 一 个 复杂 查询 时 ， 把 查询 的 结果 存储 成 一 个 新 表 通 常 是 很 有 用 的 ; 这 个 表 通 常 是 临时 的 。 
这 里 需要 两 条 语句 ， 一 条 用 于 创建 表 ( 具 有 合适 的 列 ) ， 另 一 条 用 于 把 查询 结果 插入 到 表 中 。SQL:2003 
提供 了 一 种 更 简单 的 技术 来 创建 包含 查询 结果 的 表 。 例 如 ， 下 面 的 语句 创建 了 表 由 ， 该 表 包 含 一 个 查 
询 的 结果 。 
create table 1/ as 
( select ` 
from instructor 


where dept_name = * Music’ ) 
with data; 
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在 默认 情况 下 ， 列 的 名 称 和 数据 类 型 是 从 查询 结果 中 推导 出 来 的 。 通 过 在 关系 名 后 面 列 出 列 名 ， 可 以 
给 列 显 式 指派 名 字 。 
正如 SQL:2003 标准 所 定义 的 ， 如 果 省 略 with data 子 句 ， 表 会 被 创建 ， 但 不 会 载 和 数据 。 但 即使 








141 | 在 省 略 with data 子 句 的 情况 下 ,很 多 数据 库 实现 还 是 通过 默认 方式 往 表 中 加 载 了 数据 。 注 意 几 种 数据 








库 实现 都 用 不 同 语法 支持 create table… like 和 create table… as 的 功能 ; 请 参考 相应 的 系统 手册 以 获得 
进一步 细节 。 

上 述 create table… as 语句 与 create view 语句 非常 相似 ， 并 且 都 用 查询 来 定义 。 两 者 主要 的 区 别 
在 于 当 表 被 创建 时 表 的 内 容 被 加 载 ， 但 视图 的 内 容 总 是 反映 当前 查询 的 结果 。 

4.5.7 模式 、 目 录 与 环境 

要 理解 模式 和 目录 的 形成 ， 需 要 考虑 文件 系统 中 文件 是 如 何 命 名 的 。 早 期 的 文件 系统 是 平面 的 ， 
也 就 是 说 ， 所 有 的 文件 都 存储 在 同一 个 目录 下 。 当 然 ， 当 代 的 文件 系统 有 一 个 目录 (或 者 文件 夹 ) 结 
构 ， 文 件 都 存储 在 子 目 录 下 。 要 单独 命名 一 个 文件 ,我们 必须 指定 文件 的 完整 路 径 名 ， 例 如 ，/users/ 
avi/ db-book/ chapter3. tex。 

跟 早期 文件 系统 一 样 ， 早 期 数据 库 系统 也 只 为 所 有 关系 提供 一 个 命名 空间 。 用 户 不 得 不 相互 协调 
以 保证 他 们 没有 对 不 同 的 关系 使 用 同样 的 名 字 。 当 代数 据 库 系统 提供 了 三 层 结构 的 关系 命名 机 制 。 最 
顶层 由 目录 (catalog) 构 成 ， 每 个 目录 都 可 以 包含 模式 (schema) 。 诸 如 关系 和 视图 那样 的 SQL 对 象 都 包 
含 在 模式 中 。( 一 些 数据 库 实 现 用 术语 “数据 库 ” 代替 术语 “目录 ”) 。 

要 在 数据 库 上 做 任何 操作 ， 用 户 ( 或 程序 ) 都 必须 先 连 接 到 数据 库 。 为 了 验证 用 户 身份 ,用户 必须 
提供 用 户 名 以 及 密码 (通常 情况 下 ) 。 每 个 用 户 都 有 一 个 默认 的 目录 和 模式 ， 这 个 组 合 对 用 户 来 说 是 唯 
一 的 。 当 一 个 用 户 连 接 到 数据 库 系 统 时 ， 将 为 该 连接 设置 好 默认 的 目录 和 模式 。 这 对 应 于 当 用 户 登 录 
进 一 个 操作 系统 时 ， 把 当前 目录 设置 为 用 户 的 主 (home) 目录 。 

为 了 唯一 标识 出 一 个 关系 ， 必 须 使 用 一 个 名 字 ， 它 包含 三 部 分 ， 例 如 : 

catalog. univ_shema. course 
当 名 字 的 目录 部 分 被 认为 是 连接 的 默认 目录 时 ， 可 以 省 略 目录 部 分 。 这 样 如 果 catalogs 是 默认 目录 ， 
我 们 可 以 用 univ_schema. course 来 唯一 标识 上 述 关 系 。 

如 果 用 户 想 访 问 存在 于 另外 的 模式 中 的 关系 ， 而 不 是 该 用 户 的 默认 模式 ， 那 就 必须 指定 模式 的 名 
字 。 然 而 ， 如 果 一 个 关系 存在 于 特定 用 户 的 默认 模式 中 ， 那 么 连 模式 的 名 字 也 可 以 省 略 。 这 样 ， 如 果 
catalog5 是 默认 目录 并 且 univ_schema 是 默认 模式 ， 我 们 可 以 只 用 course, 

当 有 多 个 目录 和 模式 可 用 时 ， 不 同 应 用 和 不 同 用 户 可 以 独立 工作 而 不 必 担 心 命 名 冲突 。 不 仅 如 此 ， 








142 ] 一 个 应 用 的 多 个 版 本 (一 个 产品 版 本 ， 其 他 是 测试 版 本 ) 可 以 在 同一 个 数据 库 系 统 上 运行 。 








默认 目录 和 模式 是 为 每 个 连接 建立 的 SQL 环境 (SQL environment) 的 一 部 分 。 环 境 还 包括 用 户 标识 
(也 称 为 授权 标识 符 ) 。 所 有 通常 的 SQL 语句， 包括 DDL 和 DML 语句 ， 都 在 一 个 模式 的 环境 中 运行 。 

我 们 可 以 用 create schema 和 drop schema 语句 来 创建 和 删除 模式 。 在 大 多 数 数 据 库 系 统 中 ， 模 式 
还 随 着 用 户 账户 的 创建 而 自动 创建 ， 此 时 模式 名 被 置 为 用 户 账号 名 。 模 式 要 么 建立 在 默认 目录 中 ， 要 
么 建立 在 创建 用 户 账户 时 所 指定 的 目录 中 。 新 创建 的 模式 成 为 用 户 账户 的 默认 模式 。 

创建 和 删除 目录 依据 实现 的 不 同 而 不 同 ， 这 不 是 SQL 标准 中 的 一 部 分 。 


4.6 授权 


我 们 可 能 会 给 一 个 用 户 在 数据 库 的 某 些 部 分 授予 几 种 形式 的 权限 。 对 数据 的 授权 包括 : 

© 授权 读 取 数据 。 

© 授权 插入 新 数据 。 

© 授权 更 新 数据 。 

。 授权 删除 数据 。 
每 种 类 型 的 授权 都 称 为 一 个 权限 (privilege) 。 我 们 可 以 在 数据 库 的 某 些 特定 部 分 (如 一 个 关系 或 视图 ) 
上 授权 给 用 户 所 有 这 些 类 型 的 权限 ， 或 者 完全 不 授权 ， 或 者 这 些 权限 的 一 个 组 合 。 
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当 用 户 提交 查询 或 更 新 时 ，SQL 执行 先 基 于 该 用 户 曾 获得 过 的 权限 检查 此 查询 或 更 新 是 否 是 授权 
过 的 。 如 果 查 询 或 更 新 没有 经 过 授权 ， 那么 将 被 拒绝 执行 。 
除了 在 数据 上 的 授权 之 外 ， 用 户 还 可 以 被 授予 在 数据 库 模 式 上 的 权限 ， 例 如 ， 可 以 允许 用 户 创建 、 
修改 或 删除 关系 。 拥 有 某 些 形式 的 权限 的 用 户 还 可 以 把 这 样 的 权限 转 授 (授予 ) 给 其 他 用 户 ， 或 者 撤销 
(收回 ) 一 种 此 前 授 出 的 权限 。 本 节 我 们 将 学 习 每 个 这 样 的 权限 是 如 何 用 SQL 来 指定 的 。 
最 大 的 授权 形式 是 被 授予 数据 库 管 理 员 的 。 数 据 库 管理 员 可 以 授权 新 用 户 、 重 构 数 据 库 ， 等 等 。 
这 种 权限 方式 和 操作 系统 中 的 超级 用 户 、 管 理 员 或 操作 员 的 权限 是 类 似 的 。 
4.6.1 权限 的 授予 与 收回 
SQL 标准 包括 select, insert, update 和 delete 权限 。 权 限 所 有 权限 (all privileges) 可 以 用 作 所 有 人 允 
许 权限 的 简写 形式 。 一 个 创建 了 新 关系 的 用 户 将 自动 被 授予 该 关系 上 的 所 有 权限 。 
SQL 数据 定义 语言 包括 授予 和 收回 权限 的 命令 。grant 语句 用 来 授予 权限 。 此 语句 的 基本 形式 为 : [143] 
grant < 权限 列表 > 
on < 关系 名 或 视图 名 > 
to < 用 户 / 角 色 列表 > ; 
权限 列表 使 得 一 个 命令 可 以 授予 多 个 权限 。 角 色 的 概念 将 在 后 面 4. 6. 2 节 讨 论 。 
关系 上 的 select 权限 用 于 读 取 关系 中 的 元 组 。 下 面 的 grant 语句 授予 数据 库 用 户 Amit 和 Satoshi 在 
department 关系 上 的 select 权限 : 


grant select on department to Amit, Satoshi; 


该 授权 使 得 这 些 用 户 可 以 在 department 关系 上 执行 查询 。 
关系 上 的 update 权限 允许 用 户 修 改 关 系 中 的 任意 元 组 。update 权限 既 可 以 在 关系 的 所 有 属性 上 授 
予 ， 又 可 以 只 在 某 些 属性 上 授予 。 如 果 grant 语句 中 包括 update 权限 ， 将 被 授予 update 权限 的 属性 列 
表 可 以 出 现在 紧 跟 关键 字 update 的 括号 中 。 属 性 列表 是 可 选项 ， 如 果 省 略 属性 列表 ， 则 授予 的 是 关系 
中 所 有 属性 上 的 update 权限 。 
下 面 的 grant 语句 授予 用 户 Amit 和 Satoshi 在 department 关系 的 budget 属性 上 的 更 新 权限 : 
grant update (budget) on department to Amit, Satoshi; 


关系 上 的 insert 权限 允许 用 户 往 关系 中 插入 元 组 。insert 权限 也 可 以 指定 属性 列表 ; 对 关系 所 作 的 
: 任何 插入 必须 只 针对 这 些 属 性 ， 系 统 将 其 余 属 性 要 么 赋 默 认 值 (如 果 这 些 属性 上 定义 了 默认 值 ) ， 要 么 
Wit null 
关系 上 的 delete 权限 允许 用 户 从 关系 中 删除 元 组 。 
用 户 名 public 指 系统 的 所 有 当前 用 户 和 将 来 的 用 户 。 因 此 ， 对 public 的 授权 隐 含 着 对 所 有 当前 用 
户 和 将 来 用 户 的 授权 。 
在 默认 情况 下 ， 被 授予 权限 的 用 户 / 角 色 无 权 把 此 权限 授予 其 他 用 户 / 角 色 。SQL 允许 用 授予 权限 
来 指定 权限 的 接受 者 可 以 进一步 把 权限 授予 其 他 用 户 。 我 们 将 在 4. 6. 5 节 详 细 讨 论 这 个 特性 
值得 注意 的 是 ，SQL 授权 机 制 可 以 对 整个 关系 或 一 个 关系 的 指定 属性 授予 权限 。 但 是 ， 它 不 允许 
对 一 个 关系 的 指定 元 组 授权 。 
我 们 使 用 revoke 语句 来 收回 权限 。 此 语句 的 形式 与 grant 几乎 是 一 样 的 : 
revoke < 权限 列表 > 
on < 关系 名 或 视图 名 > 
from < 用户 /角色 列表 >; 
因此 ， 要 收回 前 面 我 们 所 授予 的 那些 权限 ， 我 们 书写 下 列 语句 : 


revoke select on department from Amit, Satoshi; 
revoke update (budget) on department from Amit, Satoshi; 


如 果 被 收回 权限 的 用 户 已 经 把 权限 授予 了 其 他 用 户 ， 权 限 的 收回 会 更 加 复杂 。 我 们 将 在 4.6.5 节 
回 到 这 个 问题 。 


日 
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4.6.2 角色 

考虑 在 一 个 大 学 里 不 同人 所 具有 的 真实 世界 角色 。 每 个 教师 必须 在 同一 组 关系 上 具有 同 种 类 型 的 
权限 。 无 论 何 时 指定 一 位 新 的 教师 ， 她 都 必须 被 单独 授予 所 有 这 些 权限 。 

一 种 更 好 的 方式 是 指明 每 个 教师 应 该 被 授予 的 权限 ， 并 单独 标示 出 哪些 数据 库 用 户 是 教师 。 系 统 
可 以 利用 这 两 条 信息 来 确定 每 位 教师 的 权限 。 当 雇佣 了 一 位 新 的 教师 时 ， 必 须 给 他 分 配 一 个 用 户 标识 
符 ， 并 且 必 须 将 他 标示 为 一 位 教师 ， 而 不 需要 重新 单独 授予 教师 权限 。 

角色 (role) 的 概念 适用 于 此 观念 。 在 数据 库 中 建立 一 个 角色 集 ， 可 以 给 角色 授予 权限 ， 就 和 给 每 
个 用 户 授权 的 方式 完全 一 样 。 每 个 数据 库 用 户 被 授予 一 组 他 有 权 扮 演 的 角色 (也 可 能 是 空 的 ) 。 

在 我 们 的 大 学 数据 库 里 ， 角 色 的 例子 可 以 包括 instructor, teaching _ assistant, student, dean 和 
department_chair , 

另 一 个 不 是 很 合适 的 方法 是 建立 一 个 instructor 用 户 标识 ， 人 允许 每 位 教师 用 instructor 用 户 标识 来 连 
接 数据 库 。 该 方式 的 问题 是 它 不 可 能 鉴别 出 到 底 是 哪 位 教师 执行 了 数据 库 更 新 ， 从 而 导致 安全 隐患 ， 
使 用 角色 的 好 处 是 需要 用 户 用 他 们 自己 的 用 户 标识 来 连接 数据 库 。 

任何 可 以 授予 给 用 户 的 权限 都 可 以 授予 给 角色 。 给 用 户 授 子 角 色 就 跟 给 用 户 授 权 一 样 。 

在 SQL 中 创建 角色 如 下 所 示 : 


create role instructor; 


然后 角色 就 可 以 像 用 户 那样 被 授予 权限 ， 如 在 这 样 的 语句 中 : 


grant select on takes 
to instructor; 


角色 可 以 授予 给 用 户 ， 也 可 以 授予 给 其 他 角色 ， 如 这 样 的 语句 : 


grant dean to Amit; 
create role dean; 

grant instructor to dean; 
grant dean to Satoshi; 


因此 ,一 个 用 户 或 一 个 角色 的 权限 包括 : 

e 所 有 直接 授予 用 户 / 角 色 的 权限 。 

e 所 有 授予 给 用 户 / 角 色 所 拥有 角色 的 权限 。 

注意 可 能 存在 着 一 个 角色 链 ; 例如 ， 角色 teaching_assistant 可 能 被 授予 所 有 的 instructor, PER, f 
色 instructor 被 授予 所 有 的 dean。 这 样 ， 角 色 dean 就 继承 了 所 有 被 授予 给 角色 instructor 和 teaching _ 
assistant 的 权限 ， 还 包括 直接 赋 给 dean 的 权限 。 

当 一 个 用 户 登录 到 数据 库 系 统 时 ， 在 此 会 话 中 用 户 执行 的 动作 拥有 所 有 直接 授予 该 用 户 的 权限 ， 
以 及 所 有 ( 直接 地 或 通过 其 他 角色 间接 地 ) 授 予 该 用 户 所 拥有 角色 的 权限 。 这 样 ， 如 果 一 个 用 户 Amit 被 
授予 了 角色 dean, HP Amit 就 拥有 所 有 直接 授予 给 Amit 的 权限 ， 以 及 授予 给 dean 的 权限 ， 再 加 上 授 
予 给 instructor 和 teaching_assistant 的 权限 ， 如 果 像 上 面 那样 ， 这 些 角 色 被 ( 直接 地 或 间接 地 ) 授 予 给 角色 
dean 的 话 。 

值得 注意 的 是 ， 基 于 角色 的 授权 概念 并 没有 在 SQL 中 指定 ， 但 在 很 多 的 共享 应 用 中 ， 基 于 角色 的 
授权 被 广泛 应 用 于 存 取 控 制 。 
4.6.3 视图 的 授权 

在 我 们 的 大 学 例子 中 ， 考 虑 有 一 位 工作 人 员 ， 他 需要 知道 一 个 给 定 系 (比如 Geology A) 里 所 有 员 
工 的 工资 。 该 工作 人 员 无 权 看 到 其 他 系 中 员工 的 相关 信息 。 因 此 ， 该 工作 人 员 对 instructor 关系 的 直接 
访问 必须 被 禁止 。 但 是 ， 如 果 他 要 访问 Geology 系 的 信息 ， 就 必须 得 到 在 一 个 视图 上 的 访问 权限 ， 我 们 
称 该 视图 为 geo_instructor, CA Hh R F Geology 系 的 那些 instructor 元 组 构成 。 该 视图 可 以 用 SQL 定义 
如 下 : 
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create view geo_instructor as 
( select” 
from instructor 
where dept_name = * Geology’ ) ; 


假设 该 工作 人 员 提 出 如 下 SQL 查询 : 


select ` 
from geo_instructor ; 


显然 ， 该 工作 人 员 有 权 看 到 此 查询 的 结果 。 但 是 ， 当 查询 处 理 器 将 此 查询 转换 为 数据 库 中 实际 关系 上 
的 查询 时 ， 它 产生 了 一 个 在 instructor 上 的 查询 。 这 样 ， 系 统 必须 在 开始 查询 处 理 以 前 ， 就 检查 该 工作 
人 员 查 询 的 权限 。 

创建 视图 的 用 户 不 需要 获得 该 视图 上 的 所 有 权限 。 他 得 到 的 那些 权限 不 会 为 他 提供 超越 他 已 有 权 
限 的 额外 授权 。 例 如 ， 如 果 一 个 创建 视图 的 用 户 在 用 来 定义 视图 的 关系 上 没有 update 权限 的 话 ， 那 么 
他 不 能 得 到 视图 上 的 update 权限 。 如 果 用 户 创 建 一 个 视图 ， 而 此 用 户 在 该 视图 上 不 能 获得 任何 权限 ， 
系统 会 拒绝 这 样 的 视图 创建 请 求 。 在 我 们 的 geo_instructor 视图 例子 中 ,视图 的 创建 者 必须 在 instructor 
关系 上 具有 select 权限 。 

正如 我 们 将 在 5. 2 节 看 到 的 那样 ，SQL 支持 创建 函数 和 过 程 ， 在 函数 和 过 程 中 可 以 包括 查询 与 更 
新 。 在 函数 或 过 程 上 可 以 授予 execute 权限 ， 以 允许 用 户 执 行 该 函数 或 过 程 。 在 默认 情况 下 ， 和 视图 类 
似 ， 函 数 和 过 程 具 有 其 创建 者 所 拥有 的 所 有 权限 。 在 效果 上 ， 该 函数 或 过 程 的 运行 就 像 其 被 创建 者 调 
用 了 那样 。 

尽管 此 行为 在 很 多 情况 下 是 恰当 的 ， 但 是 它 并 不 总 是 恰当 的 。 从 SQL:2003 开始 ， 如 果 函 数 定义 有 
一 个 额外 的 sql security invoker 子 句 ， 那 么 它 就 在 调用 该 函数 的 用 户 的 权限 下 执行 ， 而 不 是 在 函数 定 
义 者 的 权限 下 执行 。 这 就 允许 创建 的 函数 库 能 够 在 与 调用 者 相同 的 权限 下 运行 。 
4.6.4 模式 的 授权 

SQL 标准 为 数据 库 模 式 指 定 了 一 种 基本 的 授权 机 制 : 只 有 模式 的 拥有 者 才能 够 执行 对 模式 的 任何 
修改 ， 诸 如 创建 或 删除 关系 ， 增 加 或 删除 关系 的 属性 ， 以 及 增加 或 删除 索引 。 

然而 ，SQL 提供 了 一 种 references 权限 ， 允 许 用 户 在 创建 关系 时 声明 外 码 。SQL 的 references 权限 
可 以 与 update 权限 类 似 的 方式 授予 到 特定 属性 上 。 下 面 的 grant 语句 允许 用 户 Mariano 创建 这 样 的 关 
系 ， 它 能 够 参照 department 关系 的 码 dept_name: 

grant references (dept_name) on department to Mariano; 

初 看 起 来 ， 似 乎 没有 理由 不 允许 用 户 创建 参照 了 其 他 关系 的 外 码 。 但 是 ， 回 想 一 下 外 码 约束 限制 
了 被 参照 关系 上 的 删除 和 更 新 操作 。 假 定 Mariano 在 关系 7 中 创建 了 一 个 外 码 ， 它 参照 department 关系 
的 dept_name 属性 ， 然 后 在 r 中 插入 一 条 属于 Geology 系 的 元 组 。 那 么 就 再 也 不 可 能 从 department 关系 中 
将 Geology 系 删除 ， 除 非 同 时 也 修改 关系 r。 这 样 ，Mariano 定义 的 外 码 限制 了 其 他 用 户 将 来 的 行为 ; 因 
此 ， 需 要 有 references 权限 。 

继续 使 用 department 关系 的 例子 ， 如 果 要 创建 关系 + 上 的 check 约束， 并且 该 约束 有 参照 
department 的 子 查询 ， 那 么 还 需要 有 department 上 的 references 权限 。 其 原因 与 外 码 约束 的 情况 类 似 ， 因 
为 参照 了 一 个 关系 的 check 约束 限制 了 对 该 关系 可 能 的 更 新 。 
4. 6.5 权限 的 转移 

获得 了 某 些 形式 授权 的 用 户 可 能 被 允许 将 此 授权 传递 给 其 他 用 户 。 在 默认 方式 下 ， 被 授予 权限 的 
用 户 / 角 色 无 权 把 得 到 的 权限 再 授予 给 另外 的 用 户 / 角 色 。 如 果 我 们 在 授权 时 允许 接受 者 把 得 到 的 权限 
再 传递 给 其 他 用 户 ， 我 们 可 以 在 相应 的 grant 命令 后 面 附 加 with grant option 子 句 。 例 如 ， 如 果 我 们 希 
望 授予 Amit 在 department 上 的 select 权限 ， 并 且 人 允许 Amit 将 该 权限 授予 给 其 他 用 户 ， 我 们 可 以 写 : 

grant select on department to Amit with grant option; 

一 个 对 象 ( 关 系 / 视 图 /角色 ) 的 创建 者 拥有 该 对 象 上 的 所 有 权限 ,包括 给 其 他 用 户 授 权 的 权限 。 

作为 一 个 例子 ， 考 虑 大 学 数据 库 中 teaches 关系 上 更 新 权限 的 授予 。 假设 最 初 数 据 库 管理 员 将 
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teaches 上 的 更 新 权限 授 给 用 户 VU, U, 和 Us， 他 们 接 下 来 义 可 以 将 这 一 授权 传递 给 其 他 用 户 。 指 定 权 
限 从 一 个 用 户 到 男 一 个 用 户 的 传递 可 以 表示 为 授权 图 ( authorization graph) 。 该 图 中 的 顶点 是 用 户 





考虑 teaches 上 更 新 权限 所 对 应 的 授权 图 。 如 果 用 户 以 ae 
将 teaches 上 的 更 新 权限 授 给 U, WEHHAH U, >U. 图 ZO N 
的 根 是 数据 库 管理 员 。 在 图 4-10 所 示 的 示例 图 中 ， 注 意 U, ra 
和 U, 都 给 用 户 Us 授权 了 ; 而 U, 只 从 U, 处 获得 了 授权 。 A oe ae 

用 户 具有 权限 的 充分 必要 条 件 是 : 当 且 仅 当 存 在 从 授权 a l 
图 的 根 ( 即 代表 数据 库 管理 员 的 顶点 ) 到 代表 该 用 户 顶 点 的 N 
路 径 。 NY 
4.6.6 ”权限 的 收回 < 

图 4-10 权限 授予 图 (Ui, U, =, U; 


假设 数据 库 管 理 员 决定 收回 用 户 U, 的 授权 。 由 于 U, 从 
U, 处 获得 过 授权 ， 因 此 其 权限 也 应 该 被 收回 。 可 是 ，U; 既 E DBA 代表 数据 库 管理 员 ) 

从 U, 处 又 从 U, 处 获得 过 授权 。 由 于 数据 库 管理 员 没有 从 U, 处 收回 teaches 上 的 更 新 权限 ，U; 继续 拥 
有 teaches 上 的 更 新 权限 。 如 果 U, 最 终 从 Us 处 收回 授权 ， 则 U, 失去 权限 。 

一 对 狐 猫 的 用 户 可 能 企图 通过 相互 授权 来 破坏 权限 收回 规则 。 例 如 ， 如 果 U, 最 初 由 数据 库 管理 员 
授予 了 一 种 权限 ，U, 进而 把 此 权限 授予 给 U, (BR U, 现在 把 此 权限 授 回 给 U。 如 果 数 据 库 管 理 员 从 
U, 收回 权限 ， 看 起 来 好 像 U, 保留 了 通过 ,获得 的 授权 。 然 而 ， 注 意 一 旦 管理 员 从 U, 收回 权限 ， 在 
授权 图 中 就 不 存在 从 根 到 U, 或 U, 的 路 径 了 。 这 样 ，SQL 保证 从 这 两 个 用 户 那里 都 收回 了 权限 。 

正如 我 们 刚才 看 到 的 那样 ， 从 一 个 用 户 /角色 那里 收回 权限 可 能 导致 其 他 用 户 /角色 也 失去 该 权限 
这 一 行为 称 作 级 联 收回 。 在 大 多 数 的 数据 库 系统 中 ， 级 联 是 默认 行为 。 然 而 ，revoke 语句 可 以 申明 
restrict 来 防止 级 联 收 回 : 


revoke select on department from Amit, Satoshi restrict; 


这 种 情况 下 ， 如 果 存 在 任何 级 联 收回 ， 系 统 就 返回 一 个 错误 ， 并且 不 执行 收 权 动 作 。 

可 以 用 关键 字 cascade 来 替换 restrict， 以 表示 需要 级 联 收回 ; 然而 ，cascade 可 以 省 略 ， 就 像 我 们 
前 述 例子 中 的 那样 ， 因 为 它 是 默认 行为 。 

下 面 的 revoke 语句 仅仅 收回 grant option ， 而 并 不 是 真正 收回 select 权限 : 

revoke grant option for select on department from Amit; 
注意 一 些 数 据 库 实现 不 支持 上 述 语 法 ; 它们 采用 另 一 种 方式 : 收回 权限 本 身 ， 然 后 不 带 grant option 重 
新 授权 。 

级 联 收回 在 许多 情况 下 是 不 合适 的 。 假 定 Satoshi 具有 dean 角色 ， 他 将 instructor 授 给 Amit， 后 来 
dean 角色 从 Satoshi 收回 (也 许 由 于 Satoshi 离开 了 大 学 ); Amit 继续 被 雇佣 为 教 职 工 ， 并 且 还 应 该 保持 
instructor 和 角色。 

为 了 处 理 以 上 情况 ，SQL 允许 权限 由 一 个 角色 授予 ， 而 不 是 由 用 户 来 授予 。SQL 有 一 个 与 会 话 所 
关联 的 当前 角色 的 概念 。 默 认 情 况 下 ， 一 个 会 话 所 关联 的 当前 角色 是 空 的 ( 某 些 特殊 情况 除外 )。 一 个 
会 话 所 关联 的 当前 角色 可 以 通过 执行 set role role_name 来 设置 。 指 定 的 角色 必须 已 经 授予 给 用 户 ， 否 
则 set role 语句 执行 失败 。 

如 果 要 在 授予 权限 时 将 授权 人 设置 为 一 个 会 话 所 关联 的 当前 角色 ， 并且 当前 角色 不 为 空 的 话 ， 我 
们 可 以 在 授权 语句 后 面 加 上 

granted by current_role 
FA, 

假设 将 角色 instructor( 或 其 他 权限 ) 授 给 Amit 是 用 granted by current_role 子 句 实现 的 ， 当 前 角色 
被 设置 为 dean 而 不 是 授权 人 ( 用户 Satoshi) ， 那 么 ， 从 Satoshi 处 收回 角色 /权限 (包括 角色 dean) 就 不 会 
导致 收回 以 角色 dean 作为 授权 人 所 授予 的 权限 ， 即 使 Satoshi 是 执行 该 授权 的 用 户 ; 这 样 ， 即 使 在 
Satoshi 的 权限 被 收回 后 ，Amit 仍然 能 够 保持 instructor 角色 。 


4.7 


Be 
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© SQL 支持 包括 内 连接 、 外 连接 在 内 的 几 种 连接 类 型 ， 以 及 几 种 形式 的 连接 条 件 。 

。 视图 关系 可 以 定义 为 包含 查询 结果 的 关系 。 视 图 是 有 用 的 ， 它 可 以 隐藏 不 需要 的 信息 ， 可 以 把 信息 
从 多 个 关系 收集 到 一 个 单一 的 视图 中 。 

。 事务 是 一 个 查询 和 更 新 的 序列 ， 它 们 共同 执行 某 项 任务 。 事 务 可 以 被 提交 或 回 滚 。 当 一 个 事务 被 回 
滚 ， 该 事务 执行 的 所 有 更 新 所 带 来 的 影响 将 被 撤销 。 


区 分 。 
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完整 性 约束 保证 授权 用 户 对 数据 库 所 做 的 改变 不 会 导致 数据 一 致 性 的 破坏 。 

参照 完整 性 约束 保证 出 现在 一 个 关系 的 给 定 属性 集 上 的 值 同样 出 现在 另 一 个 关系 的 特定 属性 集 上 。 
域 约束 指定 了 在 一 个 属性 上 可 能 取 值 的 集合 。 这 种 约束 也 可 以 禁止 在 特定 属性 上 使 用 空 值 。 

断言 是 描述 性 表达 式 ， 它 指定 了 我 们 要 求 总 是 为 真 的 谓词 。 

SQL 数据 定义 语言 提供 对 定义 诸如 date 和 time 那样 的 固有 域 类 型 以 及 用 户 定 义 域 类 型 的 支持 。 
通过 SQL 授权 机 制 ， 可 以 按照 在 数据 库 中 不 同 数据 值 上 数据 库 用户 所 允许 的 访问 类 型 对 他 们 进行 


获得 了 某 种 形式 授权 的 用 户 可 能 允许 将 此 授权 传递 给 其 他 用 户 。 但 是 ， 对 于 权限 怎样 在 用 户 间 传 递 
我 们 必须 很 小 心 ， 以 保证 这 样 的 权限 在 将 来 的 某 个 时 候 可 以 被 收回 。 


。 角色 有 助 于 根据 用 户 在 组 织 机 构 中 所 扮演 的 角色 ， 把 一 组 权限 分 配给 用 户 。 
术语 回顾 


。 连接 类 型 

口 内 连接 和 外 连接 

O 左 外 连接 、 右 外 连接 和 

全 外 连接 

口 natural 连接 条 件 、using 
连接 条 件 和 on 连接 条 件 

视图 定义 

物化 视图 

视图 更 新 

事务 

提交 

回 滚 

口 原子 事务 

© 完整 性 约束 

o WAR 























实践 习题 


4.1 


4.2 


用 SQL 写 出 下 面 的 查询 : 


唯一 性 约束 
check 子 句 
参照 完整 性 
口 级 联 删除 
口 级 联 更 新 
断言 

日 期 和 时 间 类 型 
默认 值 

索引 

大 对 象 

用 户 定 义 类 型 
。 域 

。 目录 

。 模式 

。 授权 





权限 

选择 

站 插入 

口 更 新 
口 所 有 权限 
口 授予 权限 
收回 权限 
授予 权限 的 权限 
口 grant option 
角色 

视图 授权 
执行 授权 
调用 者 权限 
行 级 授权 



































a 显示 所 有 教师 的 列表 ， 列 出 他 们 的 ID 、 姓 名 以 及 所 讲授 课程 段 的 编号 。 对 于 没有 讲授 任何 课程 段 的 
教师 ， 确 保 将 课程 段 编号 显示 为 0。 在 你 的 查询 中 应 该 使 用 外 连接 ， 不 能 使 用 标量 子 查询 。 


S 


. 使 用 标量 子 查 询 ， 不 使 用 外 连接 写 出 上 述 查 询 。 


c 显示 2010 年 春季 开设 的 所 有 课程 的 列表 ， 包 括 讲授 课程 段 的 教师 的 姓名 。 如 果 一 个 课程 段 有 不 止 
一 位 教师 讲授 ， 那 么 有 多 少 位 教师 ， 此 课程 段 在 结果 中 就 出 现 多 少 次 。 如 果 一 个 课程 段 没 有 任何 教 


师 ， 它 也 要 出 现在 结果 中 ， 相 应 的 教师 名 置 为 “一 ”。 


d 显示 所 有 系 的 列表 ， 包 括 每 个 系 中 教师 的 总 数 ， 不 能 使 用 标量 子 查询 。 确 保 正 确 处 理 没 有 教师 


的 系 。 


不 使 用 SQL 外 连接 运算 也 可 以 在 SQL 中 计算 外 连接 表达 式 。 为 了 阐明 这 个 事实 ， 不 使 用 外 连接 表达 式 


重 写 下 面 每 个 SQL 查询 : 
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151 4.3 
152 


4.4 


4.5 


[153 | 4.6 
4.7 


4.8 


4.9 


a. select” from student natural left outer join takes 

b. select" from student natural full outer join takes 

假设 有 三 个 关系 (A, B), s(B, C) 和 4(B, D), 其 中 所 有 属性 声明 为 非 空 。 考 虑 表达 式 : 

e r natural left outer join (s natural left outer join 1) 

e (r natural left outer join s) natural left outer join ¢ 

a 给 出 关系 r-、s 和 + 的 实例 ， 使 得 在 第 二 个 表达 式 的 结果 中 ， 属 性 C 有 一 个 空 值 但 属性 D 有 非 空 值 . 

b. 在 第 一 个 表达 式 的 结果 中 ， 上 述 模式 中 的 C Aa DAES AAT AES? 解释 原因 。 

测试 SQL 查询 (testing SQL query): 为 了 测试 一 个 用 文字 表达 的 查询 能 否 正确 地 用 SQL 写 出 ， 通 常 

SQL 查询 会 在 多 个 测试 数据 库 上 执行 ， 并 用 人 工 来 检测 在 每 个 测试 数据 库 上 SQL 查询 的 结果 是 否 与 用 

文字 表达 的 意图 相 匹 配 。 

a 在 3.3.3 节 我 们 见 过 一 个 错误 的 SQL 查询 ， 它 希望 找 出 每 位 教师 讲授 了 哪些 课程 ; 该 查询 计算 
instructor , teaches 和 course 的 自然 连接 ， 结果 是 无 意 地 造成 了 让 instructor 和 course 的 dept_name 属性 
取 值 相等 。 给 出 一 个 数据 集 样 例 ， 能 有 助 于 发 现 这 种 特别 的 错误 。 

b. 在 创建 测试 数据 库 时 ， 对 每 个 外 码 来 说 ， 在 被 参照 关系 中 创建 与 参照 关系 中 任何 元 组 都 不 匹配 的 元 
组 是 很 重要 的 。 请 用 大 学 数据 库 上 的 一 个 查询 样 例 来 解释 原因 。 

c. 在 创建 测试 数据 库 时 ， 倘 若 外 码 属性 可 空 的 话 ， 在 外 码 属 性 上 创建 具有 空 值 的 元 组 是 很 重要 的 ( SQL 
人 允许 在 外 码 属 性 上 取 空 值 ， 只 要 它们 不 是 主 码 的 一 部 分 ， 并 且 没 有 被 声明 为 not null ) 。 请 用 大 学 数 
据 库 上 的 一 个 查询 样 例 来 解释 原因 。 

提示 : 使 用 来 自习 题 4. 1 中 的 查询 。 

基于 习题 3. 2 中 的 查询 ， 指 出 如 何 定义 视图 student_grades (万 ，CP4) ， 它 给 出 了 每 个 学 生 的 等 级 分 值 

的 平均 值 ; 回忆 一 下 ， 我 们 用 关系 grade_points( grade, points) 来 把 用 字母 表示 的 成 绩 等 级 转换 为 用 数 

字 表 示 的 得 分 。 你 的 视图 定义 要 确保 能 够 正确 处 理 在 takes 关系 的 grade 属性 上 取 null 值 的 情况 

完成 图 4-8 中 的 大 学 数据 库 的 SQL DDL 定义 以 包括 student, takes, advisor 和 prereg 关系 。 

考虑 图 4-11 所 示 的 关系 数据 库 。 给 出 这 个 数据 库 的 SQL DDL 定义 。 指 出 应 有 的 参照 完整 性 约束 ， 并 

把 它们 包括 在 DDL 定义 中 。 





employee( employee_name, street, city) | 
works( employee_name, company_name, salary) 
company ( company_name, city) | 
manages( employee_name, manager_name ) 





图 4-11 习题 4.7 和 习题 4. 12 的 雇员 数据 库 


正如 在 4.4.7 节 所 讨论 的 ， 我 们 希望 能 够 满足 约束 ”每 位 教师 不 能 在 同一 个 学 期 的 同一 个 时 间 段 在 两 个 
不 同 的 教室 授课 ”。 
a 写 出 一 个 SQL 查询 ， 它 返回 违反 此 约束 的 所 有 (instructor，, section) 244. 
b. 写 出 一 个 SQL 断言 来 强制 实现 此 约束 (正如 在 4.4.7 节 所 讨论 的 那样 ， 当 代 的 数据 库 系统 不 支持 这 
样 的 断言 ， 尽 管 它们 是 SQL 标准 的 一 部 分 ) 。 
SQL 人 允许 外 码 依赖 指向 同一 个 关系 ， 如 下 面 的 例子 所 示 : 
create table manager 
(employee_name var char(20) not null 
manager_name var char(20) not null, 
primary key employee_name , 
foreign key (manager_name) references manager 
on delete cascade ) 


这 里 employee_name 是 manager 表 的 码 ， 意 味 着 每 个 雇员 最 多 只 有 一 个 经 理 。 外 码 子 名 要 求 每 个 经 
理 都 是 一 个 雇员 。 请 准确 解释 当 manager 关系 中 一 个 元 组 被 删除 时 会 发 生 什么 情况 。 


4.10 SQL 提供 一 个 称 为 coalesce 的 n 维 数组 运算 ， 其 定义 如 下 : coalesce(A,, A, =, 4,) 返 回 序列 


A, ? Az, wy A, 中 第 一 个 非 空 值 Ai, 如 果 所 有 的 A, > A,, gai) A, 全 为 null, 则 返回 null 
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假设 a 和 4b 是 模式 分 别 为 4(name, address, title) Fl B( name, address, salary) 的 关系 。 如 何 用 带 on 
条 件 和 coalesce 运算 的 全 外 连接 (full outer-join ) 运算 来 表达 a natural full outer join bp。 要 保证 结 
果 关 系 中 不 包含 属性 name 和 address 的 两 个 副本 ， 并 且 即 使 cc 和 4 中 的 某 些 元 组 在 属性 name 和 
address 上 取 空 值 的 情况 下 ， 所 给 出 的 解决 方案 仍然 是 正确 的 。 

4.11 一 些 研究 者 提出 带 标记 的 (marked ) 空 值 的 概念 。 带 标记 空 值 上 , SEARS, (AW i Xj, 
那么 1; 关 1,。 带 标记 空 值 的 一 个 应 用 是 允许 通过 视图 进行 特定 的 更 新 。 考 虑 视图 instructor_info 
(4.2 节 )， 如 何 利用 带 标记 空 值 来 允许 通过 instructor _ info 插入 元 组 (99999,“ Johnson” , 
“Taylor” ). 


4.12 ”对 于 图 4-11 中 的 数据 库 ， 写 出 一 个 查询 来 找到 那些 没有 经 理 的 雇员 。 注 意 一 个 雇员 可 能 只 是 没有 列 
出 其 经 理 ， 或 者 可 能 有 null 经 理 。 使 用 外 连接 书写 查询 ， 然 后 不 用 外 连接 再 重 写 查询 。 
4.13 在 什么 情况 下 ,查询 


select” 
from student natural full outer join takes natural full outer join course 


将 包含 在 属性 title 上 取 空 值 的 元 组 ? 

4.14 给 定 学 生 每 年 修 到 的 学 分 总 数 ， 如 何 定义 视图 tot_credits (year, num_credits) 。 

4.15 给 出 如 何 用 case 运算 表达 习题 4. 10 中 的 coalesce 运算 。 

4.16 ”如 本 章 定义 的 参照 完整 性 约束 正好 涉及 两 个 关系 。 考 虑 包括 如 图 4-12 所 示 关 系 的 数据 库 。 假 设 我 们 
希望 要 求 每 个 出 现在 address 中 的 名 字 必 须 出 现在 salaried_worker 或 者 hourly_worker 中 ， 但 不 一 定 要 求 
在 两 者 中 同时 出 现 。 
a 给 出 表达 这 种 约束 的 语法 。 
b. 讨论 为 了 使 这 种 形式 的 约束 生效 ， 系 统 必须 采取 什么 行动 。 





salaried_worker (name, office, phone, salary) | 
hourly_worker ( name, hourly_wage ) 
address (name, street, city) 








图 4-12 “习题 4. 16 的 雇员 数据 库 


4.17 当 一 个 经 理 如 Satoshi 授予 权限 的 时 候 ， 授 权 应 当 由 经 理 角色 完成 ， 而 不 是 由 用 户 Satoshi 完成 。 解 释 
其 原因 。 154 
4.18 假定 用 户 4 拥有 关系 上 上 的 所 有 权限 ， 该 用 户 把 关系 "上 的 查询 权限 以 及 授予 该 权限 的 权限 授予 给 | 155 
pubiic。 假 定 用 户 刀 将 > 上 的 查询 权限 授予 A。 这 是 否 会 导致 授权 图 中 的 环 ? 解释 原因 。 
4. 19 将 每 个 关系 存放 在 一 个 单独 的 操作 系统 文件 中 的 数据 库 系 统 可 能 使 用 操作 系统 的 授权 机 制 ， 而 不 是 自 
己 定 义 一 种 专门 的 机 制 。 请 论述 这 种 方法 的 一 个 优点 和 一 个 缺点 。 


文献 注解 


对 于 SQL 参考 资料 请 参考 第 3 章 的 文献 注解 。 
SQL 用 于 决定 视图 更 新 能 力 的 规则 ， 以 及 更 新 操作 如 何 影 响 底层 的 数据 库 关系 ， 都 定义 在 SQL:1999 标 
MEt, Melton 和 Simon[ 2001 ] 中 对 此 进行 了 总 结 。 [156 | 
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在 第 3 章 和 第 4 章 我 们 详细 地 介绍 了 SQL 的 基本 结构 。 在 本 章 中 我 们 将 介绍 SQL 的 一 些 高 级 特性 。 “本 
章 首先 介绍 如 何 使 用 通用 程序 设计 语言 来 访问 SQL， 这 对 于 构建 用 数据 库存 取 数 据 的 应 用 有 重要 意义 。 
我 们 将 介绍 两 种 在 数据 库 中 执行 程序 代码 的 方法 : 一 种 是 通过 扩展 SQL 语言 来 支持 程序 的 操作 ; 男 一 
种 是 在 数据 库 中 执行 程序 语言 中 定义 的 函数 。 接 下 来 本 章 将 介绍 触发 器 ， 用 于 说 明 当 特定 事件 ( 例如 在 
某 个 表 上 进行 元 组 插入 、 删 除 或 更 新 操作 ) 发 生 时 自动 执行 的 操作 。 然 后 本 章 将 讨论 递归 查询 和 SQL 
支持 的 高 级 聚集 特性 。 最 后 ， 我 们 将 对 联机 分 析 处 理 (OLAP) 系统 加 以 介绍 ， 它 可 用 于 海量 数据 的 交互 
分 析 。 


5.1 使 用 程序 设计 语言 访问 数据 库 


SQL 提供 了 一 种 强大 的 声明 性 查询 语言 。 实 现 相 同 的 查询 ， 用 SQL 写 查询 语句 比 用 通用 程序 设计 
语言 要 简单 得 多 。 然 而 ， 数 据 库 程 序 员 必须 能 够 使 用 通用 程序 设计 语言 ， 原 因 至 少 有 以 下 两 点 : 
© 因为 SQL 没有 提供 通用 程序 设计 语言 那样 的 表达 能 力 ， 所 以 SQL 并 不 能 表达 所 有 查询 要 求 。 也 
就 是 说 ， 有 可 能 存在 这 样 的 查询 ， 可 以 用 C、yJava 或 Cobol 编写 ， 而 用 SQL 做 不 到 。 要 写 这 样 
的 查询 ， 我 们 可 以 将 SQL 艇 入 到 一 种 更 强大 的 语言 中 。 

。 非 声明 性 的 动作 (例如 打印 一 份 报 告 、 和 用 户 交 互 ， 或 者 把 一 次 查询 的 结果 送 到 一 个 图 形 用 户 
界面 中 ) 都 不 能 用 SQL 实现 。 一 个 应 用 程序 通常 包括 很 多 部 分 ， 查 询 或 更 新 数据 只 是 其 中 之 一 ， 
而 其 他 部 分 则 用 通用 程序 设计 语言 实现 。 对 于 集成 应 用 来 说 ， 必 须 用 某 种 方法 把 SQL 与 通用 编 
程 语言 结合 起 来 。 

可 以 通过 以 下 两 种 方法 从 通用 编程 语言 中 访问 SQL: 

。 动态 SQL: 通用 程序 设计 语言 可 以 通过 函数 (对 于 过 程式 语言 ) 或 者 方法 (对 于 面向 对 象 的 语言 ) 
来 连接 数据 库 服 务 器 并 与 之 交互 。 利 用 动态 SQL 可 以 在 运行 时 以 字符 串 形式 构建 SQL 查询 ， 提 
交 查 询 ， 然 后 把 结果 存 人 程序 变量 中 ， 每 次 一 个 元 组 。 动 态 SQL 的 SQL 组 件 允 许 程序 在 运行 时 
构建 和 提交 SQL 查询 。 

在 这 一 章 中 ,我们 将 介绍 两 种 用 于 连接 到 SQL 数据 库 并 执行 查询 和 更 新 的 标准 。 一 种 是 

Java 语言 的 应 用 程序 接口 JDBC(5. 1. 1 节 )。 另 一 种 是 ODBC(5.1.2 节 )， 它 最 初 是 为 C 语言 开 
发 的 ， 后 来 扩展 到 其 他 语言 如 C++ 、C# 和 Visual Basic, 
AI SQL: 与 动态 SQL WM, HATE SQL 提供 了 另外 一 种 使 程序 与 数据 库 服 务 器 交互 的 手 
Be, SRI, BASE SQL 语句 必须 在 编译 时 全 部 确定 ， 并 交 给 预 处 理 器 。 预 处 理 程序 提交 SQL 语 
句 到 数据 库 系统 进行 预 编 译 和 优化 ， 然 后 它 把 应 用 程序 中 的 SQL 语句 替换 成 相应 的 代码 和 顶 
数 ， 最 后 调用 程序 语言 的 编译 器 进行 编译 。5. 1. 3 AR Ast SQL 的 内 容 。 

把 SQL 与 通用 程序 语言 相 结 合 的 主要 挑战 是 : 这 些 语言 处 理 数据 的 方式 互 不 兼容 。 在 SQL 中 ， 数 
据 的 主要 类 型 是 关系 。SQL 语句 在 关系 上 进行 操作 ， 并 返回 关系 作为 结果 。 程 序 设计 语言 通常 一 次 操 





O ”注意 关于 章节 的 先后 顺序 : 数据 库 设计 (第 7 章 和 第 8 章 ) 可 以 脱离 本 章 独 立 学 习 。 完 全 可 以 先 学 习 数 据 库 设计 ， 
再 读本 章 内 容 。 然 而 ， 对 于 强调 编程 能 力 的 课程 而 言 ， 在 学 习 了 5. 1 节 之 后 可 以 做 更 多 的 实验 练习 ， 所 以 我 们 建 
议 在 学 习 数 据 库 设计 之 前 先 掌握 这 部 分 的 内 容 。 
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作 一 个 变量 ， 这 些 变量 大 致 相当 于 关系 中 一 个 元 组 的 一 个 属性 的 值 。 因 此 ， 为 了 在 同一 应 用 中 整合 
两 类 语言 ， 必 须 提 供 一 种 转换 机 制 ， 使 得 程序 语言 可 以 处 理 查询 的 返回 结果 。 


5 


5.1.1 JDBC 
JDBC 标准 定义 了 Java 程序 连接 数据 库 服务 器 的 应 用 程序 接口 (Application Program Interface, API) 
(JDBC 原来 是 Java 数据 库 连 接 (Java Database Connectivity) 的 缩写 ， 但 其 全 称 现在 已 经 不 用 了 ) [157] 


图 5-1 给 出 了 一 个 利用 JDBC 接口 的 Java 程序 的 例子 。 它 向 我 们 演示 了 如 何 打开 数据 库 连 接 ， 执 行 | 158 | 
语句 ， 处 理 结果 ， 最 后 关闭 连接 。 我 们 将 在 本 节 详 细 讨 论 这 个 实例 。 注 意 ，Java 程序 必须 引用 java. sql. 
* ， 它 包含 了 JDBC 所 提供 功能 的 接口 定义 。 


public static void JDBCexample(String userid, String passwd) 








try 
{ 
Class.forName (“oracle.jdbc.driver.OracleDriver"): 
Connection conn = DriverManager.getConnection( 
"jdbc:oracle:thin:@db.yale.edu:1521:univdb", 
userid, passwd); 
Statement stmt = conn.createStatement(); 
try { 
stmt.executeUpdate( 
“insert into instructor values(’77987’, 'Kim’, ’Physics’, 98000)"); 
} catch (SQLException sqle) 





System.out.printin("Could not insert tuple. " + sqle); 


ResultSet rset = stmt.executeQuery( 
“select deptname, avg (salary) "+ 
"from instructor "+ 
" group by deptname"); 
while (rset.next() { 
System.out.printin(rset.getString("dept name") + " "+ 
rset.getFloat(2)); 


stmt.close(); 
conn.close(); 


catch (Exception sqle) 


{ 


System.out.printin("Exception : " + sqle); 





U- 





图 5-1 JDBC 代码 示例 


5.1.1.1 连接 到 数据 库 
要 在 Java 程序 中 访问 数据 库 ， 首 先 要 打开 一 个 数据 库 连 接 。 这 一 步 需要 选择 要 使 用 哪个 数据 库 ， 
例如 ， 可 以 是 你 的 机 器 上 的 一 个 Oracle 实例 ， 也 可 以 是 运行 在 另 一 台 机 器 上 的 一 个 PostgreSQL 数据 库 。 
只 有 在 打开 数据 库 连 接 以 后 ，Java 程序 才能 执行 SQL 语句 。 159 
可 以 通过 调用 DriverManager 类 (在 java. sql 包 中 ) 的 getConnection 方法 来 打开 一 个 数据 库 连 接 。 该 
方法 有 三 个 参数 。° 
© getConnection 方法 的 第 一 个 参数 是 以 字符 串 类 型 表示 的 URL， 指 明 服 务 器 所 在 的 主机 名 称 (在 
我 们 的 例子 里 是 db. yale. edu) 以 及 可 能 包含 的 其 他 信息 ， 例 如 ， 与 数据 库 通信 所 用 的 协议 (在 
我 们 的 例子 里 是 jdbe:oracle:thin: ， 我 们 马上 就 会 看 到 为 什么 需要 它 ) ， 数 据 库 系统 用 来 通信 的 
端口 号 (在 我 们 的 例子 中 是 2000)， 还 有 服务 器 端 使 用 的 特定 数据 库 ( 在 我 们 的 例子 中 是 
univdb) 。 注 意 JDBC 只 是 指定 API 而 不 指定 通信 协议 。 一 个 JDBC 驱动 器 可 能 支持 多 种 协议 ， 

















O 有 多 种 版 本 的 getConnection 函数 ， 它 们 所 接受 的 参数 各 不 相同 .我 们 只 介绍 其 中 最 常用 的 一 个 
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我 们 必须 指定 一 个 数据 库 和 驱动 器 都 支持 的 协议 。 协 议 的 详细 内 容 是 由 提供 商 设 定 的 。 
egetConnection 方法 的 第 二 个 参数 用 于 指定 一 个 数据 库 用 户 标 识 ， 它 为 字符 串 类 型 。 

。 第 三 个 参数 是 密码 ， 它 也 是 字符 串 类 型 。( 注意 ， 把 密码 直接 写 在 JDBC 代码 中 会 增加 安全 性 隐 

患 ， 因 为 你 的 代码 有 可 能 会 被 某 些 未 被 授权 的 用 户 所 访问 ,) 

在 图 5-1 中 的 例子 中 ， 我们 已 经 建立 了 一 个 Connection 对 象 ， 其 句柄 是 conn, 

每 个 支持 JDBC( 大 多 数 的 数据 库 提供 商都 支持 ) 的 数据 库 产品 都 会 提供 一 个 JDBC 驱动 程序 (JDBC 
driver) ， 该 驱动 程序 必须 被 动态 加 载 才能 实现 Java 对 数据 库 的 访问 。 事 实 上 ， 必 须 在 连接 数据 库 之 前 
完成 驱动 程序 的 加 载 。 

在 图 5-1 中 程序 的 第 一 行 调用 Class. forName 函数 完成 驱动 程序 的 加 载 ， 在 调用 时 需要 通过 参数 来 
指定 一 个 实现 了 java. sql. Driver 接口 的 实体 类 。 这 个 接口 的 功能 是 为 了 实现 不 同 层面 的 操作 之 间 的 转 
K, 一边 是 与 产品 类 型 无 关 的 JDBC 操作 ， 另 一 边 是 与 产品 相关 的 、 在 所 使 用 的 特定 数据 库 管 理 系 统 
中 完成 的 操作 。 图 中 的 实例 采用 了 Oracle 的 驱动 程序 ，oracle. jdbc. driver. OracleDriver 三 。 该 驱动 程序 
包含 在 一 个 . jar 文件 里 ， 可 以 从 提供 商 的 网 站 下 载 ， 然 后 放 在 Java 的 类 路 径 (classpath ) 里 ， 用 于 Java 
编译 器 访问 。 

用 来 与 数据 库 交 换 信 息 的 具体 协议 并 没有 在 JDBC 标准 中 定义 ， 而 是 由 所 使 用 的 驱动 程序 决定 的 。 
有 些 驱动 程序 支持 多 种 协议 ， 使 用 哪 一 种 更 合适 取决 于 所 连接 的 数据 库 支持 什么 协议 。 我 们 的 例子 里 ， 
在 打开 一 个 数据 库 连 接 时 ， 字 符 串 jdbc :oracle:thin: 指 定 了 Oracle 支持 的 一 个 特定 协议 。 

5.1.1.2 向 数据 库 系 统 中 传递 SQL 语句 

一 旦 打开 了 一 个 数据 库 连接 ， 程 序 就 可 以 利用 该 连接 来 向 数据 库 发 送 SQL 语句 用 于 执行 。 这 是 通 
过 Statement 类 的 一 个 实例 来 完成 的 。 一 个 Statement 对 象 并 不 代表 SQL 语句 本 身 ， 而 是 实现 了 可 以 被 
Java 程序 调用 的 一 些 方法 ， 通 过 参数 来 传递 SQL 语句 并 被 数据 库 系统 所 执行 。 我 们 的 例子 在 连接 变量 
conn 上 创建 了 一 个 Statement 句柄 (stmt ) 。 

我 们 既 可 以 使 用 executeQuery 函数 又 可 以 用 executeUpdate 图 数 来 执行 一 条 语句 ， 这 取决 于 这 条 
SQL 语句 是 查询 语句 (如 果 是 查询 语句 ， 自 然 会 返回 一 个 结果 集 )， 还 是 像 更 新 (update) 、 插 入 
(insert), M BR ( delete), fi] @ R (create table) 等 这 样 的 非 查询 性 语句 。 在 我 们 的 例子 里 ， 
stmt. executeUpdate 执行 了 一 条 更 新 语句 ， 向 instructor 关系 中 插入 数据 。 它 返回 一 个 整数 ， 表 示 被 捅 
人、 更 新 或 者 删除 的 元 组 个 数 。 对 于 DDL 语句 ， 返 回 值 是 0。try |+} catch |…| 结构 让 我 们 可 以 捕捉 
JDBC 调用 产生 的 异常 (错误 情况 )， 并 显示 给 用 户 适 当 的 出 错 信息 。 

5.1.1.3 获取 查询 结果 

示例 程序 用 stmt. executeQuery 来 执行 一 次 查询 。 它 可 以 把 结果 中 的 元 组 集合 提取 到 ResultSet 对 象 
变量 rset 中 并 每 次 取出 一 个 进行 处 理 。 结 果 集 的 next 方法 用 来 查看 在 集合 中 是 否 还 存在 至 少 一 个 尚未 
取 回 的 元 组 ， 如 果 存 在 的 话 就 取出 。next 方法 的 返回 值 是 一 个 布尔 变量 ， 表 示 是 否 从 结果 集中 取 回 了 
一 个 元 组 。 可 以 通过 一 系列 的 名 字 以 get 为 前 缀 的 方法 来 得 到 所 获取 元 组 的 各 个 属性 。 方 法 getString 可 
以 返回 所 有 的 基本 SQL 数据 类 型 的 属性 (被 转换 成 Java 中 的 String 类 型 的 值 ) ， 当 然 也 可 以 使 用 像 
getFloat 那样 一 些 约束 性 更 强 的 方法 。 这 些 不 同 的 get 方法 的 参数 既 可 以 是 一 个 字符 串 类 型 的 属性 名 称 ， 
又 可 以 是 一 个 整数 ， 用 来 表示 所 需 获 取 的 属性 在 元 组 中 的 位 置 。 图 5-1 给 出 了 两 种 在 元 组 中 提取 属性 
值 的 办 法 : 利用 属性 名 提取 (dept_name ) 或 者 利用 属性 位 置 提取 (2， 代 表 第 二 个 属性 ) 。 

Java 程序 结束 的 时 候 语 句 和 连接 都 将 被 关闭 。 注 意 关 闭 连接 是 很 重要 的 ， 因 为 数据 库 连 接 的 个 数 
是 有 限制 的 ; 未 关闭 的 连接 可 能 导致 超过 这 一 限制 。 如 果 发 生 这 种 情况 ， 应 用 将 不 能 再 打开 任何 数据 
库 连 接 。 


© 其 他 产品 的 类 似 的 驱动 名 称 如 下 : IBM DB2 : com. ibm. db2. jdbe. app. DB2Driver; Microsoft SQL Server; com. 
microsoft. sqlserver. jdbc. SQLServerDriver; PostgreSQL; org. postgresql. Driver; MySQL; com. mysql. jdbc. Driver, Sun 
公司 还 提供 了 一 种 "桥接 驱动 器 ”， 可 以 把 JDBC 调用 转换 成 ODBC。 该 驱动 仅 是 用 于 那些 支持 ODBC 但 不 支持 
JDBC 的 厂商 。 
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5.1.1.4 预备 语句 

我 们 也 可 以 通过 以 “?” 来 代表 以 后 再 给 出 的 实际 值 ， 而 创建 一 个 预备 语句 。 数 据 库 系统 在 准备 了 
查询 语句 的 时 候 对 它 进行 编译 。 在 每 次 执行 该 语句 
时 (用 新 值 替 换 “?”) ， 数 据 库 可 以 重用 预先 编译 的 查 
询 的 形式 ， 应 用 新 值 进行 查询 。 图 5-2 的 代码 框架 给 
出 了 如 何 使 用 预备 语句 的 示例 。 

可 以 使 用 Connection 类 的 prepareStatement 方法 
来 提交 SQL 语句 用 于 编译 。 它 返回 一 个 Prepared 
Statement 类 的 对 象 。 此 时 还 没有 执行 SQL 语句 。 执 
行 需要 PreparedStatement 类 的 两 个 方法 executeQuery 图 5-2 JDBC 代码 中 的 预备 语句 
和 executeUpdate。 但 是 在 它们 被 调用 之 前 ， 我们 必 
须 使 用 PreparedStatement 类 的 方法 来 为 "?” 参 数 设 定 具体 的 值 。setString 方法 以 及 诸如 setInt 等 用 于 其 他 
的 SQL 基本 类 型 的 其 他 类 似 的 方法 使 我 们 能 够 为 参数 指定 值 。 第 一 个 参数 用 来 确定 我 们 为 哪个 "?” 设 
定 值 (参数 的 第 一 个 值 是 1， 区 别 于 大 多 数 的 Java 结构 的 从 0 开始 ) 。 第 二 个 参数 是 我 们 要 设 定 的 值 。 

在 图 5-2 中 的 例子 里 ， 我 们 预备 一 个 insert 语句 ， 设 定 “? "参数 ， 并 且 调 用 executeUpdate。 例 子 中 
的 最 后 两 行 显示 ， 参 数 设 定 保持 不 变 ， 直 到 我 们 特别 地 进行 重新 设 定 。 这 样 ， 最 后 的 语句 调用 
executeUpdate， 元 组 (“88878”,“Perry”,“Finance”，125000 ) 被 插入 到 数据 库 。 
在 同一 查询 编译 一 次 然后 设置 不 同 的 参数 值 执行 多 次 的 情况 下 ， 预 备 语句 使 得 执行 更 加 高 效 。 然 而 ， 
预备 语句 有 一 个 更 加 重要 的 优势 ， 它 使 得 只 要 使 用 了 用 户 输 入 值 ， 即 使 是 只 运行 一 次 ， 预 备 语句 都 是 
执行 SQL 查询 的 首选 方法 。 假 设 我 们 读 取 了 一 个 用 户 输入 的 值 ， 然 后 使 用 Java 的 字符 串 操 作 来 构造 
SQL 语句 。 如 果 用 户 输入 了 某 些 特殊 字符 ， 例 如 一 个 单 引 号 ， 除 非 我 们 采取 额外 工作 对 用 户 输入 进行 
检查 ， 否 则 生成 的 SQL 语句 会 出 现 语法 错误 。setString 方法 为 我 们 自动 完成 检查 ， 并 插入 需要 的 转 义 
字符 ， 以 确保 语法 的 正确 性 。 160 

在 我 们 的 例子 中 ， 假 设 用 户 已 经 输入 了 ID, name, dept_name 和 salary 这 些 变量 的 值 ， 相 应 的 元 组 | 160 
将 被 插入 到 关系 instructor 中 。 假 设 我 们 不 用 预备 语句 ， 而 是 使 用 如 下 的 Java 表达 式 把 字符 串 连 接 起 来 
构成 查询 : 








PreparedStatement pStmt = conn.prepareStatement( 
“insert into instructor values(?,?,?,?)"); 

pStmt.setString(1, "88877"); 

pStmt.setString(2, "Perry"); 

pStmt.setString(3, "Finance"); 

pStmt.setint(4, 125000); 

pStmt.executeUpdate(); 

pStmt.setString(1, "88878"); 

pStmt.executeUpdate(); 









"insert into instructor values(’ " + ID +" °,’ " + name +" ’ 
"+ " > + dept_name +" °," ’ salary + ")" 


并 且 查 询 通过 Statement 对 象 的 executeQuery 方法 被 直接 执行 。 现 在 ， 如 果 用 户 在 ID 或 者 name Hp ik 
入 一 个 单 引 号 ， 查 询 语 句 就 会 出 现 语法 错误 。 一 个 教员 的 名 字 很 有 可 能 带 有 引号 (例如 “0'Henry” )。 
也 许 以 上 的 例子 会 被 认为 是 一 个 小 问题 ， 而 某 些 情况 会 比 这 糟糕 得 多 。 一 种 叫做 SQL 注入 (SQL 
injection ) 的 技术 可 以 被 恶意 黑客 用 来 窃取 数据 或 损坏 数据 库 。 
假设 一 个 Java 程序 输入 一 个 字符 串 name， 并 且 构 建 下 面 的 查询 : 
“select” from instructor where name =°" + name + """ 
如 果 用 户 没 有 输入 一 个 名 字 ， 而 是 输入 : 
X” or YY 
这 样 ， 产 生 的 语句 就 变 成 : 
"Select ”from instructor where name =°" + "X? or Y ="Y" + "7" 
即 
select” from instructor where name =’ X’ or Y =° Y’ 
在 生成 的 查询 中 ，where 子 句 总 是 真 ， 所 以 查询 结果 返回 整个 instructor 关系 。 更 诡计 多 端的 恶意 用 户 
甚至 可 以 编写 输入 值 以 输出 更 多 的 数据 。 使 用 预备 语句 就 可 以 防止 这 类 问题 ， 因 为 输入 的 字符 串 将 被 
插入 转 义 字符 ， 因 此 最 后 的 查询 变 为 : 
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"select" from instructor where name =°X\ > or V YV s VY Y? 


这 是 无 害 的 查询 语句 ， 返 回 结果 为 空 集 。 

比较 老 的 系统 允许 多 个 由 分 号 隔 开 的 语句 在 一 次 调用 里 被 执行 。 此 功能 正 逐 渐 被 淘汰 ， 因 为 恶意 
的 黑客 会 利用 SQL 注入 技术 插入 整个 SQL 语句 。 由 于 这 些 语句 在 Java 程序 所 有 者 的 权限 上 运行 ， 像 删 
PRR (drop table) 这 样 毁 灭 性 的 SQL 语句 会 被 执行 。SQL 应 用 程序 开发 者 必须 警惕 这 种 潜在 的 安全 

5.1.1.5 可 调用 语句 

JDBC 还 提供 了 CallableStatement 接口 来 允许 调用 SQL 的 存储 过 程 和 函数 ( 稍 后 在 5.2 节 描 述 ) 此 
接口 对 函数 和 过 程 所 扮演 的 角色 跟 prepareStatement 对 查询 所 扮演 的 角色 一 样 。 


CallableStatement cStmtl = conn. prepareCall(““ | ? =call some_function(?) |”); 
CallableStatement cStmt2 = conn. prepareCall(“ | call some_procedure(?, ?) |”); 


函数 返回 值 和 过 程 的 对 外 参数 的 数据 类 型 必须 先 用 方法 registerOutParameter( ) 注册 ， 它 们 可 以 用 与 结果 
集 用 的 方法 类 似 的 get 方法 获取 。 请 参看 JDBC 手册 以 获得 更 细节 的 信息 。 

5.1.1.6 元 数据 特性 

正如 我 们 此 前 提 到 的 ， 一 个 Java 应 用 程序 不 包含 数据 库 中 存储 的 数据 的 声明 。 这 些 声明 是 SQL 数 
据 定 义 语言 (DDL) 的 一 部 分 。 因 此 ， 使 用 JDBC 的 Java 程序 必须 要 么 将 关于 数据 库 模式 的 假设 硬 编码 
到 程序 中 ， 要 么 直接 在 运行 时 从 数据 库 系统 中 得 到 那些 信息 。 后 一 种 方法 更 可 取 ， 因 为 它 使 得 应 用 程 
序 可 以 更 健壮 地 处 理 数 据 库 模式 的 变化 。 

回想 一 下 ， 当 我 们 提交 一 个 使 用 executeQuery 方法 的 查询 时 ， 查 询 结 果 被 封装 在 一 个 ResultSet 对 
象 中 。 接 口 ResultSet 有 一 个 getMetaData( ) 方 法 ， 它 返回 一 个 包含 结果 集 元 数据 的 ResultSetMetaData 对 
象 。ResultSetMetaData 进一步 又 包含 查找 元 数据 信息 的 方法 ， 例 如 结果 的 列 数 、 某 个 特定 列 的 名 称 ， 或 
者 某 个 特定 列 的 数据 类 型 。 这 样 ， 即 使 不 知道 结果 的 模式 ， 我 们 也 可 以 方便 地 执行 查询 。 

下 面 的 Java 代码 片段 使 用 JDBC 来 打印 出 一 个 结果 集中 所 有 列 的 名 称 和 类 型 。 代 码 中 的 变量 rs 假 
定 是 执行 查询 后 所 获得 的 一 个 ResultSet 实例 。 


ResultSetMetaData rsmd = rs. getMetaData() ; 
for(inti=1; i <= rsmd. getColumnCount() ; i++) | 
System. out. printin( rsmd. getColumnName(i) ) ; 
System. out. printin( rsmd. getColumnTypeName(i) ) ; 
| 


getColumnCount 方法 返回 结果 关系 的 元 数 (属性 个 数 ) 。 这 使 得 我 们 能 够 遍历 每 个 属性 (请 注意 ， 和 
JDBC 的 惯例 一 致 ， 我 们 从 1 开始 ) 。 对 于 每 一 个 属性 ， 我 们 采用 getColumnName 和 getColumnType-Name 
两 个 方法 分 别 得 到 它 的 名 称 和 数据 类 型 。 

DatabaseMetaData 接口 提供 了 查找 数据 库 元 数据 的 机 制 。 接 口 Connection 包含 一 个 getMeta- Data 方 
法 用 于 返回 一 个 DatabaseMetaData 对 象 。 接 口 DatabaseMetaData 进一步 又 含有 大 量 的 方法 可 以 用 于 获取 
程序 所 连接 的 数据 库 和 数据 库 系统 的 元 数据 。 

例如 ， 有 些 方法 可 以 返回 数据 库 系 统 的 产品 名 称 和 版 本 号 。 另 外 一 些 方法 可 以 用 来 查询 数据 库 系 
统 所 支持 的 特性 。 

还 有 其 他 可 以 返回 数据 库 本 身 信息 的 方法 。 图 5-3 中 的 代码 显示 了 如 何 找 出 数据 库 中 的 关系 的 列 
(属性 ) 信 息 。 变 量 conn 假定 存储 了 一 个 已 经 打开 的 数据 库 连 接 。 方 法 getColumns 有 四 个 参数 : 一 个 目 
录 名 称 (null 表示 目录 名 称 被 忽略 ) 、 一 个 模式 名 称 模板 、 一 个 表 名 称 模板 ， 以 及 一 个 列 名 称 模板 。 模 
式 名 称 、 表 名 称 和 列 名 称 的 模板 可 以 用 于 指定 一 个 名 字 或 一 个 模板 。 模 板 可 以 使 用 SQL 字符 串 匹配 特 
殊 字符 如 “%” 和 “_”; 例如 模板 “% "匹配 所 有 的 名 字 。 只 有 满足 特定 名 称 或 模板 的 模式 中 的 表 的 列 被 
检索 到 。 结 果 集 中 的 每 行 包 含 一 个 列 的 信息 。 结 果 集 中 的 行 包 括 若干 个 列 ， 如 目录 名 称 、 模 式 、 表 和 
列 、 列 的 类 型 ， 等 等 。 
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DatabaseMetaData dbmd = conn. getMetaData( ) ; 
ResultSet rs = dbmd. getColumns( null, "univdb" , "department" , ""%" ) ; 
// getColumns 的 参数 :类 别 ,模式 名 , 表 名 , 列 名 
// 返回 值 :每 列 返回 一 行 ,包含 一 系列 属性 ,例如 :COLUMN_NAME，TYPEF_NAME 
while( rs. next( ) ) | 
System. out. println(rs. getString( " COLUMN_NAME" ) , 
rs. getString( "TYPE_NAME" ) ; 











图 5-3 在 JDBC 中 使 用 DatabaseMetaData 查找 列 信息 


DatabaseMetaData 还 提供 了 获取 数据 库 信 息 的 一 些 其 他 方法 ， 比 如 ， 可 以 用 来 获取 关系 (getTables( ) ) 、 
外 码 参 照 ( getCrossReference( ) ) 、 授 权 、 数 据 库 限 制 如 最 大 连接 数 等 的 元 数据 。 

元 数据 接口 可 以 用 于 许多 不 同 的 任务 。 例 如 ， 它 们 可 以 用 于 编写 数据 库 的 浏览 器 ， 该 浏览 器 允许 
用 户 找 出 一 个 数据 库 中 的 关系 表 ， 检 查 它 们 的 模式 ， 检 查 表 中 的 行 ， 用 选择 操作 查看 想 要 的 行 ， 等 等 


元 数据 信息 可 以 用 于 使 这 些 任务 的 代码 更 通用 ; 例如 ， 用 来 显示 一 个 关系 中 的 行 的 代码 可 以 用 这 样 的 [165 | 


方法 编写 使 得 它 能 够 在 所 有 可 能 的 关系 上 工作 ， 无 论 这 些 关系 的 模式 是 什么 。 类 似 地 ， 可 以 编写 这 样 
的 代码 ， 它 获得 一 个 查询 字符 串 ， 执 行 查询 ， 然 后 把 结果 打印 成 一 个 格式 化 的 表 ; 无 论 提 交 了 的 实际 
查询 是 什么 ， 这 段 代 码 都 可 以 工作 。 

5.1.1.7 其 他 特性 

JDBC 提供 了 一 些 其 他 特性 ， 如 可 更 新 的 结果 集 (updatable result sets) 。 它 可 以 从 一 个 在 数据 库 关 
系 上 执行 选择 和 /或 投影 操作 的 查询 中 创建 一 个 可 更 新 的 结果 集 。 然 后 ， 一 个 对 结果 集中 的 元 组 的 更 新 
将 引起 对 数据 库 关 系 中 相应 元 组 的 更 新 。 

回想 一 下 4. 3 节 ， 事 务 把 多 个 操作 封装 成 一 个 可 以 被 提交 或 者 回 滚 的 原子 单元 

默认 情况 下 ， 每 个 SQL 语句 都 被 作为 一 个 自动 提交 的 独立 的 事务 来 对 待 。JDBC 的 Connection 接口 
中 的 方法 setAutoCommit () 允许 打开 或 关闭 这 种 行为 。 因 此 ， 如 果 conn 是 一 个 打开 的 连接 ， 则 
conn. setAutoCommit (false) 将 关闭 自动 提交 。 然 后 事务 必须 用 conn. commit( ) 显 式 提交 或 用 conn. 
rollback( ) 回 滚 。 自 动 提交 可 以 用 conn. setAutoCommit(true) 来 打开 

JDBC 提供 处 理 大 对 象 的 接口 而 不 要 求 在 内 存 中 创建 整个 大 对 象 。 为 了 获取 大 对 象 ，ResultSet 接口 
提供 方法 getBlob( ) 和 getClob( ) ， 它 们 与 getString( ) 方法 相似 ， 但 是 分 别 返回 类 型 为 Blob 和 Clob 的 
对 象 。 这 些 对 象 并 不 存储 整个 大 对 象 ， 而 是 存储 这 些 大 对 象 的 定位 器 ， 即 指向 数据 库 中 实际 大 对 象 的 
逻辑 指针 。 从 这 些 对 象 中 获取 数据 与 从 文件 或 者 输入 流 中 获取 数据 非常 相似 ， 可 以 采用 像 getBytes 和 
getSubString 这 样 的 方法 来 实现 。 

反 向 操作 时 ， 为 了 向 数据 库 里 存储 大 对 象 ， 可 以 用 PreparedStatement 类 的 方法 setBlob (int 
parameterIndex ，InputStream inputStream) 把 一 个 类 型 为 二 进 制 大 对 象 (blob) 的 数据 库 列 与 一 个 输入 流 
关联 起 来 。 当 预备 语句 被 执行 时 ， 数 据 从 输入 流 被 读 取 ， 然 后 被 写 人 数据 库 的 二 进 制 大 对 象 中 。 与 此 
相似 ， 使 用 方法 setClob 可 以 设置 字符 大 对 象 (clob) 列 ， 该 方法 的 参数 包括 该 列 的 序号 和 一 个 字符 
iio 

JDBC 还 提供 了 行 集 (row set) 特性 ， 允 许 把 结果 和 集 打 包 起 来 发 送 给 其 他 应 用 程序 。 行 集 既 可 以 向 
后 又 可 以 向 前 扫描 ， 并 且 可 被 修改 。 行 集 一 旦 被 下 载 下 来 就 不 再 是 数据 库 本 身 的 内 容 了 ， 所 以 我 们 在 
这 里 并 不 对 其 做 详细 介绍 。 

5.1.2 ODBC 


开放 数据 库 互 连 (Open DataBase Connectivity, ODBC) 标准 定义 了 一 个 API， 应 用 程序 用 它 来 打开 
一 个 数据 库 连 接 、 发 送 查询 和 更 新 ， 以 及 获取 返回 结果 等 。 应 用 程序 (例如 图 形 界面 、 统 计 程 序 包 或 
者 电子 表格 ) 可 以 使 用 相同 的 ODBC API 来 访问 任何 一 个 支持 ODBC 标准 的 数据 库 。 
一 个 支持 ODBC 的 数据 库 系统 都 提供 一 个 和 客户 端 程序 相连 接 的 库 ， 当 客户 端 发 出 一 个 ODBC 
API 请 求 ， 库 中 的 代码 就 可 以 和 服务 器 通信 来 执行 被 请 求 的 动作 并 取 回 结果 。 
5-4 给 出 了 一 个 使 用 ODBC API 的 C 语言 代码 示例 。 利 用 ODBC 和 服务 器 通信 的 第 一 步 是 ， 建 立 








A 





[166 | 
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一 个 和 服务 器 的 连接 。 为 了 实现 这 一 步 ， 程 序 先 分 配 一 个 SQL 的 环境 变量 ,然后 是 一 个 数据 库 连接 句 
ti. ODBC 定义 了 HENV, HDBC 和 RETCODE 几 种 类 型 。 程 序 随后 利用 SQLConnect 打开 和 数据 库 的 连 
接 ， 这 个 调用 有 几 个 参数 ， 包 括 数 据 库 的 连接 句柄 、 要 连接 的 服务 器 、 用 户 的 身份 和 密码 等 。 常 数 
SQL_NTS 表示 前 面 参数 是 一 个 以 null 结尾 的 字符 串 。 





void ODBCexample( ) 

| 
RETCODE error; 
HENV env; / * 环境 参数 变量 * / 
HDBC conn; /* 数据 库 连 接 * / 


SQLAllocEnv(&env ) ; 
SQLAllocConnect( env, &conn) ; 
SQLConnect( conn, "db. yale. edu" , SQL_NTS, "avi" , SQL_NTS, 
"avipasswd" , SQL_NTS) ; 
| 
char deptnamel 80 | ; 
float salary ; 
int lenOuti , lenOut2 ; 
HSTMT stmt; 


char + Sqlquery =" select dept_name, sum (salary) 
from instructor 
group by dept_name" ; 
SQLAllocStmt( conn, &stmt) ; 
error = SQLExecDirect( stmt, sqlquery, SQL_NTS) ; 
if (error = = SQL_SUCCESS) | 
SQLBindCol( stmt, 1, SQL_C_CHAR, deptname , 80, &lenOut! ) ; 
SQLBindCol( stmt, 2, SQL_C_FLOAT, &salary, 0 , &lenOut2) ; 
while (SQLFetch( stmt) = = SQL_SUCCESS) | 
printf (" %s %g\ n", deptname, salary) ; 


l 
| 


| 

SQLFreeStmt( stmt，SQL_DROP ) ; 
i 
SQLDisconnect( conn) ; 


SQLFreeConnect( conn) ; 
SQLFreeEnv( env) ; 











图 5-4 ODBC 代码 示例 


一 旦 一 个 连接 建立 了 ,C 语言 就 可 以 通过 SQLExecDirect 语句 把 命令 发 送 到 数据 库 。 因 为 C 语言 的 
变量 可 以 和 查询 结果 的 属性 绑 定 ， 所 以 当 一 个 元 组 被 SQLFetch 语句 取 回 的 时 候 ， 结 果 中 相应 的 属性 的 
值 就 可 以 放 到 对 应 的 C 变量 里 了 。SQLBindCol 做 这 项 工作 ; 在 SQLBindCol 函数 里 面 第 二 个 参数 代表 选 
择 属性 中 哪 一 个 位 置 的 值 ， 第 三 个 参数 代表 SQL 应 该 把 属性 转化 成 什么 类 型 的 C 变量 。 再 下 一 个 参数 
给 出 了 存放 变量 的 地 址 。 对 于 诸如 字符 数组 这 样 的 变 长 类 型 ， 最 后 两 个 参数 还 要 给 出 变量 的 最 大 长 度 
和 一 个 位 置 来 存放 元 组 取 回 时 的 实际 长 度 。 如 果 长 度 域 返回 一 个 负 值 ， 那 么 代表 着 这 个 值 为 空 (null) 。 
对 于 定 长 类 型 的 变量 如 整 型 或 浮 点 型 ， 最 大 长 度 的 域 被 忽略 ， 然 而 当 长 度 域 返回 一 个 负 值 时 表示 该 值 
为 空 值 。 

SQLFetch 在 while 循环 中 一 直 执 行 ， 直 到 SQLFetch 返回 一 个 非 SQL_SUCCESS 的 值 ， 在 每 一 次 
fetch 过 程 中 ， 程 序 把 值 存放 在 调用 SQLBindCol 所 说 明 的 C 变量 中 并 把 它们 打印 出 来 。 

在 会 话 结束 的 时 候 ， 程 序 释 放 语 句 的 句柄 ， 断 开 与 数据 库 的 连接 ， 同 时 释放 连接 和 SQL 环境 句 
柄 。 好 的 编程 风格 要 求 检查 每 一 个 函数 的 结果 ， 确 保 它们 没有 错误 ， 为 了 简洁 ,我们 在 这 里 忽略 了 大 
部 分 检查 。 

可 以 创建 带 有 参数 的 SQL 语句 ， 例 如 ，insert into department values(?,?,?)。 问 号 是 为 将 来 提供 值 
的 占 位 符 。 上 面 的 语句 可 以 先 被 “准备 ”， 也 就 是 在 数据 库 中 先 编译 ,然后 可 以 通过 为 占 位 符 提供 具体 
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值 来 反复 执行 一 一 在 该 例 中 ， 为 department 关系 提供 系 名 、 楼 宇 名 和 预算 数 。 

ODBC 为 各 种 不 同 的 任务 定义 了 函数 ， 例 如 查找 数据 库 中 所 有 的 关系 ， 以 及 查找 数据 库 中 某 个 关 
系 的 列 的 名 称 和 类 型 ， 或 者 一 个 查询 结果 的 列 的 名 称 和 类 型 。 

在 默认 情况 下 ， 每 一 个 SQL 语句 都 被 认为 是 一 个 自动 提交 的 独立 事务 。 调 用 SQLSetConnectOption 
(com，SQL_AUTOCOMMIT，0) 可 以 关闭 连接 conn 的 自动 提交 ， 事 务必 须 通过 显 式 地 调用 SQLTransact 
(com，SQL_COMMIT) 来 提交 或 通过 显 式 地 调用 SQLTransact( comn，SQL_ROLLBACK) 来 回 滚 。 

ODBC 标准 定义 了 符合 性 级 别 (conformance level) ， 用 于 指定 标准 定义 的 功能 的 子 集 。 一 个 ODBC 实 
现 可 以 仅 提 供 核心 级 特性 ， 也 可 以 提供 更 多 的 高 级 特性 (level 1 或 level 2), level 1 需要 支持 取得 目录 
的 有 关 信 息 ， 例 如 什么 关系 存在 ， 它 们 的 属性 是 什么 类 型 的 等 。level 2 需要 更 多 的 特性 ， 例 如 发 送 和 
提取 参数 值 数组 以 及 检索 有 关 目 录 的 更 详细 信息 的 能 力 。 

SQL 标准 定义 了 调用 级 接口 (Call Level Interface，CLI) ， 它 与 ODBC 接口 类 似 。 


ADO. NET 
ADO. NET API 是 为 Visual Basic. NET 和 C# 语 言 设 计 的 ， 它 提供 了 一 系列 访问 数据 的 函数 ， 与 
JDBC 在 上 层 架构 没有 什么 不 同 ， 只 是 在 细节 上 有 差别 。 像 JDBC 和 ODBC 一 样 ，ADO. NET API 可 以 
访问 SQL 查询 的 结果 ， 以 及 元 数据 ， 但 使 用 起 来 比 ODBC 简单 得 多 。 可 以 使 用 ADO. NET API 来 访问 
支持 ODBC 的 数据 库 ， 此 时 ，ADO. NET 调用 被 转换 成 ODBC 调用 。ADO. NET API 也 可 以 用 在 某 些 
非 关 系数 据 源 上 ， 例 如 微软 的 OLE-DB、XML( 在 第 23 章 介绍 ) ， 以 及 微软 最 近 开 发 的 实体 和 框架。 有 
关 ADO. NET 的 更 多 信息 请 参考 文献 注解 。 


5.1.3 WAT SQL 

SQL 标准 定义 了 嵌入 SQL 到 许多 不 同 的 语言 中 ， 例 如 C, C++, Cobol, Pascal, Java, PL/I 和 
Fortran, SQL 查询 所 租 人 的 语言 被 称 为 宿主 语言 ， 宿 主语 言 中 使 用 的 SQL 结构 被 称 为 嵌入 式 SQL。 

使 用 宿主 语言 写 出 的 程序 可 以 通过 内 人 式 SQL 的 语法 访问 和 修改 数据 库 中 的 数据 。 一 个 使 用 艇 人 
式 SQL 的 程序 在 编译 前 必须 先 由 一 个 特殊 的 预 处 理 器 进行 处 理 。 骨 入 的 SQL 请 求 被 宿主 语言 的 声明 以 
及 人 允许 运行 时 刻 执行 数据 库 访 问 的 过 程 调用 所 代替 。 然 后 ， 所 产生 的 程序 由 宿主 语言 编译 器 编译 。 这 
FER Ast SQL 与 JDBC 或 ODBC 的 主要 区 别 。 

在 JDBC 中 ，SQL 语句 是 在 运行 时 被 解释 的 (即使 是 利用 预备 语句 特性 对 其 进行 准备 也 是 如 此 ) 。 
当 使 用 嵌入 式 SQL 时 ， 一 些 SQL 相关 的 错误 (包括 数据 类 型 错误 ) 可 以 在 编译 过 程 中 被 发 现 。 

为 使 预 处 理 器 识别 嵌入 式 SQL 请 求 ， 我 们 使 用 EXEC SQL 语句 ， 格 式 如 下 : 

EXEC SQL < 嵌入 式 SQL 语句 >; 

RAR SQL 的 确切 语法 依赖 于 宿主 语言 。 例 如 ， 当 宿主 语言 是 Cobol 时 ,语句 中 的 分 号 用 END-EXEC 

来 代替 。 


我 们 在 应 用 程序 中 合适 的 地 方 插入 SQL INCLUDE SQLCA 语句 ， 表 示 预 处 理 器 应 该 在 此 处 插 和 人 特 | 16 


殊 变量 以 用 于 程序 和 数据 库 系统 间 的 通信 。 

在 执行 任何 SQL 语句 之 前 ， 程 序 必须 首先 连接 到 数据 库 。 这 是 用 下 面 语句 实现 的 : 

EXEC SQL connect to server user user-name using password ; 

这 里 server 标识 将 要 建立 连接 的 服务 器 。 

在 嵌入 的 SQL 语句 中 可 以 使 用 宿主 语言 的 变量 ， 不 过 前 面 要 加 上 时 号 ( :) 以 区 别 于 SQL 变量 。 如 
此 使 用 的 变量 必须 声明 在 一 个 DECLARE 区 段 里 ， 见 下 面 的 代码 。 不 过 声明 变量 的 语法 还 是 因 循 宿 主 
语言 的 惯例 。 

EXEC SQL BEGIN DECLARE SECTION; 


int credit_amount ; 


EXEC SQL END DECLARE SECTION; 
PA SK SQL 语句 的 格式 和 本 章 描述 的 SQL 语句 类 似 。 但 这 儿 要 指出 几 点 重要 的 不 同 之 处 。 
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为 了 表示 关系 查询 ， 我 们 使 用 声明 游标 (declare cursor) 语句 。 然 而 这 时 并 不 计算 查询 的 结果 ， 而 
程序 必须 用 open 和 fetch 语句 (本 章 后 面 将 讨论 ) 得 到 结果 元 组 。 接 下 来 我 们 将 看 到 ， 使 用 游标 的 方法 
与 JDBC 中 对 结果 集 的 迭代 处 理 是 很 相似 的 。 

考虑 我 们 使 用 的 大 学 模式 。 假 设 我 们 有 一 个 宿主 变量 credit_amount， 声 明 方 法 如 前 所 见 ， 我 们 想 
找 出 学 分 高 于 credit_amount 的 所 有 学 生 的 名 字 。 我 们 可 写 出 查询 语句 如 下 : 


EXEC SQL 
declare c cursor for 
select JD, name 
from student 
where tot_cred > ;credit_amount ; 


上 述 表达 式 中 的 变量 c 被 称 为 该 查询 的 游标 (cursor) 。 我 们 使 用 这 个 变量 来 标识 该 查询 ， 然 后 用 open 
语句 来 执行 查询 。 
我 们 的 例子 中 的 open 语句 如 下 : 
EXEC SQL open c; 


这 条 语句 使 得 数据 库 系统 执行 这 条 查询 并 把 执行 结果 存 于 一 个 临时 关系 中 。 当 open 语句 被 执行 的 时 








170 


候 ， 宿 主 变量 (credit_amount) 的 值 就 会 被 应 用 到 查询 中 。 








如 果 SQL 查询 出 错 ， 数 据 库 系统 将 在 SQL 通信 区 域 (SQLCA ) 的 变量 中 存储 一 个 错误 诊断 信息 。 

然后 我 们 利用 一 系列 的 fetch 语句 把 结果 元 组 的 值 赋 给 宿主 语言 的 变量 。fetch 语句 要 求 结果 关系 
的 每 一 个 属性 有 一 个 宿主 变量 相对 应 。 在 我 们 的 查询 例子 中 ， 需 要 一 个 变量 存储 ID 的 值 ， 另 一 个 变量 
存储 name 的 值 。 假 设 这 两 个 变量 分 别 是 si 和 sn， 并 且 都 已 经 在 DECLARE 区 段 中 被 声明 。 那 么 以 下 
语句 : 

EXEC SQL fetch c into:si, :sn; 

产生 结果 关系 中 的 一 个 元 组 。 接 下 来 应 用 程序 就 可 以 利用 宿主 语言 的 特性 对 si 和 sn 进行 操作 了 。 

一 条 单一 的 fetch 请 求 只 能 得 到 一 个 元 组 。 如 果 我 们 想得到 所 有 的 结果 元 组 ， 程 序 中 必须 包含 对 所 
有 元 组 执行 的 一 个 循环 。 风 入 式 SQL 为 程序 员 提 供 了 对 这 种 循环 进行 管理 的 支持 。 虽 然 关 系 在 概念 上 
是 一 个 集合 ， 查 询 结果 中 的 元 组 还 是 有 一 定 的 物理 顺序 的 。 执 行 SQL 的 open 语句 后 ， 游 标 指向 结果 的 
第 一 个 元 组 。 执 行 一 条 fetch 语句 后 ， 游 标 指向 结果 中 的 下 一 个 元 组 。 当 后 面 不 再 有 待 处 理 的 元 组 时 ， 
SQLCA 中 变量 SQLSTATE 被 置 为 '02000' ( 意 指 “ 不 再 有 数据 ”) ; 访问 该 变量 的 确切 的 语法 依赖 于 所 使 
用 的 特定 数据 库 系统 。 于 是 ， 我 们 可 以 用 一 条 while 循环 (或 其 他 类 似 循环 语句 ) 来 处 理 结果 中 的 每 一 
个 元 组 。 

我 们 必须 使 用 close 语句 来 告诉 数据 库 系统 删除 用 于 保存 查询 结果 的 临时 关系 。 对 于 我 们 的 例子 ， 
该 语句 格式 如 下 : 

EXEC SQL close c; 

用 于 数据 库 修 改 (update insert 和 delete) Aik Ast SQL 表达 式 不 返回 结果 。 因 此 ， 这 种 语句 表达 

起 来 在 某 种 程度 上 相对 简单 。 数 据 库 修改 请 求 格式 如 下 : 
EXEC SQL < 任何 有 效 的 update, insert 和 delete 语句 > ; 

前 面 带 冒号 的 宿主 语言 的 变量 可 以 出 现在 数据 库 修改 语句 的 表达 式 中 。 如 果 在 语句 执行 过 程 中 出 错 ， 
SQLCA 中 将 设置 错误 诊断 信息 。 

也 可 以 通过 游标 来 更 新 数据 库 关系 。 例 如 ， 要 为 音乐 系 的 每 个 老师 的 salary 属性 都 增加 100， 我 们 








_ 
N 
— 


可 以 声明 这 样 一 个 游标 : 








EXEC SQL 
declare c cursor for 
select * 
from instructor 
where dept_name = ‘Music’ 
for update ; 
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然后 我 们 利用 在 游标 上 的 fetch 操作 对 元 组 进行 迭代 (就 像 我 们 先前 看 到 的 例子 一 样 ) ， 每 取 到 一 个 元 
组 我 们 都 执行 以 下 的 代码 : 
EXEC SQL 
update instructor 


set salary = salary + 100 
where current of c; 


可 以 用 EXEC SQL COMMIT 语句 来 提交 事务 ， 或 者 用 EXEC SQL ROLLBACK 进行 回 滚 

AI SQL 的 查询 一 般 是 在 编写 程序 时 被 定义 的 。 但 是 在 某 些 比较 罕见 的 情况 下 查询 需要 在 运行 
时 被 定义 。 例 如 ， 一 个 应 用 程序 接口 可 能 会 让 用 户 来 指定 某 个 关系 的 一 个 或 多 个 属性 上 的 选择 条 件 ， 
然后 在 运行 时 只 利用 用 户 做 了 选择 的 属性 的 条 件 来 构造 SQL 查询 的 where 子 句 。 此 种 情况 下 ， 可 以 使 
用 “EXEC SQL PREPARE < query-name > FROM; < variable > ”这 样 格 式 的 语句 ， 在 运行 时 构造 和 准备 查 
询 字符 串 ; 并 且 可 以 在 查询 名 字 上 打开 一 个 游标 。 


SQLJ 
与 其 他 的 说 入 式 SQL 的 实现 方法 相 比 ，SQLJ(SQL RA Java 中 ) 提 供 了 相同 的 特性 ， 但 是 它 使 用 
了 一 种 不 同 的 语法 ， 更 接近 Java 的 固有 特性 ， 比 如 和 迭代 器 。 例 如 ，SQLJ 使 用 句法 #sql 代替 EXEC 
SQL， 并 且 不 使 用 游标 ， 而 是 用 Java 和 迭代 器 接口 来 获取 查询 结果 。 因 此 执行 查询 的 结果 被 储存 在 
Java 和 迭代 器 里 ， 然 后 利用 Java 和 迭代 器 接口 中 的 next( ) 方 法 来 逐步 遍历 结果 元 组 ， 就 像 前 面 例子 中 对 
游标 使 用 fetch 一 样 。 必 须 对 迭代 器 的 属性 进行 声明 ， 其 类 型 应 该 与 SQL 查询 结果 中 的 各 属性 的 类 
型 保持 一 致 。 下 面 的 代码 段 演 示 了 和 迭代 器 的 使 用 方法 。 
#sq| iterator deptinfolter ( String dept_name, int avgSal) ; 
deptinfolter iter = null; 


#sql iter = | select dept_name, avg( salary) 
from instructor 
group by dept_name | ; 
while (iter. next()) | 
String deptName = iter. dept_name( ) ; 
int avgSal = iter. avgSal( ) ; 
System. out. printin(deptName + " " + avgSal); 
} 
iter. close() ; 
IBM 的 DB2 和 Oracle 都 支持 SQLJ， 并 且 提 供 从 SQLJ 代码 到 JDBC 代码 的 转换 器 。 该 转换 器 可 以 
在 编译 时 连接 数据 库 来 检查 查询 的 语法 是 否 正确 ， 并 用 来 确保 查询 结果 的 SQL 类 型 与 所 赋值 的 Java 
变量 类 型 相 一 致 。 从 2009 年 年 初 开 始 ， 其 他 的 数据 库 系统 就 不 支持 SQLJ 了 。 
我 们 在 这 里 不 详细 介绍 SQLJ， 更 多 信息 请 参看 参考 文献 。 


5.2 函数 和 过 程 


我 们 已 经 介绍 了 SQL 语言 的 几 个 内 建 函 数 。 在 本 节 中 ， 我们 将 演示 开发 者 如 何 来 编写 他 们 自己 的 
函数 和 过 程 ， 把 它们 存储 在 数据 库 里 并 在 SQL 语句 中 调用 。 函 数 对 于 特定 的 数据 类 型 比如 图 像 和 几何 
对 象 来 说 特别 有 用 。 例 如 ， 用 在 地 图 数据 库 中 的 一 个 线段 数据 类 型 可 能 有 一 个 相关 函数 用 于 判断 两 个 
线段 是 否 交 共 ,一 个 图 像 数 据 类 型 可 能 有 一 个 相关 函数 用 于 比较 两 幅 图 的 相似 性 。 

函数 和 过 程 允许 “业务 逻辑 "作为 存储 过 程 记录 在 数据 库 中 ,并 在 数据 库 内 执行 。 例 如 ， 大 学 里 通 
常 有 许多 规章 制度 ， 规 定 在 一 个 学 期 里 每 个 学 生 能 选 多 少 课 ， 在 一 年 里 一 个 全 职 的 教师 至 少 要 上 多 少 
PR, 一 个 学 生 最 多 可 以 在 多 少 个 专业 中 注册 ， 等 等 。 尽 管 这 样 的 业务 逻辑 能 够 被 写成 程序 设计 语言 
过 程 并 完全 存储 在 数据 库 以 外 ,但 把 它们 定义 成 数据 库 中 的 存储 过 程 有 几 个 优点 。 例 如 ， 它 允许 多 个 
应 用 访问 这 些 过 程 ， 人 允许 当 业 务 规则 发 生变 化 时 进行 单个 点 的 改变 ， 而 不 必 改 变 应 用 系统 的 其 他 部 分 
应 用 代码 可 以 调用 存储 过 程 ， 而 不 是 直接 更 新 数据 库 关系 。 
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SQL 允许 定义 函数 、 过 程 和 方法 。 定 义 可 以 通过 SQL 的 有 关 过 程 的 组 件 ， 也 可 以 通过 外 部 的 程序 
设计 语言 ， 例 如 Java, C 或 C++ 。 我 们 首先 查看 SQL 中 的 定义 ， 然 后 在 5. 2. 3 节 了 解 如 何 使 用 外 部 语 
言 中 的 定义 。 

我 们 在 这 里 介绍 的 是 SQL 标准 所 定义 的 语法 ， 然 而 大 多 数 数 据 库 都 实现 了 它们 自己 的 非 标准 版 本 
的 语法 。 例 如 Oracle( PL/SQL) , Microsoft SQL Sever( TransactSQL ) 和 PostgreSQL( PL/pgSQL) 所 支持 的 过 
程 语言 都 与 我 们 在 这 里 描述 的 标准 语法 有 所 差别 。 我 们 将 在 后 面 用 Oracle 来 举例 说 明 某 些 不 同 之 处 。 
更 进一步 的 详细 信息 可 参见 各 自 的 系统 手册 。 尽 管 我 们 介绍 的 部 分 语法 在 这 些 系统 上 并 不 支持 ， 但 是 
所 阐述 的 概念 在 不 同 的 实现 上 都 是 适用 的 ， 只 是 语法 上 有 所 区 别 。 

5.2.1 声明 和 调用 SQL 函数 和 过 程 

假定 我 们 想 要 这 样 一 个 函数 : 给 定 一 个 系 的 名 字 ， 返 回 
该 系 的 教师 数目 。 我 们 可 以 如 图 5-5 所 示 定 义 函 数 。” 这 个 
函数 可 以 用 在 返回 教师 数 大 于 12 的 所 有 系 的 名 称 和 预算 
的 查询 中 : 


create function dept count(dept name varchar(20)) 
returns integer 
begin 
declare d_count integer; 
select count(*) into d_count 
from instructor 
where instructor.dept_name= dept.name 
return d_count; 
end 










select dept_name, budget 
from department 
where dept_count( dept_name) > 12; 


SQL 标准 支持 返回 关系 作为 结果 的 函数 ;这 种 函数 图 5-5 SQL 中 定义 的 函数 
称 为 表 函 数 (table functions) 。 “考虑 图 5-6 中 定义 的 函数 。 该 函数 返回 一 个 包含 某 特定 系 的 所 有 教师 的 
表 。 注 意 ， 使 用 函数 的 参数 时 需要 加 上 函数 名 作为 前 缀 (instructor_or dept_name) 。 

这 种 函数 可 以 如 下 在 一 个 查询 中 使 用 : 


select * 
from table ( instructor_of ( ‘ Finance’ ) ) ; 


这 个 查询 返回 “金融 ' 系 的 所 有 教师 。 在 上 面 的 简单 情况 下 直接 写 这 个 查询 而 不 用 以 表 为 值 的 函数 也 是 
很 直观 的 。 但 通常 以 表 为 值 的 函数 可 以 被 看 作 带 参数 的 视图 ( parameterized view), 它 通 过 人 允许 参数 把 视 
图 的 概念 更 加 一 般 化 。 








create function instructor_of (dept -name varchar(20)) 
returns table ( 
ID varchar (5), 
nante varchar (20), 
dept_name varchar (20), 
salary numeric (8,2)) 
return table 
(select ID, name, dept_name, salary 
from instructor 
where instructor.dept_name = instructor_of.dept_name); 


图 5-6 SQL 中 定义 的 表 函 数 
SQL 也 支持 过 程 。dept_count 国 数 也 可 以 写成 一 个 过 程 


create procedure dept_count_proc( in dept_name varchar(20) , out d_count integer ) 
begin 
select count( ` ) into d_count 
from instructor 








where instructor. dept_name = dept_count_proc. dept_name 
end 


关键 字 in 和 out 分 别 表示 待 赋值 的 参数 和 为 返回 结果 而 在 过 程 中 设置 值 的 参数 。 





晶 ” 如 果 要 输入 自己 的 函数 和 过 程 ， 应 该 写 “ create or replace” 而 不 是 create ， 这 样 便于 在 调试 时 编辑 代码 (对 旧 的 函 
BET AR) 。 
名 ”这 个 特性 最 早出 现在 SQL: 2003 中 ， 
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可 以 从 一 个 SQL et PA MERA SK SQL 中 使 用 call 语句 调用 过 程 : 
declare d_count integer ; 
call dept_count_proc( * Physics’ , d_count) ; 


过 程 和 函数 可 以 通过 动态 SQL 触发 ， 如 5. 1.1.4 4P JDBC 语法 所 示 。 

SQL 允许 多 个 过 程 同 名 ， 只 要 同名 过 程 的 参数 个 数 不 同 。 名 称 和 参数 个 数 用 于 标识 一 个 过 程 
SQL 也 允许 多 个 函数 同名 ， 只 要 这 些 同 名 的 不 同 函 数 的 参数 个 数 不 同 ， 或 者 对 于 那些 有 相同 参数 个 数 
的 函数 ， 至 少 有 一 个 参数 的 类 型 不 同 。 1174 | 
5.2.2 支持 过 程 和 函数 的 语言 构造 

SQL 所 支持 的 构造 赋予 了 它 与 通用 程序 设计 语言 相当 的 几乎 所 有 的 功能 。SQL 标准 中 处 理 这 些 构 
造 的 部 分 称 为 持久 存储 模块 ( Persistent Storage Module, PSM) 。 

变量 通过 declare 语句 进行 声明 ， 可 以 是 任意 的 合法 SQL 类 型 。 使 用 set 语句 进行 赋值 。 

一 个 复合 语句 有 begin---end 的 形式 ， 在 begin 和 end 之 间 会 包含 复杂 的 SQL 和 语句。 如 我 们 在 
,5. 2. 1 节 中 曾 看 到 的 那样 ， 可 以 在 复合 语句 中 声明 局 部 变量 。 一 个 形 如 begin atomic---end 的 复合 语句 
可 以 确保 其 中 包含 的 所 有 语句 作为 单一 的 事务 来 执行 。 

SQL:1999 支持 while 语句 和 repeat 语句 ， 语 法 如 下 : 


while 布尔 表达 式 do 
语句 序列 ; 


- end while 
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repeat 
语句 序列 ; 
until 布尔 表达 式 
end repeat 
还 有 for 循环 ， 它 允许 对 查询 的 所 有 结果 重复 执行 : 
declare n integer default 0; 
for r as 
select budget from department 
where dept_name = ‘ Music’ 
do 
setn = n-r. budget 
end for 


程序 每 次 获取 查询 结果 的 一 行 ， 并 存 人 for 循环 变量 (在 上 面 例子 中 指 7) 中 。 语句 leave 可 用 来 退出 循 
环 ， 而 iterate 表示 跳 过 剩余 语句 从 循环 的 开始 进入 下 一 个 元 组 。 
SQL 支持 的 条 件 语 句 包括 if-then-else 语句 ， 语 法 如 下 : 
证 布尔 表达 式 
then 语句 或 复合 语句 
elseif 布尔 表达 式 
then 语句 或 复合 语句 
else 语句 或 复合 语句 
end if 

SQL 也 支持 case 语句 ， 类 似 于 C/C ++ 语 言 中 的 case 语句 (加 上 我 们 在 第 3 章 看 到 的 case 表达 式 ) 

图 5-7 提供 了 一 个 有 关 SQL 的 过 程 化 结构 的 更 大 型 一 点 的 例子 。 图 中 定义 的 函数 registerStudent 首先 
确认 选课 的 学 生 数 没有 超过 该 课 所 在 教室 的 容量 ， 然 后 完成 学 生 对 该 课 的 注册 。 函 数 返回 一 个 错误 代码 ， 
这 个 值 大 于 等 于 0 表示 成 功 ， 返 回 负 值 表示 出 错 ， 同 时 以 out 参数 的 形式 返回 消息 来 说 明 失 败 的 原因 。 

SQL 程序 语言 还 支持 发 信号 通知 异常 条 件 ( exception condition) ， 以 及 声明 句柄 (handler) 来 处 理 异 
常 代码 如 下 : 


declare out_of_classroom_seats condition 
declare exit handler for out_of_classroom_seats 
begin 

sequence of statements 

end 
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一 一 在 确保 教室 能 容纳 下 的 前 提 下 注册 一 个 学 生 
一 一 如 果 成 功 注册 ， 返 回 0， 如 果 超 过 教室 容量 则 返回 -1 
| create function registerStudent ( 
in s_id varchar(5) , 
in s_courseid varchar (8) , 
in s_secid varchar (8) , 
in s_semester varchar (6) , 
in s_year numeric (4, 0), 
out errorMsg varchar ( 100) 
returns integer 
begin 
declare currEnro/ int; 
select count( ` ) into currEnrol 
from takes 
where course_id = s_courseid and sec_id = s_secid 
and semester = s_semester and year = s_year; 
declare limit int; 
select capacity into limit 
from classroom natural join section 
where course_id = s_courseid and sec_id = s_secid 
and semester = s_semester and year = s_year; 
if (currEnrol < limit) 
begin 
insert into takes values 
(s_id, s_courseid, s_secid, s_semester, s_year, null) ; 
return(() ; 
end 
和 否则， 已 经 达到 课程 容量 上 限 


set errorMsg = “Enrollment limit reached for course ”| | s_courseid 





| | ’ section’ | | s_secid; 
return( 一 1 ) g 
end; 











图 5-7 学 生 注册 课程 的 过 程 


在 begin 和 end 之 间 的 语句 可 以 执行 signal out_of_classroom_seats 来 引发 一 个 异常 。 这 个 句柄 说 明 ， 如 
果 条 件 发 生 ， 将 会 采取 动作 终止 begin end 中 的 语句 。 另 一 个 可 选 的 动作 将 是 continue， 它 继续 从 引发 
异常 的 语句 的 下 一 条 语句 开始 执行 。 除 了 明确 定义 的 条 件 ， 还 有 一 些 预定 义 的 条 件 ， 比 如 


sqlexception 、sqlwarning 和 not found, 


过 程 和 函数 的 非 标准 语法 
尽管 SQL 标准 为 过 程 和 函数 定义 了 语法 ， 但 是 很 多 数据 库 并 不 严格 遵照 标准 ， 在 语法 支持 方面 
存在 很 多 变化 。 这 种 情况 的 原因 之 一 是 这 些 数据 库 通常 在 语法 标准 制定 之 前 就 已 经 引入 了 对 过 程 和 
函数 的 支持 机 制 ， 然 后 一 直 沿 用 最 初 的 语法 。 在 这 里 把 每 个 数据 库 所 支持 的 语法 罗列 出 来 并 不 现实 ， 
不 过 我 们 可 以 介绍 一 下 Oracle 的 PL/SQL 与 标准 语法 不 同 的 一 些 方面 ， 下 面 是 图 5-5 PH ARE PL 
SQL 里 定义 的 一 个 版 本 。 
create or replace function dept_count( dept_name in instructor. dept_name% type) 
return integer . 
as 
d_count integer ; 
begin 
select count( * ) into d_count 
from instructor 
where instructor. dept_name = dept_name ; 
return d_count; 
end; 
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这 两 个 版 本 在 概念 上 相似 ， 但 还 是 存在 很 多 次 要 的 语法 上 的 区 别 ， 可 以 利用 其 中 一 些 不 同 来 作为 区 
分 两 个 函数 版 本 的 手段 。 尽 管 没有 在 这 里 展示 ， 但 是 PL/SQL 中 关于 控制 流 的 语法 与 在 这 里 所 列 出 
的 也 有 所 不 同 。 

可 以 看 到 ， 通 过 加 % type WR, PL/SQL 允许 把 某 个 类 型 设置 为 关系 的 一 个 属性 的 类 型 。 另 一 
方面 ，PL/SQL 并 不 直接 支持 返回 一 个 表 的 功能 ， 只 能 通过 创建 表 类 型 这 样 的 间接 方法 来 实现 。 其 
他 数据 库 所 支持 的 过 程 语言 同样 含有 很 多 语法 和 语义 上 的 差别 。 更 多 信息 请 查看 相关 语言 的 参考 
资料 。 


5.2.3 外 部 语言 过 程 

尽管 对 SQL 的 过 程 化 扩展 非常 有 用 ， 然 而 可 惜 的 是 这 些 并 不 被 跨 数据 库 的 标准 的 方法 所 支持 。 即 
使 是 最 基本 的 特性 在 不 同 数据 库 产品 中 都 可 能 有 不 同 的 语法 和 语义 。 所 以 ， 程序 员 必 须 针 对 每 个 数据 
库 产 品 学 习 一 门 新 语言 。 还 有 另 一 种 方案 可 以 解决 语言 支持 的 问题 ， 即 在 一 种 命令 式 程序 设计 语言 中 
定义 过 程 ， 然 后 从 SQL 查询 和 触发 器 的 定义 中 来 调用 它 。 

SQL 允许 我 们 用 一 种 程序 设计 语言 定义 函数 ， 比 如 Java、C#、C 或 C++。 这 种 方式 定义 的 函数 会 
HE SQL 中 定义 的 函数 效率 更 高 ， 无 法 在 SQL 中 执行 的 计算 可 以 由 这 些 函 数 执行 。 

外 部 过 程 和 函数 可 以 这 样 指定 (注意 ， 确 切 的 语法 决定 于 所 使 用 的 特定 数据 库 系统 ) : 


create procedure dept_count_proc( in dept_name varchar( 20) , 
out count integer ) 

language C 

external name ’ /usr/avi/bin/dept_count_proc’ 


create function dept count (dept_name varchar( 20) ) 

returns integer 

language C 

external name * /usr/avi/bin/dept_count’ 
通常 来 说 ， 外 部 语言 过 程 需要 处 理 参数 (包含 让 和 out 参数 ) 和 返回 值 中 的 空 值 ， 还 需要 传递 操作 失 
败 / 成 功 的 状态 ， 以 方便 对 异常 进行 处 理 。 这 些 信 息 可 以 通过 几 个 额外 的 参数 来 表示 : 一 个 指明 失败 / 
成 功 状 态 的 sqlstate 值 、 一 个 存储 函数 返回 值 的 参数 ， 以 及 一 些 指明 每 个 参数 /函数 结果 的 值 是 否 为 空 
的 指示 器 变量 。 还 可 以 通过 其 他 机 制 来 解决 空 值 的 问题 ， 例 如 ， 可 以 传递 指针 而 不 是 值 。 具 体 采 用 哪 
种 方法 取决 于 数据 库 。 不 过 ， 如 果 一 个 函数 不 关注 这 些 情 况 ， 可 以 在 声明 语句 的 上 方 添加 额外 的 一 行 
parameter style general 指明 外 部 过 程 /函数 只 使 用 说 明 的 变量 并 且 不 处 理 空 值 和 异常 。 

用 程序 设计 语言 定义 并 在 数据 库 系统 之 外 编译 的 函数 可 以 由 数据 库 系 统 代码 来 加 载 和 执行 。 不 过 
这 么 做 存在 危险 ， 那 就 是 程序 中 的 错误 可 能 破坏 数据 库 内 部 的 结构 ， 并 且 绕 过 数据 库 系统 的 访问 - 控 
制 功 能 。 如 果 数 据 库 系 统 关心 执行 的 效率 胜 过 安全 性 则 可 以 采用 这 种 方式 执行 过 程 。 关 心安 全 性 的 数 
据 库 系统 一 般 会 将 这 些 代码 作为 一 个 单独 进程 的 一 部 分 来 执行 ,通过 进程 间 通 信 ， 传 人 参数 的 值 ， 取 
回 结 果 。 然 而 ， 进 程 间 通信 的 时 间 代 价 相 当 高 ; 在 典型 的 CPU 体系 结构 中 ， 一 个 进程 通信 所 需 的 时 间 
可 以 执行 数 万 到 数 十 万 条 指令 。 

如 果 代 码 用 Java 或 C# 这 种 “安全 ” 的 语言 书写 ， 则 会 有 第 三 种 可 能 : 在 数据 库 进程 本 身 的 沙 盒 
(sandbox) 内 执行 代码 。 沙 盒 允许 Java 或 C# 代 码 访问 它 的 内 存 区 域 ， 但 阻止 代码 直接 在 查询 执行 过 程 
的 内 存 中 做 任何 读 操作 或 者 更 新 操作 ， 或 者 访问 文件 系统 中 的 文件 。( 在 如 C 这 种 语言 中 创建 一 个 沙 
盒 是 不 可 能 的 ， 因 为 C 语言 允许 通过 指针 不 加 限制 地 访问 内 存 。) 避免 进程 间 通 信和 能 够 大 大 降低 函数 调 
用 的 时 间 代 价 。 

当今 的 一 些 数据 库 系 统 支 持 外 部 语言 例 程 在 查询 执行 过 程 中 的 沙 盒 里 运行 。 例 如 ，Oracle 和 IBM 
DB2 允许 Java 函数 作为 数据 库 过 程 中 的 一 部 分 运行 。Microsoft SQL Server 允许 过 程 编译 成 通用 语言 运 
行程 序 (CLR) 来 在 数据 库 过 程 中 执行 ; 这 样 的 过 程 可 以 用 C# 或 Visual Basic 编写 。PostgreSQL 允许 在 
Perl, Python 和 Tel 等 多 种 语言 中 定义 函数 。 
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5.3 触发 器 


触发 器 (trigger) 是 一 条 语句 ， 当 对 数据 库 作 修改 时 ， 它 自动 被 系统 执行 。 要 设置 触发 器 机 制 ， 必 
须 满足 两 个 要 求 : 

© 指明 什么 条 件 下 执行 触发 器 。 它 被 分 解 为 一 个 引起 触发 器 被 检测 的 事件 和 一 个 触发 器 执行 必须 

满足 的 条 件 。 

。 指明 触发 器 执行 时 的 动作 。 
一 旦 我 们 把 一 个 触发 器 输入 数据 库 ， 只 要 指定 的 事件 发 生 ， 相 应 的 条 件 满 足 ， 数 据 库 系统 就 有 责任 去 
执行 它 。 
5.3.1 对 触发 器 的 需求 

触发 器 可 以 用 来 实现 未 被 SQL 约束 机 制 指定 的 某 些 完整 性 约束 。 它 还 是 一 种 非常 有 用 的 机 制 ， 用 

来 当 满足 特定 条 件 时 对 用 户 发 警报 或 自动 开始 执行 某 项 任务 。 例 如 ， 我 们 可 以 设计 一 个 触发 器 ， 只 要 
有 元 组 被 插入 takes 关系 中 ， 就 更 新 student 关系 中 选课 的 学 生 所 对 应 的 元 组 ， 把 该 课 的 学 分 加 入 这 个 学 
生 的 总 学 分 中 。 作 为 另 一 个 应 用 触发 器 的 例子 ， 假 设 一 个 仓库 希望 每 种 物品 的 库存 保持 一 个 最 小 量 ; 当 
某 种 物品 的 库存 少 于 最 小 值 的 时 候 ， 自 动 发 出 一 个 订货 单 。 在 更 新 某 种 物品 的 库存 的 时 候 ， 触 发 器 会 比 
较 这 种 物品 的 当前 库存 和 它 的 最 小 库存 ， 如 果 库 存 数量 等 于 或 小 于 最 小 值 ， 就 会 生成 一 个 新 的 订单 。 

注意 ， 触 发 器 系统 通常 不 能 执行 数据 库 以 外 的 更 新 ， 因 此 ， 在 上 面 的 库存 补充 的 例子 中 ， 我 们 不 
能 用 一 个 触发 器 去 直接 在 外 部 世界 下 订单 ， 而 是 在 存放 订单 的 关系 中 添加 一 个 关系 记录 。 我 们 必须 另 
外 创建 一 个 持久 运行 的 系统 进程 来 周期 性 扫描 该 关系 并 订购 产品 。 某 些 数 据 库 系 统 提 供 了 内 置 的 支持 ， 
可 以 使 用 上 述 方法 从 SQL 查询 和 触发 器 中 发 送 电子 邮件 。 
5.3.2 SQL 中 的 触发 器 

现在 我 们 来 看 如 何在 SQL 中 实现 触发 器 。 我 们 在 这 里 介绍 的 是 SQL 标准 定义 的 语法 ,但 是 大 部 分 
数据 库 实 现 的 是 非 标准 版 本 的 语法 。 尽 管 这 里 所 述 的 语法 可 能 不 被 这 些 系统 支持 ， 但 是 我 们 阐述 的 概 
念 对 于 不 同 的 实现 方法 都 是 适用 的 。 我 们 将 在 本 章 未 尾 讨论 非 标准 的 触发 器 实现 。 

图 5-8 展示 了 如 何 使 用 触发 器 来 确保 关系 section 中 属性 time_slot_id 的 参照 完整 性 。 图 中 第 一 个 触 
发 器 的 定义 指明 该 触发 器 在 任何 一 次 对 关系 section 的 插入 操作 执行 之 后 被 启动 ， 以 确保 所 插入 元 组 的 
time_slot_id 字段 是 合法 的 。 一 个 SQL 插入 语句 可 以 向 关系 中 插入 多 个 元 组 ,在 触发 器 代码 中 的 for 
each row 语句 可 以 显 式 地 在 每 一 个 被 插入 的 行 上 进行 迭代 。referencing new row as 语句 建立 了 一 个 变 
量 nrow( 称 为 过 渡 变 量 ( transition variable) ) ， 用 来 在 插入 完成 后 存储 所 插入 行 的 值 。 





create trigger timeslot_check| after insert on section 
referencing new row as nrow 
for each row 
when (nrow. time_slot_id not in ( 
select time_slot_id 
from time_slot) ) / * time_slot 中 不 存在 该 time_slot_id * / 
begin 
rollback 
end; 
create trigger timeslot_check2 after delete on time slot 
referencing old row as orow 
for each row 
when (orow. time_slot_id not in ( 
select time_slot_id 
from time_slot) / * E time_slot 中 刚刚 被 删除 的 time_slot_id */ 
and orow. time_slot_id in ( 
select time_slot_id 


from section) ) / * 在 section 中 仍 含 有 该 time_slot_id 的 引用 */ 


rollback 
end; | 


图 5-8 使 用 触发 器 来 维护 参照 完整 性 
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when 语句 指定 一 个 条 件 。 仅 对 于 满足 条 件 的 元 组 系统 才 会 执行 触发 器 中 的 其 余部 分 。begin 
atomic ---end 语句 用 来 将 多 行 SQL 语句 集成 为 一 个 复合 语句 。 不 过 在 我 们 的 例子 中 只 有 一 条 语句 ， 它 
对 引起 触发 器 被 执行 的 事务 进行 回 滚 。 这 样 ， 所 有 违背 参照 完整 性 约束 的 事务 都 将 被 回 滚 ， 从 而 确保 
数据 库 中 的 数据 满足 约束 条 件 。 

只 检查 插 和 人 时 的 参照 完整 性 还 不 够 ， 我 们 还 需要 考虑 对 关系 section 的 更 新 ， 以 及 对 被 引用 的 表 
time_slot 的 删除 和 更 新 操作 。 图 5-8 定义 的 第 二 个 触发 器 关注 的 是 time_slot 表 的 删除 。 该 触发 器 检查 被 
删除 元 组 的 time_slot_id 要 么 还 在 time_slot F, ZA section 里 不 存在 包含 这 个 time_slot_id 值 的 元 组 ; 否 
则 将 违背 参照 完整 性 。 

为 了 保证 参照 完整 性 ， 我 们 也 必须 为 处 理 section 和 time_slot 的 更 新 来 创建 触发 器 ; 我 们 接 下 来 将 
介绍 如 何在 更 新 时 执行 触发 器 ， 不 过 ， 该 如 何 定义 这 些 触发 器 就 留 给 读者 作为 练习 。 

对 于 更 新 来 说 ， 触 发 器 可 以 指定 哪个 属性 的 更 新 使 其 执行 ; 而 其 他 属性 的 更 新 不 会 让 它 产生 动作 。 
例如 ， 为 了 指定 当 更 新 关系 takes 的 属性 grade 时 执行 触发 器 ， 我 们 可 以 这 样 写 ; 

after update of takes on grade 

referencing old row as 子 句 可 以 建立 一 个 变量 用 来 存储 已 经 更 新 或 删除 行 的 旧 值 。referencing new 
row as 子 句 除了 插入 还 可 以 用 于 更 新 操作 。 

如 图 5-9 所 示 ， 当 关系 takes 中 元 组 的 属性 grade 被 更 新 时 ， 需 要 用 触发 器 来 维护 student 里 元 组 的 
tot_cred 属性 ， 使 其 保持 实时 更 新 。 只 有 当 属性 grade 从 空 值 或 者 'F 被 更 新 为 代表 课程 已 经 完成 的 具 
体 分 数 时 ， 触 发 器 才 被 激发 。 除 了 nrow 的 使 用 ，update 语句 都 属于 标准 的 SQL 语法 。 





create trigger credits_earned after update of takes on ( grade) | 
referencing new row as nrow 
referencing old row as orow 
for each row 
when nrow. grade < > ’F’ and nrow. grade is not null 
and (orow. grade = ’' F’ or orow. grade is null) | 
begin atomic 
update student 
set tot_cred = tot_cred + 
(select credits 
from course 
where course. course_id = nrow. course_id ) 
where siudent. id = nrow. id; 
end; 


图 5-9 使 用 触发 器 来 维护 credits_earned 值 


本 例 中 触发 器 的 更 实际 的 实现 还 可 以 解决 分 数 更 正 的 问题 ， 包 括 把 成 功 结 课 的 分 数 改 成 不 及 格 分 
数 ， 以 及 向 关系 takes 中 插入 含有 表示 成 功 结 课 的 grade 值 的 元 组 。 读 者 可 以 把 这 些 实现 作为 练习 

另 举 一 个 使 用 触发 器 的 例子 ， 当 删除 一 个 student 元 组 的 事件 发 生 时 ， 需 要 检查 关系 takes 中 是 否 存 
在 与 该 学 生 相 关 的 项 ， 如 果 有 则 删除 它 。 

许多 数据 库 系统 支持 各 种 别 的 触发 器 事件 ， 比 如 当 一 个 用 户 ( 应 用 程序 ) 登 录 到 数据 库 ( 即 打开 一 
个 连接 ) 的 时 候 ， 或 者 当 系 统 停止 的 时 候 ， 或 者 当 系 统 设置 改变 的 时 候 。 

触发 器 可 以 在 事件 (insert delete 或 update) 之 前 激发 ， 而 不 仅 是 事件 之 后 。 在 事件 之 前 被 执行 的 
触发 器 可 以 作为 避免 非法 更 新 、 插 入 或 删除 的 额外 约束 。 为 了 避免 执行 非法 动作 而 产生 错误 ， 和 触发 器 
可 以 采取 措施 来 纠正 问题 ， 使 更 新 、 插 人 或 删除 操作 合法 化 。 例 如 ， 假 设 我 们 想 把 一 个 教师 插入 某 个 
系 ， 而 该 系 的 名 称 并 不 在 关系 department 中 ， 那 么 触发 器 就 可 以 提前 向 关系 department 中 加 入 该 系 名 
称 ， 以 避免 在 插入 时 产生 外 码 冲 突 。 男 一 个 例子 是 ,假设 所 插入 分 数 的 值 为 空白 则 表明 该 分 数 发 生 缺 
失 。 我 们 可 以 定义 一 个 触发 器 ， 将 这 个 值 用 null 值 代替 。set 语句 可 以 用 来 执行 这 样 的 修改 。 这 种 触发 
器 的 例子 如 图 5-10 所 示 。 
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我 们 可 以 对 引起 插入 、 删 除 或 更 新 的 SQL 语句 执行 单一 动作 ， 而 不 是 对 每 个 被 影响 的 行 执行 一 个 
动作 。 要 做 到 这 一 点 ， 我 们 用 for each statement FAJRE PENAS O ET 
代 for each row 子 句 。 可 以 用 子 句 referencing old table as Er 
或 referencing new table as 来 指向 包含 所 有 的 被 影响 的 行 each row el dogs 
的 临时 表 ( 称 为 过 渡 表 (transition table) ) 。 过 渡 表 不 能 用 于 he Steen 
before 触发 器 > 但 是 可 以 用 于 after 触发 器 ， 无 论 它 们 是 set nrow. grade = null; 
语句 触发 器 还 是 行 触发 器 。 这 样 ， 在 过 渡 表 的 基础 上 ， 一 end; 

个 单独 的 SQL 语句 就 可 以 用 来 执行 多 个 动作 。 图 5-10 使 用 set 来 更 改 插入 值 的 例子 
非 标准 的 触发 器 语法 


尽管 我 们 在 这 里 介绍 的 触发 器 语法 是 SQL 标准 的 一 部 分 ， 并 被 IBM DB2 所 支持 ， 但 是 大 多 数 其 
他 的 数据 库 系 统 用 非 标 准 的 语法 来 说 明 触 发 器 ， 不 一 定 实现 了 SQL 标准 的 所 有 特性 。 我 们 将 在 下 面 
概述 其 中 的 一 些 不同 ; 更 进一步 的 细节 请 参考 相关 的 系统 手册 。 

例如 ， 与 SQL 标准 语法 不 同 的 是 ，Oracle 的 语法 中 ， 在 referencing 语句 中 并 没有 关键 词 row， 
m LÆ begin 之 后 没有 关键 词 atomic。 在 update 语句 中 嵌入 的 select 语句 对 nrow 的 引用 必须 以 冒 
号 (:) 为 前 缓 ， 用 以 向 系统 说 明 变 量 now 是 在 SQL 语句 之 外 所 定义 的 。 更 不 一 样 的 是 ， 在 when 
和 道子 名 中 不 允许 包含 子 查询 。 可 以 用 下 面 的 方法 绕 过 这 个 限制 把 复杂 的 谓词 从 when 子 句 移 到 
单独 的 查询 中 ， 用 本 地 变量 保存 查 询 结 果 ， 然 后 在 一 个 证 子 句 里 引用 该 变量 ， 并 把 触发 器 的 内 容 
移动 到 相关 的 then 子 句 里 。 更 进一步 ，Oracle 中 的 触发 器 不 允许 直接 执行 事务 回 滚 ; 但 是 ， 可 以 
使 用 函数 raise_application_error 来 代替 它 ， 它 在 回 滚 事务 的 同时 返回 错误 信息 给 执行 更 新 的 用 
户 / 应 用 程序 。 

另 一 个 例子 是 ， 在 Microsoft SQL Server 中 用 关键 字 on 来 替代 after。 不 支持 referencing 子 名 ， 而 
是 用 deleted 和 inserted 修饰 元 组 变量 来 表示 被 影响 的 行 的 旧 值 和 新 值 。 另 外 ， 语 法 中 略 去 了 for 
each row 74), # A if RAA when。 不 支持 before 语句 样式 ， 但 是 支持 instead of 语法 。 

在 PostgreSQL 中 ， 触 发 器 的 定义 不 包含 执行 内 容 ， 而 是 对 每 一 行 调用 一 个 过 程 ， 使 用 old 和 new 
来 访问 包含 该 行 的 旧 值 和 新 值 的 变量 。 触 发 器 不 进行 回 滚 ， 而 是 发 出 一 个 异常 ， 该 异常 中 包含 了 相 
关 的 错误 信息 。 


触发 器 可 以 设 为 有 效 或 者 无 效 : 默认 情况 下 它们 在 创建 时 是 有 效 的 ,但 是 可 以 通过 使 用 alter 
trigger trigger_name disable( 某 些 数据 库 使 用 另 一 种 语法 ， 比 如 disable trigger irigger_name ) 将 其 设 为 无 
效 。 设 为 无 效 的 触发 器 可 以 重新 设 为 有 效 。 通 过 使 用 命令 drop trigger trigger_name， 触 发 器 也 可 以 被 
丢弃 ， 即 将 其 永久 移 除 。 

回 到 仓库 库存 的 例子 ,假设 有 如 下 的 关系 : 

© inventory( item，level) ， 表 示 物 品 在 仓库 中 的 当前 库存 量 。 

© minlevel( item，level) ,表示 物品 应 该 保持 的 最 小 库存 量 。 

e reorder( item, amount) ， 表 示 当 物品 小 于 最 小 库存 量 的 时 候 要 订购 的 数量 。 

© orders( item, amount) ， 表 示 物 品 被 订购 的 数量 。 

注意 我 们 已 经 很 小 心地 在 仅 当 物品 库存 量 从 大 于 最 小 值 降 到 最 小 值 以 下 的 时 候 才 下 达 一 个 订单 。 
如 果 只 检查 更 新 后 的 新 数值 是 否 小 于 最 小 值 ， 就 可 能 在 物品 已 经 被 重 订 购 的 时 候 错误 地 下 达 一 个 订单 。 
我 们 可 以 用 图 5-11 中 的 触发 器 来 重新 订购 物品 。 

尽管 触发 器 在 SQL:1999 之 前 并 不 是 SQL 标准 的 一 部 分 ， 但 是 它 仍 被 广泛 地 应 用 在 基于 SQL 的 数 
据 库 系统 中 。 遗 憾 的 是 ， 每 个 数据 库 系 统 都 实现 了 自己 的 触发 器 语法 ， 导 致 彼此 不 能 兼容 。 我 们 在 这 
里 用 的 是 SQL:1999 的 触发 器 语法 ， 它 与 IJBM 的 DB2 以 及 Oracle 数据 库 系统 的 语法 比较 相似 ， 但 不 完 
全 一 致 。 
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create trigger reorder after update of level on inventory 
referencing old row as orow, new row as nrow 
for each row 
when nrow. level <= (select level 
from minlevel 
where minlevel. item = orow. item) 
and orow. level > (select level 
from minlevel 
where minilevel. item = orow. item) 
begin atomic 
insert into orders 
(select item, amount 
from reorder 
where reorder. item = orow. item) ; 








end H 








图 5-11 重新 订购 物品 的 触发 器 例子 


5.3.3 何 时 不 用 触发 器 

触发 器 有 很 多 合适 的 用 途 ， 例 如 我 们 刚刚 在 5.3.2 节 中 看 到 的 那些 ,然而 有 一 些 场合 最 好 用 别 
的 技术 来 处 理 。 比 如 ， 我 们 可 以 用 触发 器 替代 级 联 特性 来 实现 外 码 约 束 的 on delete cascade 特性 。 然 
而 这 样 不 仅 需要 完成 更 大 的 工作 量 ， 而 且 使 数据 库 中 实现 的 约束 集合 对 于 数据 库 用 户 来 说 更 加 难以 
理解 。 

举 另 外 一 个 例子 ， 可 以 用 触发 器 来 维护 物化 视图 。 例 如 ， 如 果 我 们 希望 能 够 快速 得 到 每 节 课 所 注 
册 的 学 生 总 数 ， 我 们 可 以 创建 一 个 关系 来 实现 这 个 功能 : 


section_registration( course_id, sec_id, semester, year, total_students ) 
它 由 以 下 查询 所 定义 : 


select course_id, sec_id, semester, year, count(/D) as total_students 
from takes 
group by course_id, sec_id, semester, year; 


在 对 关系 takes 进行 插入 、 删 除 或 更 新 时 ， 每 门 课 的 total_students 的 值 必须 由 触发 器 来 维护 到 最 新 状态 。 
维护 时 可 能 要 对 section_registration 做 插入 、 更 新 或 删除 ， 这 些 都 相应 地 写 在 触发 器 里 。 

然而 ， 许 多 数据 库 现在 支持 物化 视图 ， 由 数据 库 系 统 自动 维护 ( 见 4.2.3 节 )。 因 此 没 必要 编写 代 
码 让 触发 器 来 维护 这 样 的 物化 视图 。 

触发 器 也 被 用 来 复制 或 者 备份 数据 库 ; 在 每 一 个 关系 的 插入 、 删 除 或 更 新 的 操作 上 创建 触发 器 ， 
将 改变 记录 在 称 为 change 或 delta 的 关系 上 。 一 个 单独 的 进程 将 这 些 改变 复制 到 数据 库 的 副本 。 然 而 ， 
现代 的 数据 库 系 统 提供 内 置 的 数据 库 复 制 工具 ， 使 得 复制 在 大 多 数 情 况 下 不 必 使 用 触发 器 。 本 书 将 在 
第 19 章 详细 讨论 复制 数据 库 。 

触发 器 的 另 一 个 问题 是 当 数 据 从 一 个 备份 的 拷贝 “中 加 载 ， 或 者 一 个 站 点 上 的 数据 库 更 新 复制 到 
备份 站 点 的 时 候 ， 触 发 器 动作 的 非 故意 执行 。 在 该 情况 下 ， 和 触发 器 动作 已 经 执行 了 ， 通 常 不 应 该 再 次 
执行 。 在 加 载 数据 的 时 候 ， 触 发 器 应 当 显 式 设 为 无 效 。 对 于 要 接管 主 系统 的 备份 复制 系统 ， 触 发 器 应 
”该 一 开始 就 设 为 无 效 ， 而 在 备份 站 点 接管 了 主 系统 的 业务 后 ， 再 设 为 有 效 。 作 为 取代 的 方法 ， 一 些 数 
据 库 系 统 允 许 触发 器 定义 为 not for replication， 保 证 触发 器 不 会 在 数据 库 备 份 的 时 候 在 备份 站 点 执行 。 
男 一 些 数 据 库 系统 提供 了 一 个 系统 变量 用 于 指明 该 数据 库 是 一 个 副本 ,数据 库 动 作 在 其 上 是 重 放 ; 触 
发 器 会 检查 这 个 变量 ， 如 果 为 真 则 退出 执行 。 这 两 种 解决 方案 都 不 需要 显 式 地 将 触发 器 设 为 失效 或 
有 效 。 

写 触发 器 时 ， 应 特别 小 心 ， 这 是 因为 在 运行 期 间 一 个 触发 器 错误 会 导致 引发 该 触发 器 的 动作 语句 





O ”我 们 将 在 第 16 章 详 细 讨 论 数据 库 备 份 和 从 故障 中 恢复 的 内 容 。 
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失败 。 而 且 ， 一 个 触发 器 的 动作 可 以 引发 另 一 个 触发 器 。 在 最 坏 的 情况 下 ， 这 甚至 会 导致 一 个 无 限 的 
触发 链 。 例 如 ， 假 设 在 一 个 关系 上 的 插入 触发 器 里 有 一 个 动作 引起 在 同一 关系 上 的 男 一 个 (新 的 ) 插 
和 人 ,该 新 插入 动作 也 会 引起 另 一 个 新 插入 ， 如 此 无 穷 循环 下 去 。 有 些 数 据 库 系统 会 限制 这 种 触发 器 链 
的 长 度 (例如 16 或 32) ， 把 超过 此 长 度 的 触发 器 链 看 作 是 一 个 错误 。 另 一 些 系统 把 引用 特定 关系 的 触 
发 器 标记 为 错误 ， 对 该 关系 的 修改 导致 了 位 于 链 首 的 触发 器 被 执行 。 

触发 器 是 很 有 用 的 工具 ， 但 是 如 果 有 其 他 候选 方法 就 最 好 别 用 触发 器 。 很 多 触发 器 的 应 用 都 可 以 
用 适当 的 存储 过 程 来 替换 ， 后 者 我 们 在 5.2 节 已 经 介绍 过 了 。 


5.4 递归 查询 


考虑 图 5-12 中 的 例子 ， 关系 prereg 的 实例 包含 大 学 开设 的 各 门 课程 的 信息 
以 及 每 门 课 的 先 修 条 件 。° 

假设 我 们 想 知道 某 个 特定 课程 (例如 CS-347 ) 的 直接 或 者 间接 的 先 修 课 程 。 zay | cs101 
也 就 是 说 ， 我 们 想 找 到 这 样 的 课 ， 要 么 是 选修 CS-347 的 直接 先决 条 件 ， 要 么 是 | EE-181 | PHY-101 
选修 CS-347 的 先 修 课程 的 先决 条 件 ， 以 此 类 推 。 图 5-12 关系 prereg 

因此 ， 如 果 CS-301 是 CS-347 的 先 修 课 程 ， 并 且 CS-201 是 CS301 的 先 修 课 
程 ， 还 有 CS-101 是 CS-201 的 先 修 课 程 ， 那 么 CS-301 、CS-201 、CS-101 都 是 CS-347 的 先 修 课程 。 

关系 prereg 的 传递 闭 包 (transitive closure) 是 一 个 包含 所 有 (cid，pre) 对 的 关系 ,pre 是 cid 的 一 个 直 
接 或 间接 先 修 课程 。 有 许多 要 求 计算 与 此 类 似 的 层次 (hierarchy ) 的 传递 闭 包 的 应 用 。 例 如 ， 机 构 通 常 
由 几 层 组 织 单元 构成 。 机 器 由 部 件 构成 ， 而 部 件 又 有 子 部 件 ， 如 此 类 推 ;例如 ， 一 辆 自行 车 可 能 有 子 
部 件 如 车 轮 和 踏板 ， 它 们 又 有 子 部 件 如 轮胎 、 轮 圈 、 辐 条 。 可 以 对 这 种 层次 结构 使 用 传递 闭 包 来 找 出 ， 
例如 ， 自 行车 中 的 所 有 部 件 。 

5.4.1 用 和 迭代 来 计算 传递 闭 包 

一 个 写 上 述 查 询 的 方法 是 使 用 迭代 : 首先 找到 CS-347 的 那些 直接 先 修 课程 ， 然 后 是 第 一 个 集合 中 
的 所 有 课程 的 先 修 课 程 ， 如 此 类 推 。 和 迭代 持 续 进行 ， 直 到 某 次 循环 中 没有 新 课程 加 进来 才 停 止 。 图 
5-13 显 示 了 执行 这 项 任务 的 函数 findAllPreregs( cid); 这 个 函数 以 课程 的 course_id 为 参数 (cid) ， 计 算 该 
课程 所 有 直接 或 间接 的 先 修 课 程 并 返回 它们 组 成 的 集合 。 

过 程 中 用 到 了 三 个 临时 表 : 

© c_prereq: 存储 要 返回 的 元 组 集合 。 

© new_c_prereq: 存储 在 前 一 次 迭代 中 找到 的 课程 。 

© temp: 当 对 课程 集合 进行 操作 时 用 作 临 时 存储 。 

TER, SQL 允许 使 用 命令 create temporary table 来 创建 临时 表 ; 这 些 表 仅 在 执行 查询 的 事务 内 部 才 可 
用 ， 并 随 事务 的 完成 而 被 删除 。 而 且 ， 如 果 findAllPreregs 的 两 个 实例 同时 运行 ， 每 个 实例 都 拥有 自己 
的 临时 表 副 本 ; 假设 它们 共享 一 份 副本 ,结果 就 会 出 错 。 

该 过 程 在 repeat 循环 之 前 把 课程 cid 的 所 有 直接 先 修 课程 插入 new_c_prereg 中 。repeat 循环 首先 把 
new_c_prereq 中 所 有 课程 加 入 c_prereq 中 。 然 后 ， 它 为 new_c_prereg 中 的 所 有 课程 计算 先 修 课 程 ， 从 结果 中 得 
选 掉 此 前 已 经 计算 出 来 是 cid 的 先 修 课 的 课程 ， 把 剩 下 的 存放 在 临时 表 temp 中。 最后， 它 把 new_c_prereg 中 
的 内 容 替 换 成 temp 中 的 内 容 。 当 找 不 到 新 的 (间接 ) 先 修 课 程 时 ，repeat 循环 终止 。 

以 CS-347 为 参数 调用 以 上 过 程 ， 图 5-14 显示 了 每 次 迭 代 中 找到 的 先 修 课程 。 

我 们 注意 到 在 函数 中 使 用 except 子 句 保证 即使 在 先 修 关系 中 存在 环 时 ( 非 正 常情 况 )， 函 数 也 能 工 
作 。 例 如 ， 如 果 a Ab 的 先 修 课 ,4b Ac 的 先 修 课 ,c 为 a 的 先 修 课 ， 则 存在 一 个 环 。 


_courseid | prereqid | 
BIO-301 | BIO-101 | 
BIO-399 | BIO-101 | 
CS-190 | CS-101 | 
| 
| 
| 
| 
| 








CS-315 CS-101 
CS-319 CS-101 








O prereg 的 实例 与 我 们 以 前 使 用 的 有 所 不 同 ， 其 原因 当 我 们 用 它 来 解释 递归 查询 时 就 能 看 得 很 清楚 了 。 


第 5 章 高 级 SQL 








create function findAllPreregs( cid varchar(8) ) 
一 一 找 出 cid 的 所 有 ( 直接 或 间接 ) 先 修 课程 
returns table (course_id varchar(8 ) ) 


一 一 关系 prereg( course_id, prereq_id) 指明 哪 一 门 课程 是 另 一 门 课 的 直接 先 修 课 


begin 
create temporary table c_prereq (course_id varchar(8) ) ; 


一 一 表 c_prereq 存储 将 要 返回 的 课程 集合 


create temporary table new_c_prereq (course_id varchar(8) ) ; 


一 一 表 new_c_prereq 包含 上 一 次 迭代 中 发 现 的 课程 
create temporary table temp (course_id varchar(8) ) ; 
表 temp 用 来 存储 中 间 结 果 
insert into new_c_prereq 

select prereg_id 

from prereq 

where course_id = cid; 
repeat 

insert into c_prereq 

select course_id 

from new_c_prereg ; 

insert into temp 

(select prereg. course_id 
from new_c_prereq , prereq 
where new_c_prereq. course_id = prereq. prereq_id 

) 

except ( 

select course_id 

from c_prereq 

ds 

delete from new_c_prereg; 

insert into new_c_prereq 
select” 
from temp; 

delete from temp; 





until not exists ( select’ from new_c_prereq) 
end repeat; 
return table c_prereq; 
end 








图 5-13 ”找到 某 门 课 的 所 有 先 修 课程 


尽管 在 课程 先 修 关 系 中 不 存在 环 是 不 现实 的 ， 但 循环 可 能 在 其 他 应 用 中 存在 。 例 如 ， 假 设 我 们 有 


一 个 关系 flighis( to, from) 表 示 哪 个 城市 可 以 从 其 他 城市 
直接 飞 达 。 我 们 可 以 写 类 似 于 findAllPreregs 函数 的 代码 | 
来 找到 所 有 从 某 个 给 定 城市 出 发 通过 一 次 或 一 系列 的 飞 
行 可 以 到 达 的 城市 。 我 们 所 要 做 的 只 是 用 flight (CE 
prereq 并 且 蔡 换 相 应 的 属性 名 称 。 在 这 个 情况 下 可 能 存 


在 可 达 关 系 的 环 


所 有 已 见 过 的 城市 去 掉 。 





Iteration Number | Tuples in c1 | 








本 OO 





(CS-301) | 
(CS-301), (CS-201) 

(CS-301), (CS-201) 

(CS-301), (CS-201), (CS-101) 
(CS-301), (CS-201), (CS-101) | 





， 但 函数 仍然 会 正确 工作 ， 因 为 它 会 将 


5.4.2 SQL 中 的 递归 
用 迭代 表示 传递 闭 包 是 挺 不 方便 的 。 还 有 另 一 种 方法 ， 即 使 用 递归 视图 定义 ， 这 种 方法 更 加 容易 


使 用 。 


图 5$-14 函数 .fid41Preregs 迭代 过 程 中 
产生 的 CS-347 的 先 修 课 程 


我 们 可 以 用 递归 为 某 个 指定 课程 如 CS-347 定义 先 修 课程 集合 ， 方 法 如 下 。CS-347 的 (直接 或 间接 


的 ) 先 修 课程 是 : 


。 CS-347 的 先 修 课 程 。 
。 作为 CS-347 的 ( 直接 或 间接 的 ) 先 修 课 程 的 先 修 课 程 的 课程 。 
注意 ， 第 二 条 是 递归 ， 因 为 它 用 CS-347 的 先 修 课 程 来 定义 CS-347 的 先 修 课 程 。 传 递 闭 包 的 其 他 例子 
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如 找 出 一 个 给 定 部 件 的 所 有 直接 或 间接 子 部 件 同样 可 以 类 似 地 递归 定义 。 

从 SQL:1999 开始 ，SQL 标准 中 用 with recursive 子 句 来 支持 有 限 形式 的 递归 ， 在 递归 中 一 个 视图 
(或 临时 视图 ) 用 自身 来 表达 自身 。 例 如 ， 递 归 查 询 可 以 用 于 精确 地 表达 传递 闭 包 。 回 忆 with 子 句 用 于 
定义 一 个 临时 视图 ， 该 视图 的 定义 只 对 定义 它 的 查询 可 用 。 附 加 的 关键 字 recursive 表示 该 视图 是 递 
归 的 。 

例如 ， 用 图 5-15 中 显示 的 递归 SQL 视图 ， 我 们 可 以 找到 每 一 对 (cid, pre) ， 其 中 pre 是 cid 的 直接 
或 间接 的 先 修 课程 。 

任何 递归 视图 都 必须 被 定义 为 两 个 子 查 询 的 并 : 一 个 非 递 归 的 基 查 询 (base query ) 和 一 个 使 用 递归 
视图 的 递归 查询 (recursive query) 。 在 图 5-15 所 示 的 例子 中 ， 基 查询 是 关系 prereg 上 的 选择 操作 ， 而 递 





归 查 询 则 计算 prereq 和 rec_prereq 的 连接 。 

对 递归 视图 的 含义 最 好 的 理解 如 下 。 首 先 计 

with recursive rec_prereq( course_id, prereq_id) as ( 

算 基 查询 并 把 所 有 结果 元 组 添加 到 视图 关系 rec_ select course_id, prereq_id 
prereq( 初始 时 为 空 ) 中 。 然 后 用 当前 视图 关系 的 内 a 
容 计算 递归 查询 , 并 把 所 有 结 果 元 组 加 回 到 视 select rec_prereq. course_id, prereg. prereq_id 
关系 中 。 持 续 重 复 上 述 步骤 直至 没有 新 的 元 组 添 from prereq, rec_prereq 
加 到 视图 关系 中 为 止 。 得 到 的 视 图 关系 实 例 就 称 where prereq. course_id = rec_prereq. prereq_id 
为 递归 视图 定义 的 一 个 不 动 点 (fixed point), (R select ` 
语 “ 不 动 " 是 指 不 会 再 有 进一步 的 改变 。) 这 样 视 图 from. res prerag’s 











关系 被 定义 为 正好 包含 处 于 不 动 点 实例 中 的 元 组 。 图 5-15 ”SQL 中 的 递归 查询 


把 上 述 逻 辑 应 用 到 我 们 的 例子 中 ,我 们 将 首先 通过 执行 基 查 询 找到 每 门 课 的 直接 先 修 课 程 。 递 归 
查询 会 在 每 次 迭代 过 程 中 增加 一 层 课程 ， 直 到 达到 课程 - 先 修 课 程 关 系 的 最 大 层次 。 在 这 时 将 不 会 再 
有 新 的 元 组 添加 到 视图 中 ， 同 时 达到 了 一 个 不 动 点 。 

为 了 找到 指定 课程 的 先 修 课程 ， 以 CS-347 为 例 ， 我们 可 以 加 入 where 子 句 “where rec_prereg. course 
_id =“ CS-347' "来 修改 外 层 查 询 。 对 如 此 条 件 的 查询 进行 求 值 ， 方 法 之 一 是 : 先 使 用 迭代 技术 计算 rec 
prere 的 所 有 内 容 ， 然 后 从 结果 中 选择 course_id 为 CS-347 的 那些 元 组 。 但是， 这 样 需要 为 所 有 课程 计 
算 ( 课 程 ， 先 修 课 程 ) 对 ， 其 中 ， 除 了 涉及 CS-347 的 之 外 ， 其 他 的 都 不 相关 。 事 实 上 ， 数 据 库 系统 没有 
必要 使 用 上 述 迭 代 技 术 计 算 递 归 查 询 的 完整 结果 然后 进行 筛选 。 可 以 使 用 其 他 效率 更 高 的 技术 来 得 到 
相同 的 结果 ， 比 如 findAliPreregs 函数 中 用 到 的 方法 看 起 来 就 更 简单 些 。 更 多 信息 请 参阅 参考 文献 。 

递归 视图 中 的 递归 查询 是 有 一 些 限 制 的 ; 具体 地 说 ， 该 查询 必须 是 单调 的 ( monotonic) ， 也 就 是 
说 ， 如 果 视 图 关系 实例 V 是 实例 V 的 超 集 的 话 ， 那 么 它 在 由 上 的 结果 必须 是 它 在 V 上 的 结果 的 超 
集 。 直 观 上 ， 如 果 更 多 的 元 组 被 添加 到 视图 关系 ， 则 递归 查询 至 少 应 该 返回 与 以 前 相同 的 元 组 集 ， 并 
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且 还 可 能 返回 另外 一 些 元 组 。 

特别 指出 ， 递 归 查 询 不 能 用 于 任何 下 列 构 造 ， 因 为 它们 会 导致 查询 非 单调 : 

。 递归 视图 上 的 聚集 。 

。 在 使 用 递归 视图 的 子 查询 上 的 not exists 语句 。 

。 右 端 使 用 递归 视图 的 集合 差 (except) 运算 。 
例如 ， 如 果 递 归 查 询 是 + -v 的 形式 ， 其 中 v 是 递归 视图 ， 如 果 我 们 在 v 中 增加 一 个 元 组 ， 查 询 结 果 可 
能 会 变 小 ; 可 见 该 查询 不 是 单调 的 。 

只 要 递归 查询 是 单调 的 ， 递 归 视 图 的 含义 就 可 以 用 迭代 过 程 来 定义 ; 如 果 递 归 查 询 是 非 单调 的 ， 
则 视图 的 含义 很 难 确 定 。 因 此 SQL 要 求 查 询 必 须 是 单调 的 。 递 归 查 询 将 在 B. 3. 6 节 Datalog 查询 语言 的 
环境 中 更 加 详细 地 讨论 。 

SQL 还 允许 使 用 create recursive view 代替 with recursive 来 创建 递归 定义 的 永久 视图 。 一 些 系统 
实现 支持 使 用 不 同 语法 的 递归 查询 ;请 参考 各 自 的 系统 手册 以 获得 更 多 细节 。 
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5.5 高 级 聚集 特性 


此 前 我 们 已 经 看 到 ，SQL 对 聚集 的 支持 是 十 分 强大 的 ， 可 以 很 便捷 地 完成 一 般 性 的 任务 。 然 而 ， 
有 些 任务 很 难 用 基本 的 聚集 特性 来 高 效 实现 。 在 本 节 中 ,我 们 将 研究 为 完成 这 些 任 务 而 向 SQL 中 引入 
的 一 些 特 性 。 
5.5.1 排名 

从 一 个 大 的 集合 中 找 出 某 值 的 位 置 是 一 个 常见 的 操作 。 例 如 ， 我 们 可 能 希望 基于 学 生 的 平均 绩 点 
(GPA) 赋予 他 们 在 班级 中 的 名 次 : GPA 最 高 的 学 生 排名 第 1， 次 高 分 学 生 排名 第 2， 等 等 。 另 一 种 相关 
的 查询 类 型 是 找 某 个 值 在 一 个 (允许 重复 值 的 ) 集合 中 所 处 的 百分点 ， 比 如 排 在 后 1/3, PE 1/3 或 是 
前 1/3。 虽 然 这 样 的 查询 可 用 构造 SQL 语句 来 完成 ， 但 表达 困难 且 计 算 效 率 低 。 编 程 人 员 通 常 借助 于 
将 部 分 代码 写 在 SQL 中 ， 男 一 部 分 代码 写 在 程序 设计 语言 中 的 方式 去 实现 它 。 我 们 在 这 里 讨论 SQL 中 
如 何 对 这 类 查询 进行 直接 表达 。 

在 我 们 的 大 学 例子 中 ， 关 系 takes 存储 了 每 个 学 生 在 所 选 的 每 一 门 课程 上 所 获得 的 成 绩 。 为 了 演示 
排名 ， 我 们 假设 有 一 个 视图 student_srades( 夯 ，GP4) ， 它 给 出 了 每 个 学 生 的 平均 绩 点 。- 

排名 是 用 order by 说 明 来 实现 的 。 下 面 的 查询 给 出 了 每 个 学 生 的 名 次 。 [192 | 


select /D, rank( ) over (order by (GPA) desc) as s_rank 
from student_grades ; 


注意 这 里 没有 定义 输出 中 的 元 组 顺序 ， 所 以 元 组 可 能 不 按 名 次 排序 。 需 要 使 用 一 个 附加 的 order by F 
句 得 到 排序 的 元 组 ， 如 下 所 示 : 
select /D, rank( ) over ( order by (GPA) desc) as s_rank 
from student_grades 
order by s_rank; 
有 关 排 名 的 一 个 基本 问题 是 如 何 处 理 多 个 元 组 在 排序 属性 上 具有 相同 值 的 情况 。 在 我 们 的 例子 中 ， 
这 意味 着 如 果 有 两 个 GPA 相同 的 学 生 应 如 何 处 理 的 问题 。rank 函数 对 所 有 在 order by 属性 上 相等 的 
元 组 赋予 相同 的 名 次 。 例 如 ， 如 果 两 个 学 生 具 有 相同 的 最 高 CPA， 则 两 人 都 得 到 第 1 名 。 下 一 个 给 出 
的 名 次 将 是 3 而 不 是 2， 所 以 如 果 三 个 学 生得 到 了 次 高 的 GPA， 他 们 都 将 得 到 第 3 名 ， 接 下 来 的 一 个 或 
者 多 个 学 生 将 得 到 第 6 名 ， 等 等 。 另 有 一 个 dense_rank 函数 ， 它 不 在 等 级 排序 中 产生 隔断 。 在 上 面 的 
例子 中 ， 具 有 次 高 成 绩 的 元 组 都 得 到 第 2 名 ， 具 有 第 三 高 的 值 的 元 组 得 到 第 3 名 ， 等 等 。 
可 以 使 用 基本 的 SQL 聚集 函数 来 表达 上 述 查 询 ， 查 询 语句 如 下 : 
select ID, (1 + (select count( ` ) 
from student_grades B 
where B. GPA > A. GPA) ) as s_rank 
from student_grades A 
order by s_rank; 
显然 ， 正 如 上 述 语句 所 描述 的 那样 ， 一 个 学 生 的 排名 就 是 那些 GPA 比 他 高 的 学 生 的 数目 再 加 1。 
然而 ， 计 算 每 个 学 生 的 排名 所 耗 时 间 与 关系 的 大 小 呈 线 性 增长 ， 导 致 整体 耗 时 与 关系 大 小 呈 平 方 量 级 
增长 。 对 于 大 型 关系 ， 上 述 查 询 可 能 要 花 很 长 时 间 来 执行 。 相 比 之 下 ，rank 子 句 的 系统 实现 能 够 对 关 
系 进 行 排序 并 在 相当 短 的 时 间 内 计算 排名 。 
排名 可 在 数据 的 不 同 分 区 里 进行 。 例 如 ， 我 们 可 能 会 希望 按照 系 而 不 是 在 整个 学 校 范围 内 对 学 生 
排名 。 假 设 有 一 个 视图 ， 它 像 student_grades 那样 定义 ， 但 是 包含 系 名 : dept_grades( ID, dept_name, 
GPA)。 那 么 下 面 的 查询 就 给 出 了 学 生 们 在 每 个 分 区 里 的 排名 : 193 





© 用 SQL 语句 来 创建 视图 student_grades 比较 难 ， 因 为 我 们 必须 把 关系 takes 中 的 字母 评分 转换 成 数字 ， 并 且 要 根据 
课程 的 学 分 数 来 考虑 该 课 成 绩 所 占 的 权重 。 该 视图 的 定义 是 在 习题 4 5 中 要 做 的 。 
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194 





select ID, dept_name, 

rank ( ) over (partition by dept_name order by GPA desc) as dept_rank 
from dept_grades 
order by dept_name, dept_rank; 


外 层 的 order by 子 句 将 结果 元 组 按 系 名 排序 ， 在 各 系 内 按照 名 次 排序 。 

一 个 单独 的 select 语句 中 可 以 使 用 多 个 rank 表达 式 ， 因 此 ， 通 过 在 同一 个 select 语句 中 使 用 两 个 
rank 表达 式 的 方式 ， 我 们 可 以 得 到 总 名 次 以 及 系 内 的 名 次 。 当 排名 (可 能 带 有 分 区 ) 与 group by 子 句 
同时 出 现 的 时 候 ，group by 子 句 首先 执行 ， 分 区 和 排名 在 group by 的 结果 上 执行 。 因 此 ， 得 到 聚集 值 
之 后 可 以 用 来 做 排名 。 本 来 也 可 以 不 用 student_grades 视图 来 完成 排名 查询 ， 而 是 用 一 个 单独 的 select 
子 句 来 写 。 其 细节 留 给 读者 作为 习题 。 

利用 将 排名 查询 栓 人 外 层 查 询 中 的 方法 ， 排 名 函数 可 用 于 找 出 排名 最 高 的 nn 个 元 组 ， 详 细 实 现 作 
为 习题 。 注 意 ， 查 找 排名 最 低 的 个 元 组 与 查找 具有 相反 排序 顺序 的 排名 最 高 的 n 个 元 组 是 一 样 的 。 
有 些 数 据 库 系 统 提 供 非 标准 SQL 扩展 直接 指定 只 需 得 到 前 个 结果 ， 这 样 的 扩展 不 需要 rank 函数 且 简 
化 了 优化 器 的 工作 。 例 如 ， 一 些 数据 库 允 许 在 SQL 查询 后 面 添加 limit n 子 句 ， 用 来 指明 只 输出 前 个 
元 组 ; 这 个 子 句 可 以 与 order by 子 句 连用 以 获取 排名 最 高 的 n 个 元 组 ， 如 下 面 的 查询 所 示 ， 该 查询 以 
GPA 大 小 顺序 来 获取 前 十 个 学 生 的 信和 GPA: 

select /D, GPA 

from student_grades 

order by GPA 

limit 10; 
然而 ，limit 子 句 不 支持 分 区 ， 所 以 我 们 如 果 不 进行 排名 的 话 就 不 能 得 到 每 个 分 区 内 的 前 个 元 组 ; 更 
甚 的 是 ， 如 果 多 个 学 生 有 相同 的 CPA， 很 有 可 能 其 中 某 个 学 生 被 包括 到 前 十 ， 而 另 一 个 却 不 在 其 中 。 

还 有 其 他 几 个 可 以 用 来 替代 rank 的 函数 。 例 如 ， 某 个 元 组 的 percent_rank 以 分 数 的 方式 给 出 了 该 
元 组 的 名 次 。 如 果 某 个 分 区 “中 有 个 元 组 且 某 个 元 组 的 名 次 为 -， 则 该 元 组 的 百分比 名 次 定义 为 (7 - 
1)/(n -1)( 如 果 该 分 区 中 只 有 一 个 元 组 则 定义 为 null), Kx cume_dist( 累积 分 布 的 简写 ) ， 对 一 个 元 
组 定义 为 pAn， 其 中 p 是 分 区 中 排序 值 小 于 或 等 于 该 元 组 排序 值 的 元 组 数 ，n 是 分 区 中 的 元 组 数 。 函 数 
row_number 对 行进 行 排序 ， 并 且 按 行 在 排序 顺序 中 所 处 位 置 给 每 行 一 个 唯一 行 号 ， 具有 相同 排序 值 
的 不 同 的 行将 按照 非 确定 的 方式 得 到 不 同 的 行 号 。 

最 后 ， 对 于 一 个 给 定 的 常数 n， 排 名 函数 ntile(n) 按 照 给 定 的 顺序 取得 每 个 分 区 中 的 元 组 ， 并 把 它 
们 分 成 个 具有 相同 元 组 数目 的 桶 。? 对 每 个 元 组 ，ntile(n) 给 出 它 所 在 的 桶 号 (从 1 开始 计数 ) 。 该 函 
数 对 构造 基于 百分比 的 直方 图 特别 有 用 。 我 们 可 以 用 下 面 的 查询 来 演示 根据 GPA 把 学 生 分 为 四 个 
等 级 : 

select /D, ntile(4) over (order by (GPA desc) ) as quartile 
from student_grades ; 


空 值 的 存在 可 能 使 排名 的 定义 复杂 化 ， 这 是 因为 我 们 不 清楚 空 值 应 该 出 现在 排序 顺序 的 什么 位 置 。 
SQL 人 允许 用 户 通过 使 用 nulls first 或 nulls last 以 指定 它们 出 现 的 位 置 ， 例 如 : 
select ID, rank( ) over (order by GPA desc nulls last) as s_rank 
from student_grades ; 
5.5.2 分 窗 
窗口 查询 用 来 对 于 一 定 范围 内 的 元 组 计算 聚集 函数 。 这 个 特性 很 有 用 ， 比 如 计算 一 个 固定 时 间 区 
间 的 聚集 值 ;这 个 时 间 区 间 被 称 为 一 个 窗口 。 窗 口 可 以 重合， 这 种 情况 下 一 个 元 组 可 能 对 多 个 窗口 都 
有 贡献 。 这 与 此 前 我 们 看 到 的 分 区 是 不 一 样 的 ， 因 为 分 区 查询 中 一 个 元 组 只 对 一 个 分 区 有 贡献 。 





O ”如果 没有 使 用 显 式 的 分 区 ， 则 全 部 集合 看 成 一 个 单独 的 分 区 。 
O ”如果 一 个 分 区 中 的 所 有 元 组 的 数量 不 能 被 ”整除 ， 则 每 个 桶 中 的 元 组 数 最 多 相差 1。 为 了 使 每 个 桶 中 的 元 组 数量 
相同 ， 具 有 同样 排序 属性 值 的 元 组 可 能 不 确定 地 赋予 不 同 的 桶 。 
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趋势 分 析 是 分 窗 的 应 用 案例 之 一 ， 这 里 考虑 我 们 前 面 讲 的 销售 货物 的 例子 。 由 于 天 和 气 等 原因 ， 销 
售 量 可 能 会 一 天 天 很 大 幅度 地 变化 (例如 暴风 雪 、 洪 水 、 飓 风 、 地 震 在 一 段 时 间 内 一 般 会 降低 销售 
量 ) 。 然 而 ， 经 历 足 够 长 的 一 段 时 间 ， 影 响 就 会 较 小 (继续 前 面 的 例子 ， 由 于 天 气 原因 造成 的 销售 量 下 
降 可 能 会 “ 赶 上 去 ”" ) 。 另 一 个 使 用 分 窗 查 询 的 例子 是 股票 市 场 的 趋势 分 析 。 我 们 在 交易 和 投资 的 网 站 
上 可 以 看 到 各 种 各 样 的 “移动 平均 线 ”。 

要 写 查询 来 计算 一 个 窗口 的 聚集 值 ， 用 我 们 已 经 学 到 的 那些 特性 是 相对 简单 的 ， 例 如 计算 一 个 固 
定 的 三 天 时 间 区 间 的 销售 量 。 但 是 ， 如 果 我 们 想 对 每 个 三 天 时 间 区 间 都 如 此 计算 ,那么 查询 就 变 得 二 
手 了 。 

SQL 提供 了 分 窗 特 性 用 于 支持 这 样 的 查询 。 假 设 我 们 有 一 个 视图 tot_credits( year, num_credits) ， 它 
记录 了 每 年 学 生 选 课 的 总 学 分 。” 注意 ， 在 这 个 关系 中 对 于 每 个 年 份 最 多 有 一 个 元 组 。 考 虑 如 下 查询 : [195 | 

select year, avg( num_credits ) 
over (order by year rows 3 preceding ) 


as avg_total_credits 
from tot_credits ; 


这 个 查询 计算 指定 顺序 下 的 前 三 个 元 组 的 均值 。 因 此 ， 对 于 2009 年 ， 如 果 关 系 tot_credits 中 含有 2008 
年 和 2007 年 分 别 唯一 对 应 的 元 组 ， 该 窗口 定义 所 求 的 结果 就 是 2007 年 、2008 年 和 2009 年 的 值 的 平均 
数 。 每 年 的 均值 也 可 以 通过 类 似 的 方法 来 计算 。 对 于 关系 tot_crediis 中 最 早 的 一 年 ， 均 值 的 计算 就 只 包 
含 该 年 本 身 ， 然 而 对 于 第 二 年 来 说 ， 需 要 对 两 年 的 值 来 求 平均 。 注 意 ， 如 果 关 系 tot_credits 在 某 个 特定 
年 份 有 不 止 一 个 元 组 ， 那 么 元 组 按 年 份 来 排序 就 有 多 种 可 能 。 在 这 种 情况 下 ， 前 序 元 组 是 基于 排列 顺 
序 而 定义 的 ， 该 顺序 取决 于 具体 实现 方法 ， 就 不 是 唯一 定义 的 了 。 

假设 我 们 并 不 想 回溯 固定 数量 的 元 组 ， 而 是 把 前 面 所 有 年 份 都 包含 在 窗口 内 。 这 意味 着 要 关注 的 
前 面 的 年 数 并 不 恒定 。 我 们 编写 下 面 的 代码 来 得 到 前 面 所 有 年 的 平均 总 学 分 : 


select year, avg(num_credits ) 
over (order by year rows unbounded preceding ) 
as avg_total_credits 

from tot_credits ; 


也 可 以 用 关键 字 following 来 替换 preceding。 如 果 我 们 在 例子 中 这 样 做 ，year 值 就 表示 窗口 的 起 始 
年 份 ， 而 不 是 结束 年 份 。 类 似 地 ， 我 们 可 以 指定 一 个 窗口 ， 它 在 当前 元 组 之 前 开始 、 在 其 之 后 结束 : 
select year, avg( num_credits) 
Over ( order by year rows between 3 preceding and 2 following) 


as avg_total_credits 
from tot_credits ; 


我 们 还 可 以 用 order by 属性 上 值 的 范围 而 不 是 用 行 的 数目 来 指定 窗口 。 为 了 得 到 一 个 包含 当前 年 
以 及 前 面 四 年 的 范围 ， 我 们 可 以 这 样 写 : [196 | 


select year, avg( num_credits ) 
over (order by year range between year —4 and year) 
as avg_total_credits 

from tot_credits ; 


一 定 要 注意 上 例 中 的 关键 字 range 的 使 用 。 对 于 2010 4E, M 2006 年 到 2010 年 (包括 边界 ) 的 数据 都 将 
被 返回 ， 不 管 该 范围 内 实际 有 多 少 元 组 。 

在 我 们 的 例子 里 ， 所 有 元 组 都 是 针对 整个 学 校 而 言 的 。 假 如 不 是 这 样 ， 而 是 把 每 个 系 的 学 分 数据 
用 视图 tot_credits_dept( dept_name，year，num_credits) 来 表示 ， 它 记录 了 学 生 在 指定 年 份 中 选 菜 个 系 开设 
的 课程 的 所 有 学 分 数 。( 我 们 仍旧 把 对 该 视图 的 定义 留 给 读者 作为 练习 ,) 我 们 编写 如 下 的 分 窗 查询 ， 
按照 dept_name 分 区 ， 对 每 个 系 分 别 计算 : 





tn 








”按照 本 书 中 大 学 的 例子 来 定义 这 个 视图 ， 我 们 把 这 个 作为 练习 留 给 读者 
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select dept_name, year, avg( num_credits ) 
over (partition by depi_name 
order by year rows between 3 preceding and current row) 
as avg_total_credits 
from tot_credits_dept ; 





5.6 OLAP ** item name | color | clothes size nti 








skirt | dark small | 2 | 
联机 分 析 处 理 ( OLAP) 系统 是 一 个 交互 式 系统 ， 它 允许 |S dak De” > | 
分 析 人 员 查 看 多 维 数据 的 不 同 种 类 的 汇总 数据 。 联 机 一 词 表 | skit pastel | small | 1 
示 分 析 人 员 必 须 能 够 提出 新 的 汇总 数据 的 请 求 ， 几 秒 钟 之 内 | skirt ed 15 
在 线 得 到 响应 ， 无 需 为 了 看 到 查询 结果 而 被 迫 等 待 很 长 的 “| skirt white | small | 2 
时 间 。 ee | tue | ge 3 
有 很 多 可 用 的 OLAP 产品 ， 其 中 有 些 随 Microsoft SQL | dress dark | small 
dress dark medium 


Server 和 Oracle 等 数据 库 产 品 绑 定 ， 另 一 些 是 独立 的 工 dress dark | large 
具 。 许 多 OLAP 工具 的 最 初版 本 以 数据 驻 留 在 内 存 中 为 前 | dress | Baste! ma， 


提 。 小 规模 数据 可 以 用 电子 表格 进行 分 析 ， 例 如 Excel, | dress pastel | large 
然而 ， 对 于 超大 规模 数据 的 OLAP， 需 要 把 数据 存储 在 数 | ATES white | small 


dress white | medium 


据 库 中 ， 并 通过 数据 库 的 支持 来 高 效 地 完成 数据 预 处 理 和 | dres | white | large 
在 线 查询 处 理 。 在 本 节 中 ， 我 们 将 研究 SQL 支持 上 述 任 Sit dak small 


- 
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务 的 扩展 特性 。 | | 
shirt pastel | small 
5.6.1 联机 分 析 处 理 shirt pastel | medium | 
考虑 这 样 一 个 应 用 ， 某 商店 想 要 找 出 流行 的 服装 款式 。 | Shi | Pastel | arge I 
我 们 假设 衣服 的 特性 包括 商品 名 、 颜 色 和 尺寸 ， 并 且 我 们 有 as re -e ii | 
一 个 关系 sales， 它 的 模式 是 Pants | dark | small 14 | 
sales( item. name , color, clothes_size, quantity) a | one eee 5 
假设 item_name FY VAREJA skirt, dress, shirt, pants; color ee | ee oa 5 
可 以 取 的 值 为 dark 、pastel white; clothes_size 可 以 取 的 值 为 “| pants Pastel | large 1 | 
small, medium, large; quantity 是 一 个 整数 值 ， 表 示 一 个 给 bse es : | 
SESE | item_name, color, clothes_size| 的 商品 数量 。 关 系 sales pants white | large 2 
197 | 的 一 个 实例 如 图 5-16 所 示 。 图 5-16 关系 sales 的 例子 


198 统计 分 析 通 常 需要 对 多 个 属性 进行 分 组 。 给 出 一 个 用 于 

数据 分 析 的 关系 ,我 们 可 以 把 它 的 某 些 属性 看 作 度 量 属性 ( measure attribute) ， 因 为 这 些 属性 度量 了 某 
个 值 ， 而 且 可 以 在 其 上 进行 聚集 操作 。 例 如 ， 关 系 sales 的 属性 quantity 就 是 一 个 度量 属性 ， 因 为 它 
度量 了 卖 出 商品 的 数量 。 关 系 的 其 他 属性 中 的 某 些 ( 或 所 有 ) 属 性 可 看 作 是 维 属 性 ( dimension 
attribute) ， 因 为 它们 定义 了 度量 属性 以 及 度量 属性 的 汇总 可 以 在 其 上 进行 观察 的 各 个 维度 。 在 关系 
sales 中 ，item_name、color 和 clothes_size 是 维 属性 。( 关系 sales 的 更 真实 的 版 本 还 包括 男 一 些 维 属性 ， 
例如 时 间 和 销售 地 点 ， 以 及 其 他 的 度量 属性 ， 例 如 该 次 销售 的 货币 值 ,) 

能 够 模式 化 为 维 属性 和 度量 属性 的 数据 统称 为 多 维 数据 ( multidimensional data) 。 

为 了 分 析 多 维 数 据 ， 管 理 者 可 能 需要 查看 如 图 5-17 所 示 那 样 显 示 的 数据 。 该 表 显 示 S item_ 
name 和 color 值 之 间 不 同 组 合 情 况 下 的 商品 数目 。clothes_size 的 值 指定 为 al， 意 味 着 表 中 显示 的 数 
值 是 在 所 有 的 size 值 上 的 数据 汇总 (也 就 是 说 ， 我 们 把 “smal”、“medium” 和 ”large ”的 商品 都 汇总 
到 一 个 组 里 ) 。 
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clothes_size 


7 tga 
item_name 








5-17 关系 sales 的 关于 item_name 和 color 的 交叉 表 


图 5-17 所 示 的 表 是 一 个 交叉 表 ( cross-tabulation 或 简写 为 cross-tab ) 的 例子 ， 也 可 称 之 为 转轴 表 
(pivot-table) 。 一 般 说 来 ， 一 个 交叉 表 是 从 一 个 关系 (如 R) 导 出 来 的 ， 由 关系 尺 的 一 个 属性 (如 4) 的 值 
构成 其 行 表 头 ， 关 系 R 的 另 一 个 属性 (如 8B) 的 值 构 成 其 列表 头 。 例 如 ， 在 图 5-17 中 ， 属 性 item_name 
对 应 A( 属 性 值 为 “skirt”、“ dress”、“shirt” 和 “pants”) ， 而 属性 color 对 应 B( H(A“ dark”、“ pastel” All 
“white” ) 。 

每 个 单元 可 记 为 (a,, b), AP a 代表 4 的 一 个 取 值 ， REB 的 一 个 取 值 。 转 轴 表 中 不 同 单元 的 
值 按照 如 下 方法 从 关系 R 推 导出 来 : 如 果 对 于 任何 (a;，b,) 值 ， 最 多 只 存在 一 个 元 组 具有 该 值 ， 则 该 
单元 中 的 值 由 那个 元 组 得 到 ( 如果 存在 那个 元 组 的 话 )。 例 如 ， 它 可 以 是 该 元 组 中 一 个 或 多 个 其 他 属性 
的 值 。 如 果 对 于 一 个 (a;, b,) 值 ， 可 能 存在 多 个 元 组 具有 该 值 ， 则 该 单元 中 的 值 必 须 由 这 些 元 组 上 的 聚 
集 得 到 。 在 我 们 的 例子 中 ， 所 用 的 聚集 是 所 有 不 同 clothes_size 上 的 quantity 属性 值 之 和 ， 如 图 5-17 交 
叉 表 上 方 的 "clothes_size: all "所 表明 的 那样 。 这 样 ， 单 元 ( skirt，pastel) 的 值 就 是 35， 因 为 关系 sales 有 
三 个 元 组 满足 该 条 件 ， 它 们 的 值 分别 为 11、9 和 15。 

在 我 们 的 例子 中 ， 交 叉 表 还 另 有 一 列 和 一 行 ， 用 来 存储 一 行 / 列 中 所 有 单元 的 总 和 。 大 多 数 的 交叉 
表 中 都 有 这 样 的 汇总 行 和 汇总 列 。 

将 二 维 的 交叉 表 推 广 到 nn 维 ， 可 视 作 一 个 n 维 立 方 体 ， 称 为 数据 立方 体 ( data cube), A 5-18 表示 
一 个 在 sales 关系 上 的 数据 立方 体 。 该 数据 立方 体 有 三 个 维 ， 即 item_name、color 和 clothes_size， 其 度量 
属性 是 quantity， 每 个 单元 由 这 三 个 维 的 值 确定 。 正 如 交叉 表 一 样 ， 数 据 立 方 体 中 的 每 个 单元 包含 了 一 
个 值 。 在 图 5-18 中 ， 一 个 单元 包含 的 值 显 示 在 该 单元 的 一 个 面 上 ; 该 单元 其 他 可 见 的 面 显示 为 空白 。 
所 有 的 单元 都 包含 值 ， 即 使 它们 并 不 可 见 。 某 一 维 的 取 值 可 以 是 al， 此 时 就 如 交叉 表 显 示 的 情形 一 
样 ， 该 单元 包含 了 该 维 上 所 有 值 的 汇总 数据 。 

将 元 组 分 组 做 聚集 的 不 同方 式 有 很 多 。 在 图 
5-18 的 例子 中 ， 有 三 种 颜色 、 四 类 商品 以 及 三 种 
尺码 ， 从 而 立方 体 的 大 小 为 3 x4 x3 =36。 要 是 把 
汇总 值 也 包括 进来 ， 我 们 就 得 到 一 个 4 x5 x4 的 立 dark 
方 体 ， 其 大 小 为 80。 事 实 上 ， 对 于 一 个 n 维 的 表 ， 
BY EH n SHE OH) 2" 个 子 集 上 进行 分 组 并 执行 聚 
集 操作 。 white 

在 OLAP 系统 中 ， 数 据 分 析 人 员 可 以 交互 地 选 an 
择 交 叉 表 的 属性 ， 从 而 能 够 在 相同 的 数据 上 查看 
不 同 内 容 的 交叉 表 。 每 个 交叉 表 是 一 个 多 维 数据 IREE 
立方 体 上 的 二 维 视图 。 例如， 数据 分 析 人 员 可 以 m = p 
选择 一 个 在 item_name 和 clothes_size 上 的 交叉 表 ， 5-18 三 维 数 据 立 方 体 
也 可 以 选择 一 个 在 color 和 clothes_size 上 的 交叉 表 。 改 变 交叉 表 中 的 维 的 操作 叫做 转轴 (pivoting) 。 


Color 


Pastel 











skirt dress shirt pants all 


日 ”在 所 有 的 nn 个 维 的 集合 上 分 组 只 有 在 该 表 含 有 重复 数据 的 情况 下 才 是 有 意义 的 。 
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OLAP 系统 允许 分 析 人 员 对 于 一 个 固定 的 clothes_size 值 ( 比如 large 而 不 是 所 有 size 的 总 和 ) 来 查看 
一 个 在 item_name 和 color 上 的 交叉 表 。 这 样 的 操作 称 为 切片 (slicing) ， 因 为 它 可 以 看 作 是 查看 一 个 数 
据 立 方 体 的 某 一 片 。 该 操作 有 时 也 叫做 切 块 (dicing) ， 特 别 是 当 有 多 个 维 的 值 是 固定 的 时 候 。 

当 一 个 交叉 表 用 于 观察 一 个 数据 立方 体 时 ， 不 属于 交叉 表 部 分 的 维 属性 的 值 显 示 在 交叉 表 的 上 方 。 
如 图 5-17 所 示 ， 这 样 的 属性 值 可 以 是 al， 表示 交叉 表 中 的 数据 是 该 属性 所 有 值 的 汇总 。 切 片 / 切 块 仅 
由 这 些 属性 所 选 的 特定 值 构 成 ， 这 些 值 显示 在 交叉 表 的 上 方 。 

OLAP 系统 允许 用 户 按照 期 望 的 粒度 级 别 观 察 数 据 。 从 较 细 粒 度数 据 转 到 较 粗 粒度 (通过 聚集 ) 的 
操作 叫做 上 卷 (rollup ) 。 在 我 们 的 例子 中 ， 从 表 sales 上 的 数据 立方 体 出 发 ， 在 属性 clothes_size 上 执行 上 
卷 操 作 得 到 我 们 例子 中 的 交叉 表 。 相 反 的 操作 ， 也 就 是 将 较 粗 粒度 数据 转化 为 较 细 粒 度数 据 ， 称 作 下 
钻 ( drill down) 。 显 然 ， 较 细 粒 度数 据 不 可 能 由 较 粗 粒度 数据 产生 ; 它们 必须 由 原始 数据 产生 ,或 者 由 
更 细 粒 度 的 汇总 数据 产生 。 

分 析 人 员 可 能 希望 从 不 同 的 细节 层 Year 
次 观察 某 一 个 维 。 例 如， 类 型 为 | 
datetime 的 属性 包括 一 天 的 日 期 和 时 间 。 ca 
对 于 一 个 只 对 粗略 时 间 感 兴趣 的 分 析 人 
员 来 说 ,使 用 精确 到 秒 ( 或 者 更 小 ) 的 时 
间 可 能 是 无 意义 的 ， 因 为 他 可 能 只 查看 
小 时 的 值 。 一 个 对 一 周 中 某 天 的 销售 情 “YY Uae ma 
况 感 兴趣 的 分 析 人 员 可 能 会 将 日 期 映射 AN | 
到 一 周 的 某 天 并 只 查看 映射 后 的 信息 。 es Ae City 
还 有 的 分 析 人 员 可 能 会 对 一 个 月 、 一 
季度 或 一 年 的 聚集 数据 感 兴趣 。 a ial Hen 

一 个 属性 的 不 同 细节 层次 可 以 组 织 图 5-19 不 同 的 维 上 的 层次 结构 
成 一 个 层次 结构 (hierarchy) 。 图 5-19a 显 
示 了 一 个 在 datetime 属性 上 的 层次 结构 。 作 为 另 一 个 例子 ， 图 5-19b 显示 了 地 理 位 置 的 层次 结构 :city 
在 层次 结构 的 最 底层 ，state 在 它 上 层 ，country 在 更 上 一 层 ，region 在 最 顶层 。 在 前 面 的 例子 中 ， 衣 服 
可 以 按 类 别 分 组 (例如 ， 男 装 或 女装 ) ， 这 样 ， 在 关于 衣服 的 层次 结构 中 ，category 将 在 item_name 之 
上 。 在 实际 值 层 面 上 ， 裙 子 和 女 服 在 女装 类 别 下 面 ， 短 裤 和 衬衫 在 男装 类 别 下 面 。 

分 析 人 员 可 能 对 查看 区 分 为 男装 和 女装 os sine: [a 
的 衣服 销售 情况 感 兴趣 ， 而 对 单个 值 不 感 兴 category item_name color 
趣 。 在 查看 了 女装 和 男装 层次 上 的 聚集 值 之 Se er o 


后 ,分 析 人 员 可 能 想 要 沿 层 次 结构 下 钻 以 便 TI HEP 
查看 单个 值 。 一 个 正在 查看 某 个 细节 层次 的 ubtotal. | 28 | 28 i 
À ap 49 


ORARIN BSE ok aS ab EO DLE ante ree 
= 4 = ye 省 显示 a ubtotal. 

SURE ERESI. PATH fe OMI an ay FET See Le | el ha 

图 $-20 Xf sales 在 属性 item_name 上 分 层 后 的 交叉 表 


Region 


Day of week Month 





Country 















一 个 交叉 表 中 ， 如 图 5-20 所 示 。 
5. 6.2 交叉 表 与 关系 表 

交叉 表 与 通常 存储 在 数据 库 中 的 关系 表 
是 不 同 的 ， 这 是 因为 交叉 表 中 的 列 的 数目 依赖 于 实际 的 数据 。 数 据 值 的 变化 可 能 导致 增加 更 多 的 列 ， 
这 对 于 数据 存储 来 说 是 不 期 望 见 到 的 。 然 而 ， 作 为 向 用 户 做 的 展现 ， 交 叉 表 是 比较 令 人 满意 的 。 对 于 
没有 汇总 值 的 交叉 表 ， 可 以 把 它 直接 表示 为 具有 固定 列 数 的 关系 形式 。 对 于 有 汇总 行 / 列 的 交叉 表 ， 可 
以 通过 引入 一 个 特殊 值 al 以 表示 子 汇总 值 ， 如 图 5-21 示 。 实 际 上 ，SQL 标准 使 用 null 值 代替 all, 但 
是 ， 为 了 避免 与 通常 的 null 值 混淆 ， 我 们 将 继续 沿用 all, 

考虑 元 组 ( skirt，all，all，53 ) 和 (dress，all，all，35 ) 。 这 两 个 元 组 是 这 样 得 到 的 : 我 们 消除 在 
color 和 clothes_size 上 具有 不 同 值 的 各 个 元 组 ， 然 后 将 quantity 的 值 替 换 成 一 个 聚集 值 ( 即 数量 的 和 )， 
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这 样 就 得 到 了 这 两 个 元 组 。 值 al 可 以 被 看 作 是 代表 一 个 属性 的 所 有 值 的 集合 。 在 color Fil clothes_size 这 























两 个 维 上 具有 all 值 的 元 组 可 以 通过 在 关系 sales 的 列 item_ itemname | color | clothes.size | quantity | 
name 上 进行 group by 操作 之 后 进行 聚集 得 到 。 类 似 地 ， 在 oa E se | yO Lf 
color, clothes_size 上 进行 group by 可 用 于 得 到 在 item_name | yore | eea i 5 
上 取 all 值 的 元 组 ， 不 带 任何 属性 的 group by( 在 SQL 中 直 cyan | me er = 
接 将 其 省 略 ) 可 用 于 得 到 在 item_name , color 和 clothes_size 上 | dress | pastel all 10 
sma 值 的 元 组 。 a a Oo 
也 可 以 用 关系 来 表示 层次 结构 。 例 如 ， 裙 子 和 女 服 属于 shirt dark | all | 14 
女装 类 ， 短 裤 和 衬衫 属于 男装 类 ， 这 样 的 层次 可 以 用 关系 | Shit pastel al | g 
itemcategory( item_name, category) 来 表示 。 可 以 把 该 关系 与 © shirt | all all 49 
KA sales 连接 ， 得 到 一 个 包含 各 个 商品 所 属 类 别 的 关系 。 Pa jo a | 3 
在 该 连接 关系 上 进行 聚集 操作 ， 我 们 就 可 以 得 到 带 有 层次 结 | Pants | white | all 5 
构 的 交叉 表 。 另 一 个 例子 是 ， 城 市 的 层次 结构 可 以 用 单个 关 | Fas all all A 
Z city_hierarchy( ID, city, state, country, region) ARZIR, th all | pastel all 54 
可 以 用 多 个 关系 表示 ， 每 个 关系 把 结构 中 的 某 层 的 值 映射 到 | 让 we mo oaa 





其 下 一 层 。 我 们 在 这 里 假设 城市 有 唯一 的 标识 符 ， 它 存储 在 
属性 ID 中 ， 用 来 避免 当 两 个 城市 名 称 相同 时 发 生 混淆 ， 比 
如 ， 在 美国 的 伊利 诺 斯 州 和 密苏里 州都 有 叫做 Springfield 的 城市 。 


OLAP 的 实现 

最 早 的 OLAP 系统 使 用 内 存 中 的 多 维 数组 存储 数据 立方 体 ， 称 作 多 维 OLAP ( multidimentional 
OLAP, MOLAP) 系统 。 后 来 ，OLAP 工具 集成 到 关系 系统 中 ， 数 据 存储 到 关系 数据 库 里 ， 这 样 的 系 
统称 为 关系 OLAP( relational OLAP, ROLAP) 系统 。 复 合 系统 将 一 些 汇总 数据 存在 内 存 中 ， 基 表 数 据 
和 另 一 些 汇总 数据 存在 关系 数据 库 中 ， 称 之 为 混合 OLAP(hybrid OLAP, HOLAP) 系统 。 

许多 OLAP 系统 实现 为 客户 -服务 器 系统 。 服 务 器 端 包含 关系 数据 库 和 任何 MOLAP 数据 立方 
体 ， 客 户 端 系统 通过 与 服务 器 通信 获得 数据 的 视图 。 

在 一 个 关系 上 计算 整个 数据 立方 体 ( 所 有 的 分 组 ) 的 一 种 朴素 方法 是 使 用 任何 一 种 标准 算法 来 计算 
聚集 操作 ， 一 次 计算 一 个 分 组 。 朴 素 算 法 需要 对 关系 进行 大 量 的 扫描 操作 。 有 一 种 简单 的 优化 是 从 聚 
4£. (item_name, color, clothes_size) 中， 而 不 是 从 原始 关系 中 计算 聚集 (item_name, color) 。 

对 于 标准 的 SQL 聚集 函数 ， 我 们 可 以 用 一 个 按 属 性 集中 分 组 的 聚集 来 计算 按 属性 集 4 进行 分 组 
的 聚集 ( 若 4CB)。 读 者 可 以 以 此 作为 练习 (见习 题 5:24)， 但 是 要 注意 计算 avg 时 ， 我 们 还 需要 
count 值 。( 对 于 一 些 非 标准 的 聚集 函数 ， 比 如 median, 不 能 像 上 面 那样 计算 聚集 ， 这 里 所 说 的 优化 
不 能 应 用 于 这 样 的 非 可 分 解 的 聚集 函数 。) 从 另 一 个 聚集 而 不 是 从 原始 关系 中 计算 聚集 可 以 大 大 减少 
所 读 的 数据 量 。 更 进一步 的 改进 也 是 有 可 能 的 ， 例 如 ， 通 过 一 遍 数 据 扫 描 计 算 多 个 分 组 。 

早期 的 OLAP 实现 预先 计算 并 存储 整个 数据 立方 体 ， 即 对 维 属性 的 所 有 子 集 进行 分 组 。 预 先 计 
算 可 以 使 OLAP 查询 在 几 秒 钟 内 得 出 结果 ， 即 使 数据 集 可 能 包含 数 百 万 的 元 组 ， 总 计 达 上 G 的 数据 。 
然而 ， 对 于 nn 维 属 性 ， 有 2" 个 分 组 ， 属 性 上 的 层次 更 增多 了 这 个 数量 。 这 导致 整个 数据 立方 体 通常 
大 于 形成 数据 立方 体 的 原始 关系 ， 而 且 在 许多 情况 下 存储 整个 数据 立方 体 是 不 可 行 的 。 

作为 对 预先 计算 并 存储 所 有 可 能 的 分 组 的 蔡 代 方案 ， 预 先 计 算 并 存储 某 些 分 组 ， 按 需 计 算 其 他 
分 组 是 有 意义 的 。 从 原始 关系 中 计算 查询 可 能 需要 相当 长 的 时 间 ， 取 而 代 之 的 做 法 是 从 其 他 预先 计 
算 的 查询 中 计算 这 些 查 询 。 例 如 ， 假 设 菜 个 查询 要 求 按 (item_name，color) 进 行 分 组 ， 它 没有 预先 计 
算 。 该 查询 的 结果 可 以 基于 (item_name， color，clothes_size) 上 的 汇总 计算 得 出 ， 假 设 这 是 我 们 预先 计 
算 了 的 。 对 于 在 考虑 用 于 存储 预计 算 结 果 的 可 用 存储 限制 的 条 件 下 如 何 选择 一 个 好 的 用 于 预先 计算 
的 分 组 集 ， 请 查看 相关 文献 注解 。 


图 5-21 图 5-17 中 数据 的 关系 表达 


115 


[204 | 


116 第 一 部 分 关系 数据 库 


5.6.3 SQL 中 的 OLAP 


有 些 SQL 实现 ， 例 如 Microsoft SQL Server 和 Oracle, ZHE SQL 中 使 用 pivot 子 句 ， 用 于 创建 交叉 
表 。 对 于 图 5-16 中 的 关系 sales ， 使 用 如 下 查询 : 


select ~ 
from sales 
pivot ( 
sum ( quantity ) 
for color in (’ dark’ ,’ pastel’ , ’ white’ ) 
SM by item_name; 
可 以 返回 图 5-22 所 示 的 交叉 表 。 注 意 ，pivot 子 句 中 的 for 子 句 用 来 指定 属性 color 的 哪些 值 应 该 在 转 
轴 的 结果 中 作为 属性 名 出 现 。 属 性 color 本 身 从 结果 中 被 去 除 ， 然 而 其 他 所 有 属性 都 被 保留 ， 另 外 ， 新 
产生 的 属性 的 值 被 设 定 为 来 自 于 属性 quantity。 在 多 个 元 组 对 给 定单 元 有 贡献 的 情况 下 ，Ppivot 子 句 中 
的 聚集 操作 指定 了 把 这 些 值 进行 汇总 的 方法 。 在 上 面 的 例子 中 ， 对 quantity 值 求 和 。 
注意 ，pivot 子 句 本 身 并 不 计算 我 们 在 图 5-17 所 示 的 转轴 表 中 所 看 到 的 部 分 和 。 但 是 ， 可 以 首先 像 
我 们 马上 就 要 讲 的 那样 生成 图 5-21 所 示 的 关系 表达 ， 然 后 对 这 个 表达 应 用 pivot 子 句 ， 以 得 到 同样 的 
结果 。 这 种 情况 下 ，all 值 必须 也 被 列 在 for 子 句 中 ， 并 且 order by 子 句 需要 做 调整 使 得 aa 被 排 在 
最 后 。 
单个 SQL 查询 使 用 基本 的 group by 结构 生成 不 了 数 


























> ema 二 机 
据 立 方 体 中 的 数据 ， 因 为 聚集 是 对 维 属性 的 若干 个 不 同 | skirt Small 2 1| 2 
分 组 来 计算 的 。 由 于 这 个 原因 ，SQL 包含 了 一 些 函数 , 用 | St linge | 1 13| 3 
来 生成 OLAP 所 需 的 分 组 。 下 面 我 们 讨论 这 些 特性 。 res ue : al) = 

SQL 支持 group by 结构 的 泛 化 形式 用 于 进行 cube 和 dress large 12 | 3 | 0 
rollup 操作 。group by 子 句 中 的 cube 和 rollup 结构 允许 | st | smal FY 
在 单个 查询 中 运行 多 个 group by 查询 ， 结 果 以 单个 关系 shirt large 6 2 10 
的 形式 返回 ， 其 样式 类 似 于 图 5-21 中 的 关系 。 oe eee bal ee’ i 

再 次 以 零售 商店 为 例 ， 关 系 是 Pants large 0 1 2 

sales (item_name, color, clothes_size, quantity) 图 5-22 ”对 图 5-16 中 的 关系 sales 进行 

我 们 可 以 编写 简单 的 group by 查询 来 得 到 每 个 商品 名 所 SQL pivot 操作 的 结果 


对 应 商品 的 销售 量 : 

select item_name, sum( quantity ) 

from sales 

group by item_name; 
这 个 查询 的 结果 如 图 5-23 所 示 。 注 意 ， 这 和 图 5-17 的 最 后 一 列 ( 或 者 同样 可 以 说 ， 图 5-18 所 示 立 方 体 
的 第 一 行 ) 表 达 的 是 同一 组 数据 。 

类 似 地 ， 我 们 可 以 得 到 每 种 颜色 的 商品 的 销售 量 ， 等 等 。 在 group by 子 句 [emmame | quantity 

中 用 多 个 属性 ， 我 们 就 能 知道 在 某 个 参数 集合 条 件 下 每 类 商品 卖 出 了 多 少 。 例 | skirt 3 
如 ,我 们 可 以 编写 下 面 的 代码 通过 商品 名 和 颜色 来 拆 分 关系 sales: 

















shirt 49 | 
select item_name, color, sum( quantity) pants 27 | 
from sales 图 5-23 ”查询 结果 


group by item_name, color; 
图 5-24 给 出 了 上 述 查 询 的 结果 。 注 意 ， 这 和 图 5-17 的 前 四 行 和 前 四 列 ( 或 者 同样 可 以 说 ， 图 5-18 
所 示 的 立方 体 的 前 四 行 和 前 四 列 ) 表 达 的 是 同一 组 数据 。 
但 是 ， 如 果 想 用 这 种 方式 生成 整个 数据 立方 体 ， 我们 就 不 得 不 为 以 下 每 个 属性 集 写 一 个 独立 的 
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| (item_name, color, clothes_size) , (item_name, color) , (item_name, clothes_size) , 
(color, clothes_size) , (item_name) , (color) , (clothes_size), () | 


() 表 示 空 的 group by 列表 。 


























cube 结构 使 我 们 能 在 一 个 查询 中 完成 这 些 任务 : itemname | color | quantity | 

select item_name, color, clothes_size, sum( quantity) skir t dark 8 | 

from sales skirt pastel 35 | 

group by cube( item_name, color, clothes_size) ; = pea ~ | 

上 述 查 询 产 生 了 一 个 模式 如 下 的 关系 : dress pastel 10 | 
dress white 5 

(item_name, color, clothes_size, sum( quantity) ) shirt dark 14 | 
、 、 SA shirt pastel 7 

这 样 ， 该 查询 结果 实际 上 是 一 个 关系 ， 对 于 在 特定 分 组 中 不 出 现 的 属 shirt white 28 | 
性 ， 在 结果 元 组 中 包含 null 作为 其 值 。 例如 ， 在 clothes_size 上 进行 分 组 os an 
所 产生 的 元 组 模式 是 ( clothes_size，sum( quantity) ) ， 通 过 在 属性 item_ pants white | 5 

name 和 color 上 加 入 null， 它 们 被 转换 成 (item_name,， color, clothes_size, 图 5-24 ”查询 结果 


sum (quantity) ) 上 的 元 组 。 

数据 立方 体 关系 经 常 相当 庞大 。 上 面 的 cube 查询 ， 有 3 种 可 能 的 颜色 、4 种 可 能 的 商品 名 和 3 种 
尺寸 ,共有 80 个 元 组 。 图 5-21 的 关系 是 由 item_name 和 color 上 的 分 组 操作 所 生成 的 。 它 也 用 alll k 
代 空 值 ， 这 样 更 容易 被 一 般 用 户 读 懂 。 为 了 在 SQL 中 生成 该 关系 ， 我 们 设法 把 null 替换 成 al。 查询 : 


select item_name, color, sum( quantity ) [207 | 
from sales 
group by cube( item_name, color) ; 


生成 图 5-21 中 的 关系 ,含有 null。 使 用 SQL 的 decode 和 grouping 函数 可 以 实现 all 的 替换 。decode pi 
数 概念 简单 但 是 语法 有 些 难 以 读 懂 。 细 节 请 查看 下 面 的 文本 框 中 的 内 容 。 


DECODE 函数 
decode 函数 用 来 对 元 组 中 的 属性 进行 值 的 替换 。decode 的 大 体形 式 是 : 
decode( value, match-1, replacement-1, match-2, replacement-2., =, 
match-N , replacement-N , default-replacement ) ; 

它 把 值 (yalue) 与 匹配 (7matoi ) 值 进行 比较 ， 如 果 发 现 匹配 ， 就 把 属性 值 用 相应 的 替代 值 来 替换 。 如 
果 未 匹配 成 功 ， 那 么 属性 值 被 蔡 换 成 默认 的 替代 值 (default-replacement ) 。 

decode 函数 并 不 像 我 们 期 望 的 那样 对 null 值 进 行 处 理 ， 这 是 因为 ， 正 如 我 们 在 3.6 节 所 看 到 的 
那样 ，null 上 的 谓词 等 价 于 unknown， 最 终 被 转换 成 false。 为 了 解决 这 个 问题 ， 我 们 应 用 grouping 
函数 ， 当 参数 是 cube 或 rollup 产生 的 null 值 时 它 返 回 1， 和 否则 返回 0。 于 是 ， 图 5-21 中 的 关系 可 以 
用 下 面 的 查询 来 计算 ，mal 替换 成 al 了 : 


` select decode( grouping(item_name),1, ‘all’, item_name) as item_name 
decode( grouping( color), 1, ‘all’ , color) as color 
sum (quantity) as quantity 
from sales 
group by cube(item_name, color) ; 


rollup 结构 与 cube 结构 基本 一 样 ， 只 有 一 点 不 同 ， 就 是 rollup 产生 的 group by 查询 较 少 一 些 。 我 
们 看 到 ，group by cube (item_name, color, clothes_size) 生成 使 用 部 分 属性 (或 者 全 部 属性 ， 或 者 不 用 任 
何 属 性 ) 可 以 产生 的 全 部 8 种 实现 group by 查询 的 方法 。 而 在 下 面 的 查询 中 : 


select item_name, color, clothes_size, sum( quantity ) 
from sales 
group by rollup( item_name, color, clothes_size) ; 


group by rollup(item_name, color, clothes_size) 只 产生 四 个 分 组 : 


| (item-name, color, clothes_size), (item_name, color), (item name), ()| 


118 第 一 部 分 关系 数据 库 


208 


注意 ，rollup 中 的 属性 按照 顺序 不 同 有 所 区 分 ; 最 后 一 个 属性 (在 我 们 例子 中 是 clothes_size) 只 在 
一 个 分 组 中 出 现 , 倒数 第 二 个 属性 出 现在 两 个 分 组 中 ， 以 此 类 推 ， 第 一 个 属性 出 现在 (除了 空 分 组 之 外 
的 ) 所 有 组 中 。 

我 们 用 rollup 产生 的 特定 分 组 有 什么 用 ?这 些 组 对 于 层次 结构 (例如 图 5-19 所 示 ) 具 有 频繁 的 实用 
价值 。 对 于 位 置 的 层次 结构 ( Region，Country，State，City) ， 我 们 可 能 希望 用 Region 来 分 组 ， 以 得 到 不 
同 区 域 的 销售 情况 。 之 后 我 们 可 能 希望 “下 钻 ” 到 区 域内 部 的 国家 层面 ， 也 就 是 说 我 们 将 以 Region 和 
Country 来 分 组 。 继 续 下 销 ， 我 们 希望 以 Region, Country 和 State 分 组 ， 然 后 以 Region, Country, State 
和 City 来 分 组 。rollup 结构 允许 我 们 为 求 更 深层 的 细节 而 设 定 这 样 下 钻 的 序列 。 

多 个 rollup 和 cube 可 以 在 一 个 单独 的 group by 子 句 中 使 用 。 例 如 ， 下 面 的 查询 


select item_name, color, clothes_size, sum( quantity ) 
from sales 
group by rollup( item_name) , rollup( color, clothes_size) ; 


产生 了 以 下 分 组 : 


| (item_name, color, clothes_size) , (item_name, color) , (item_name) ， 
(color, clothes_size) , (color), () } 

为 了 理解 其 原因 ， 我 们 注意 到 rollup (item_name) 产生 了 两 个 分 组 : | (item_name), () |, rollup 
(color, clothes_size) 产生 了 三 个 分 组 : | (color, clothes_size), (color), () 1。 这 两 部 分 的 笛 卡 儿 积 得 到 
上 面 显 示 的 六 个 分 组 。 

rollup 和 cube 子 句 都 不 能 完全 控制 分 组 的 产生 。 例 如 ， 我 们 不 能 指定 让 它们 只 生成 分 组 | (color, 
clothes_size) ，( clothes_size ，item_name) | 。 我们 可 以 用 在 having 子 句 中 使 用 grouping 结构 的 方法 去 产生 
这 类 限制 条 件 的 分 组 ， 实 现 细节 作为 习题 留 给 读者 。 


5.7 总 结 


© SQL 查询 可 以 从 宿主 语言 通过 嵌入 和 动态 SQL FAR. ODBC 和 JDBC 标准 给 C, Java 等 语言 的 应 用 程 
序 定义 接 入 SQL 数据 库 的 应 用 程序 接口 。 程 序 员 越 来 越 多 地 通过 这 些 API 来 访问 数据 库 。 

© 函数 和 过 程 可 以 用 SQL 提供 的 过 程 扩 展 来 定义 ， 它 允许 迭代 和 条 件 (if-then-else) 语 句 。 

© 触发 器 定义 了 当 某 个 事件 发 生 而 且 满 足 相应 条 件 时 自动 执行 的 动作 。 触 发 器 有 很 多 用 处 ， 例 如 实现 
业务 规则 、 审 计 日 志 ， 甚 至 执行 数据 库 系 统 外 的 操作 。 虽 然 触发 器 只 是 在 不 久 前 作为 SQL:1999 的 一 
部 分 加 入 SQL 标准 的 ， 但 是 大 多 数 数据 库 系 统 已 经 支持 触发 器 很 入 了 。 

。 一 些 查询 ， 如 传递 闭 包 ， 或 者 可 以 用 和 迭代 表示 ， 或 者 可 以 用 递归 SQL 查询 表示 。 递 归 可 以 用 递归 视 
图 ,或 者 用 递归 的 with 子 句 定义 。 

© SQL 支持 一 些 高 级 的 聚集 特性 ， 包 括 排名 和 分 窗 查 询 ， 这 些 特性 简化 了 一 些 聚 集 操 作 的 表达 方式 ， 
并 提供 了 更 高 效 的 求 值 方法 。 

© 联机 分 析 处 理 (OLAP) 工 具 帮 助 分 析 人 员 用 不 同 的 方式 查看 汇总 数据 ,使 他 们 能 够 洞察 一 个 组 织 饼 
运行 。 
1. OLAP 工具 工作 在 以 维 属性 和 度量 属性 为 特性 的 多 维 数据 之 上 。 
2. 数据 立方 体 由 以 不 同方 式 汇总 的 多 维 数据 构成 。 预 先 计算 数据 立方 体 有 助 于 提高 汇总 数据 的 查询 

速度 。 

3. 交叉 表 的 显示 允许 用 户 一 次 查看 多 维 数据 的 两 个 维 及 其 汇总 数据 。 
4. 下 钻 、 上 卷 、 切 片 和 切 块 是 用 户 使 用 OLAP 工具 时 执行 的 一 些 操作 。 

© 从 SQL:1999 标准 开始 ，SQL 提供 了 一 系列 的 用 于 数据 分 析 的 操作 符 ， 其 中 包括 cube 和 rollup 操作 。 
有 些 系 统 还 支持 pivot 子 句 ， 可 以 很 方便 地 生成 交叉 表 。 


术语 回顾 
© JDBC 。 预备 语句 。 SQL 注入 
e ODBC 。 访问 元 数据 © HAZ SQL 
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。 游标 。 过 渡 变量 和 过 渡 表 © 多 维 数据 
。 可 更 新 的 游标 。 递归 查询 口 度量 属性 
。 动态 SQL 。 单调 查询 O 维 属性 
。 SQL 函数 。 排名 函数 转轴 
。 存储 过 程 Rank O 数据 立方 体 
e 过 程 化 结构 口 Dense rank 口 切片 和 切 块 
。 外 部 语言 例 程 Partition by O EM TFG 
o 触发 器 。 分 窗 。 交叉 表 
e before 和 after 触发 器 © 联机 分 析 处 理 (OLAP) 

实践 习题 


5.1 描述 何 种 情况 下 你 会 选择 使 用 能 入 式 SQL， 而 不 是 仅仅 使 用 SQL 或 某 种 通用 程序 设计 语言 。 

5.2 写 一 个 使 用 JDBC 元 数据 特性 的 Java 函数 ， 该 函数 用 ResultSet 作为 输入 参数 ， 并 把 结果 输出 为 用 合适 
的 名 字 作 为 列 名 的 表格 形式 。 

5.3” 写 一 个 使 用 JDBC 元 数据 特性 的 Java 函数 ， 该 函数 输出 数据 库 中 的 所 有 关系 列表 ， 为 每 个 关系 显示 它 
的 属性 的 名 称 和 类 型 。 

5.4 说 明 如 何 用 触发 器 来 保证 约束 "一 位 教师 不 可 能 在 一 个 学 期 的 同一 时 间 段 在 不 同 的 教室 里 教 课 ”。( 要 
知道 ， 对 关系 teaches 或 section 的 改变 都 可 能 使 该 约束 被 破坏 。) 

5.5 写 一 个 触发 器 ， 用 于 当 section 和 time_slot 更 新 时 维护 从 section 到 time_slot 的 参照 完整 性 约束 。 注 意 ， 
我 们 在 图 5-8 中 写 的 触发 器 不 包含 更 新 操作 。 

5.6 为 了 维护 关系 student  tot_cred 属性 ， 完 成 下 列 任务 : 
a. 修改 定义 在 takes 更 新 时 的 触发 器 ， 使 其 对 于 能 影响 tot_cred 值 的 所 有 更 新 都 有 效 。 
b. 写 一 个 能 与 关系 takes 的 插入 操作 相关 的 触发 器 。 
c. 在 什么 前 提 下 ， 关 系 course 上 不 创建 触发 器 是 有 道理 的 ? 

5.7 考虑 图 5-25 中 的 银行 数据 库 。 视 图 branch_cust 定义 如 下 : 


create view branch_cust as 
select branch_name, customer_name 
from depositor, account 
where depositor. account_number = account. account_number 





假设 视图 被 物化 ， 也 就 是 ， 这 个 视图 被 计算 且 存 储 。 写 触发 器 来 维护 这 个 视图 ， 也 就 是 ， 该 视图 在 对 210 
KF depositor 或 account 的 插入 和 删除 时 保持 最 新 。 不 必 管 更 新 操作 。 211 

















branch( branch_name , branch_city, assets ) 
customer ( customer_name, customer _street , cust_omer_city ) 
loan (loan_number, branch_name, amount) 
borrower ( customer_name, loan_number ) 
account ( account_number, branch_name, balance ) 
depositor ( customer_name , accouni_number ) 


图 5-25 习题 5.7、 习 题 5.8 和 习题 5. 28 中 用 到 的 银行 数据 库 


5.8 考虑 图 5-25 中 的 银行 数据 库 。 写 一 个 SQL 触发 器 来 执行 下 列 动作 : 在 对 账户 执行 delete 操作 时 ， 对 账 
户 的 每 一 个 拥有 者 ， 检 查 他 是 否 有 其 他 账户 ， 如 果 没 有 ， 把 他 从 depositor 关系 中 删除 。 
5.9 说明 如 何 使 用 rollup 表达 group by cube(a, b, c, d); 答案 只 允许 含有 一 个 group by 子 句 。 
5.10 ”对 于 给 定 的 一 个 关系 S(student, subject, marks) ， 写 一 个 查询 ， 利 用 排名 操作 找 出 总 分 数 排 在 前 n 位 的 
FE, 
5.11 考虑 5.6 节 中 的 关系 sales， 写 一 个 SQL 查询 ， 计 算 该 关系 上 的 立方 体 (cube ) 操作 ， 给 出 图 5-21 中 的 
关系 。 不 要 使 用 cube 结构 。 











120 ”第 一 部 分 关系 数据 库 


212 
213 





习题 


5.12 考虑 有 如 下 关系 的 雇员 数据 库 : 


mn U 


win 


.13 


14 
15 


è emp(ename, dname, salary) 

® mgr(ename, mname) 

和 图 5-26 中 的 Java 代码 ， 该 代码 使 用 JDBC 应 用 程序 接口 。 假 设 用 户 id、 密 码 、 主 机 名 等 都 正确 。 
请 用 简洁 的 语言 描述 一 下 Java 程序 都 做 了 什么 。( 也 就 是 说 ， 用 类 似 于 “查找 玩具 部 门 的 经 理 " 这 样 的 


_ 话 来 表达 ， 而 不 是 一 行 一 行 地 对 Java 语句 进行 解释 ,) 





import java.sql.*; 
public class Mystery { 
public static void main(String[] args) { 
try { 

Connection con=null; 

Class.forName("oracle.jdbc.driver.OracleDriver"); 

con=DriverManager.getConnection( 
"jdbc:oracle:thin:star/X@//edgar.cse.lehigh.edu:1521/XE"); 

Statement s=con.createStatement(); 

String q; 

String empName = "dog"; 

boolean more; 

ResultSet result; 

do { 
q = “select mname from mgr where ename = '" + empName + """; 
result = s.executeQuery(q); 
more = result.next(); 
if (more) { 

empName = result.getString("mname"); 
System.out.printin (empName); 


} 
} while (more); 
s.close(); 
con.close(); 
} catch(Exception e){e.printStackTrace();} }} 











图 5-26 习题 5.12 的 Java 代码 


假设 你 要 在 Java 中 定义 一 个 MetaDisplay 类 ， 它 包含 方法 static void printTable( String r); 该 方法 以 关 
Rr 为 输入 参数 ， 执 行 查询 "select ”from r” ， 然 后 以 合适 的 表格 来 显示 输出 结果 ， 表 头 代 表 每 一 列 的 
属性 名 。 
a. 要 想 以 指定 的 表格 形式 输入 结果 ， 你 需要 知道 关系 7 的 哪些 信息 ? 
b. JDBC 的 哪个 ( 些 ) 函数 能 帮 你 获取 所 需 的 信息 ? 
c. 用 JDBC 应 用 程序 接口 来 编写 方法 printTable( String r) 。 
用 ODBC 重新 做 习题 5. 13 ， 定 义 函 数 void printTable( charr) 来 代替 原 题 的 方法 。 
考虑 有 两 个 关系 的 雇员 数据 库 

employee( employee_name, street, city) 

works ( employee_name, company_name, salary) 
这 里 主 码 用 下 划 线 标 出 。 写 出 一 个 查询 找 出 这 样 的 公司 , 它 的 雇员 的 平均 工资 比 “ First Bank 
Corporation” 的 平均 工资 要 高 。 
a. 使 用 合适 的 SQL 函数 。 
b. 不 使 用 SQL 函数 。 
使 用 with 子 句 而 不 是 函数 调用 来 重 写 5.2. 1 节 的 查询 , 返回 教师 数 大 于 12 的 系 的 名 称 和 预算 。 
FEE RRA st SQL 与 在 SQL 中 使 用 定义 在 一 个 通用 程序 设计 语言 中 的 函数 这 两 种 情况 进行 比较 。 在 
什么 情况 下 你 会 考虑 用 哪个 特性 ? 
修改 图 5-15 中 的 递归 查询 来 定义 一 个 关系 

prereq_depth (course_id, prereq_id, depth) 


wn . 


20 


工具 
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这 里 属性 depth 表示 在 课程 和 先 修 课 程 之 间 存 在 多 少 层 中 间 的 先 修 关 系 。 直 接 的 先 修 课 程 的 深度 
为 0。 
考虑 关系 模式 
part( part_id, name, cost) 
subpart( part_id, subpart_id, count) 
关系 subpart 中 的 一 个 元 组 (p,, ps, 3) 表示 部 件 编号 为 p 的 部 件 是 部 件 编号 为 p 的 部 件 的 直接 子 部 
fF, 并且 p, 中 包含 3 个 p,。 注 意 p, 本 身 可 能 有 自己 的 子 部 件 。 写 一 个 递归 SQL 查询 输出 编号 为 P- 
100” 的 部 件 的 所 有 子 部 件 。 
再 一 次 考虑 习题 5. 19 中 的 关系 模式 。 用 非 递归 SQL 写 一 个 JDBC 函数 来 找 出 P-100" 的 总 成 本 ， 包 括 
它 的 所 有 子 部 件 的 成 本 。 注 意 考虑 一 个 部 件 可 能 有 重复 出 现 多 次 的 同一 个 子 部 件 的 情况 5; 如果 需 要 ， 
可 以 在 Java 中 使 用 递归 。 
假设 有 两 个 关系 + As, r 的 外 码 B 参照 ; 的 主 码 4。 描 述 如 何 用 触发 器 实现 从 * 中 删除 元 组 时 的 on 
delete cascade 选项 。 
一 个 触发 器 的 执行 可 能 会 引发 另 一 个 被 触发 的 动作 。 大 多 数 数 据 库 系统 都 设置 了 藤 套 的 深度 限制 。 解 
释 为 什么 它们 要 设置 这 样 的 限制 。 
考虑 图 5-27 中 的 关系 r。 请 给 出 下 面 查询 的 结果 。 
select building, room_number , time_slot_id, count( * ) 
from r 
group by rollup (building, room_number , time_slot_id) 






















building | roomnumber | timeslotid | course id | secid | 
Garfield | 359 A BIO-101 
Garfield | 359 BIO-101 
| Saucon | 651 | CS-101 
| Saucon | 550 IE | CS-319 
| Painter | 705 | D MU-199 
| Painter | 403 | D FIN-201 





图 5-27 习题 5.23 中 的 关系 上 


对 SQL 聚集 函数 sum, count, min 和 max 中 的 每 一 个 ， 说 明 在 给 定 多 重 集合 S AS, 上 的 聚集 值 的 
条 件 下 ， 如 何 计算 多 重 集合 5, U S, 上 的 聚集 值 。 

在 上 述 的 基础 之 上 ， 在 给 定 属性 725S 上 的 分 组 聚集 值 的 条 件 下 ， 对 下 面 的 聚集 函数 ， 给 出 计算 关系 
r(A, B, C, D, EE) 的 属性 的 子 集 5 上 的 分 组 聚集 值 的 表达 式 。 

a. sum, count, min 和 max, 

b. avg. 

c. 标准 差 。 

在 5.5.1 WF, 我们 使 用 习题 4.5 中 的 视图 student_grades 来 写 基于 绩 点 平均 值 对 学 生 排 名 次 的 查询 。 
修改 这 个 查询 ， 只 显示 前 十 名 的 学 生 ( 也 就 是 说 ， 从 第 一 名 到 第 十 名 的 那些 学 生 ) 。 

给 出 一 个 具有 两 个 分 组 的 例子 ， 它 不 能 使 用 带 有 cube 和 rollup 的 单个 group by 子 句 表达 。 

对 于 给 定 的 一 个 关系 r(a, b, c)， 说 明 如 何 使 用 扩展 SQL 特性 产生 一 个 c 对 a 的 直方 图 。 将 a 分 成 20 
个 等 分 的 区 ( 即 每 个 区 含有 r 中 5% 的 元 组 ， 并 按 a 排序 )。 

考虑 图 5-25 中 的 银行 数据 库 ， 以 及 关系 account 的 balance 属性 。 写 一 个 SQL 查询 ， 计 算 balance 值 的 
直方 图 ， 从 0 到 目前 最 大 账户 余额 的 范围 分 成 三 个 相等 的 区 域 。 


大 部 分 数据 库 销 售 商 把 OLAP 工具 当 作 他 们 数据 库 系统 的 一 部 分 或 作为 附加 应 用 程序 来 提供 。 这 些 工 具 
包括 微软 公司 的 OLAP TH, Oracle Express 和 Informix Metacube。 有 些 工具 被 整合 到 大 型 “商业 智能 ”产品 
中 ,例如 IBM Cognos。 很 多 公司 还 提供 面向 特定 应 用 (比如 客户 关系 管理 ) 的 分 析 工 具 ， 例如 Oracle 
Siebel CRM, 
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文献 注解 


对 于 SQL 标准 和 有 关 SQL 的 书籍 请 参考 第 3 章 的 文献 注解 。 

java. sun. com/docs/books/ tutorial 是 一 个 极 好 的 了 解 更 多 最 新 Java 和 JDBC 技术 资源 的 站 点 ， 有 关 Java 
(包括 JDBC) 的 书籍 也 可 以 在 该 URL 中 找到 。ODBC 的 API 在 Microsoft[ 1997] 和 Sanders[ 1998 ] 中 描述 过 。 
Melton 和 Eisenberg[ 2000 ] 提供 了 SQLJ, JDBC 和 相关 技术 的 人 门 向 导 。 更 多 关于 ODBC, ADO 和 ADO. NET 
的 信息 能 在 msdn. microsoft. com/data 上 找到 。 

对 于 SQL 中 函数 和 过 程 的 章节 ， 许 多 数据 库 产 品 支 持 标准 说 明 以 外 的 一 些 特性 ， 而 有 些 则 不 支持 某 些 
标准 内 的 特性 。 关 于 这 些 特性 的 更 多 信息 可 在 各 产品 的 SQL 用 户 手 册 中 找到 。 

最 初 有 关 断 言 和 触发 器 的 SQL 提议 在 Astrahan 等 [1976 ] | Chamberlin 等 [ 1976 ] 及 Chamberlin 等 [ 1981 | 
中 作 了 讨论 。Melton 和 Simon[ 2001 ] 、Melton[ 2002 ] ， 以 及 Eisenberg 和 Melton[ 1999 | 提供 了 涵盖 SQL:1999 
的 教科 书 ， 该 版 本 的 SQL 标准 中 首次 包含 了 触发 器 。 

递归 查询 处 理 最 早 是 在 一 种 叫做 Datalog 的 查询 语言 中 详细 研究 的 ， 该 语言 基于 数学 逻辑 ， 沿 袭 了 逻辑 
程序 设计 语言 Prolog 的 语法 。Ramakrishnan 和 Ullman[ 1995 ] 对 该 领域 的 研究 结果 做 了 综述 ， 其 中 涵盖 了 从 递 
归 定 义 的 视图 中 查询 元 组 的 子 集 的 优化 技术 。 

Gray 等 [1995] 和 Gray 等 [1997] 描 述 了 数据 立方 体操 作 符 。 用 于 计算 数据 立方 体 的 高 效 算法 在 Agarwal 
等 [1996 ] 、Harinarayan 等 [1996 ] Ross 和 Srivastava[ 1997 ] 中 有 描述 。SQL:1999 中 对 扩展 聚集 支持 的 描述 
可 在 数据 库 系统 (比如 Oracle 和 IBM DB2 ) 的 产品 手册 中 找到 。 

目前 有 大 量 关于 如 何 高 效 执行 “top-k” 查 询 ( 即 只 返回 排名 为 前 有 的 结果 ) 的 研究 。Ilyas 等 [2008 | 对 这 方 

面 工作 做 了 综述 。 
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形式 化 关系 查询 语言 


从 第 2 章 ~ 第 5 章 , 我 们 介绍 了 关系 模型 ， 并 详细 讲述 了 SQL。 在 本 章 中 我 们 将 介绍 SQL 所 基于 
的 形式 化 模型 ， 同 时 它 也 是 其 他 关系 查询 语言 的 基础 。 

本 章 内 容 包括 三 种 形式 化 语言 。 我 们 首先 介绍 关系 代数 ， 它 为 广泛 应 用 的 SQL 查询 语言 打下 了 基 
础 。 然 后 我 们 学 习 元 组 关系 演算 和 域 关 系 演算 ， 它 们 都 是 基于 数学 逻辑 的 声明 式 查询 语言 。 


6. 1 关系 代数 


关系 代数 是 一 种 过 程 化 查询 语言 。 它 包括 一 个 运算 的 集合 ， 这 些 运算 以 一 个 或 两 个 关系 为 输入 
产生 一 个 新 的 关系 作为 结果 。 关 系 代 数 基本 运算 有 : 选择 、 投 影 、 并 、 集 合 差 、 笛 卡 儿 积 和 更 名 。 在 
基本 运算 以 外 ， 还 有 一 些 其 他 运算 ， 即 集合 交 、 自 然 连接 和 赋值 。 我 们 将 用 基本 运算 来 定义 这 些 运 算 。 
6. 1.1 基本 运算 

选择 、 投 影 和 更 名 运算 称 为 一 元 运算 ， 因 为 它们 对 一 个 关系 进行 运算 。 另 外 三 个 运算 对 两 个 关系 
进行 运算 ， 因 而 称 为 二 元 运算 。 

6.1.1.1 选择 运算 

选择 (selelct) 运算 选 出 满足 给 定 谓 词 的 元 组 。 我 们 用 | dept name re 
小 写 希 腊 字 母 sigma( o ) 来 表示 选择 ， 而 将 谓词 写作 o 的 10101 | Srinivasan | Comp.Sci. | 65000 























下 标 。 参 数 关系 在 o 后 的 括号 中 。 因 此 ， 为 了 选择 关系 | 12121 | Wu Finance 90000 
« 。 — 15151 | Mozart Music 40000 
些 
instructor 中 属于 “物理 ( Physics)" 系 的 那些 元 组 , RIIA | 2222? | Einstein Physics 55006 
写作 : 32343 | El Said History 60000 
Cinsiructor) 33456 | Gold Physics 87000 
C dept name =" Paice" 45565 | Katz Comp. Sci. | 75000 
如 果 instructor 关系 如 图 6-1 所 示 ， 则 从 上 述 查 询 产 生 58583 | Califieri History 62000 
= | 76543 | Singh Finance | 80000 | 
的 关系 如 图 6-2 所 示 。 | 76766 | Crick Biology | 72000 
通过 书写 : 83821 | Brandt Comp. Sci. | 92000 
98345 | Kim Elec. Eng. | 80000 | 








O salar +90 o0 ( instructor ) 


我 们 可 以 找到 工资 额 大 于 90 000 美元 的 所 有 元 组 。 图 6-1 关系 instructor 


ae cae [salary ] 
| 22222 | Einstein | Physics | 95000 | | 
| 33456 | Gold Physics | 87000 | 


图 6-2 Opname =" physics (instructor) 的 结果 
通常 ,我们 允许 在 选择 谓词 中 进行 比较 ， 使 用 的 是 =， 关 ，<， 三 ，> 和 三 。 男 外 ,我们 可 以 用 
连词 and( A), or( V ) 和 not( 一 ) 将 多 个 谓词 合并 为 一 个 较 大 的 谓词 。 因 此 ， 为 了 找到 物理 系 中 工资 额 
大 于 90 000 美元 的 教师 ， 我 们 需要 书写 : 
© dept-name =" Physics” Arala >90 000 ( Listructor ) 


选择 谓词 中 可 以 包括 两 个 属性 的 比较 。 我 们 以 关系 department 为 例 说 明 。 为 了 找 出 那些 系 名 与 楼 
名 相同 的 系 ， 我 们 可 以 这 样 写 : 
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O dopr_name = building ( department ) 


SQL 与 关系 代数 
关系 代数 中 的 术语 选择 (select) 与 我 们 在 SQL 中 所 使 用 的 关键 词 select 具有 不 一 样 的 含义 ， 这 是 
历史 原因 造成 的 。 在 关系 代数 中 ， 术 语 select 对 应 于 我 们 在 SQL 中 使 用 的 where。 我 们 在 这 里 强调 二 
者 含义 的 区 别 ， 以 减少 可 能 出 现 的 混淆 。 


6. 1.1.2 投影 运算 

假设 我 们 想 要 列 出 所 有 教师 的 ID. name 和 salary， 而 不 关心 dept_name。 投 影 (project) 运算 使 得 我 
们 可 以 产生 这 样 的 关系 。 投 影 运算 是 一 元 运算 ， 它 返回 作为 参数 的 关系 ， 但 把 某 些 属性 排除 在 外 。 由 
于 关系 是 一 个 集合 ， 所 以 所 有 重复 行 均 被 去 除 。 投 影 用 大 写 希 腊 字母 pi( II ) 表 示 ， 列 举 所 有 我 们 希望 
在 结果 中 出 现 的 属性 作为 生 的 下 标 ， 作 为 参数 的 关系 在 跟随 了 后 的 括号 中 。 因 此 ， 我们 可 以 写 如 下 的 
查询 来 得 到 上 述 的 教师 列表 : 

TI io name satary ( instructor ) 

6-3 显示 了 此 查询 产生 的 关系 。 

6.1.1.3 关系 运算 的 组 合 ID | name salary 

关系 运算 的 结果 自身 也 是 一 个 关系 ， 这 一 事实 是 非常 重要 的 。 “| 10101 | Srinivasan | 65000 | 


12121 | Wu 90000 


考虑 一 个 更 复杂 的 查询 “ 找 出 物理 系 的 所 有 教师 的 名 字 ”， 我 们 写作 :15151 | Mozart 40000 


22222 | Einstein 95000 | 





TT name ( name= "Physics" (instructor) ) 32343 | El Said 60000 | 
请 注意 ， 对 投影 运算 而 言 ， 我 们 没有 给 出 一 个 关系 的 名 字 来 作为 其 ce aan hs 
参数 ， 而 是 用 一 个 对 关系 进行 求 值 的 表达 式 来 作为 参数 。 58583 | Califieri 62000 


一 般 地 说 ， 由 于 关系 代数 运算 的 结果 同 其 输入 的 类 型 一 样 , 仍 | 7 | Singh 
为 关系 ， 所 以 我 们 可 以 把 多 个 关系 代数 运算 组 合成 一 个 关系 代数 表 83821 | Brandt | 22000 
达 式 ( relational-algebra expression) 。 将 关系 代数 运算 组 合成 关系 代 
数 表达 式 如 同 将 算术 运算 (如 + 、- 和 := ) 组 合成 算术 表达 式 一 样 。 图 6-3 Mao name stan (instructor) 
我 们 将 在 6. 1. 2 节 给 出 关系 代数 表达 式 的 形式 化 定义 。 的 结果 

6.1.1.4 并 运算 

假设 有 一 个 查询 ， 要 找 出 开设 在 2009 年 秋季 学 期 或 者 2010 年 春季 学 期 或 者 这 二 者 丝 开 的 所 有 课 
程 的 集合 。 关 系 section( 图 6-4) 中 包含 这 些 信息 。 为 了 找到 2009 年 秋季 学 期 开设 的 所 有 课程 的 集合 ， 
我 们 可 以 这 样 写 : 

















Tima (Oni =" Fan" Ayear =2009 ( Section) ) 
为 了 找 出 在 2010 年 春季 学 期 开设 的 课程 ， 我 们 可 以 这 样 写 : 
TI course_id ( O semester = "Spring" A year = 2010 (section ) ) 

为 了 实现 该 查询 ， 我 们 需要 将 这 两 个 集合 并 (union ) 起 来 ; 即 我 们 需要 出 现在 这 两 个 集合 之 一 的 或 
同时 出 现在 这 两 个 集合 中 的 所 有 课程 段 的 ID。 我 们 通过 二 元 运算 “并 "来 获得 这 些 数据 ,“ 并 "运算 像 集 
合 论 中 一 样 用 U 表 示 。 于 是 ， 所 需 表 达 式 为 : 

M curse ia (O semester =" Fal” A year =2009 (Section) ) U TT course-it ( O semester = "Spring" Ayear =210 ( Section ) ) 

此 查询 产生 的 关系 如 图 6-5 所 示 。 需 要 注意 的 是 ， 尽 管 有 3 门 课 在 2009 年 秋季 开设 ，6 门 课 在 
2010 年 春季 开设 ,但 是 在 结果 中 共有 8 个 元 组 。 由 于 关系 是 集合 ， 所 以 像 CS-101 这 样 在 两 个 学 期 都 开 
设 的 重复 值 只 留 下 了 单个 元 组 。 

可 以 看 到 ， 在 我 们 的 例子 中 ， 做 并 运算 的 两 个 集合 都 由 course_id 值 构成 。 概 括 地 说 ， 我 们 必须 保 
证 做 并 运算 的 关系 是 相 容 的 。 例 如 ， 将 instructor 关系 和 student 关系 做 并 运算 就 没有 意义 。 尽 管 两 个 关 
系 都 包含 4 个 属性 ， 但 是 二 者 在 salary 和 tot_cred 的 域 上 是 不 同 的 。 在 大 多 数 情 况 下 这 两 个 属性 的 并 集 
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| course id | sec.id | semester | year | building | roomnumber | time slotid | 
BIO-101 | 1 | Summer | 2009 | Painter 514 B | 
BIO-301 1 Summer | 2010 | Painter 514 A 

| CS-101 1 Fall 2009 | Packard 101 H 
CS-101 1 Spring 2010 | Packard 101 F 
CS-190 1 Spring 2009 | Taylor 3128 E 
CS-190 2 Spring 2009 | Taylor 3128 A 
CS-315 1 Spring 2010 | Watson 120 D 
CS-319 1 Spring 2010 | Watson 100 B 
CS-319 2 Spring 2010 | Taylor 3128 Cc 
CS-347 1 Fall 2009 | Taylor 3128 A 
EE-181 1 Spring 2009 | Taylor | 3128 | € 
FIN-201 1 Spring 2010 | Packard 101 | B 
HIS-351 1 Spring 2010 | Painter 514 C 
MU-199 1 Spring 2010 | Packard 101 D 
PHY-101 1 Fall 2009 | Watson 100 A 























图 6-4 关系 section 
是 没有 意义 的 。 因 此 ， 要 使 并 运算 rUs 有 意义 ,我 们 要 求 以 下 两 个 条 件 同时 成 立 : 


1. 关系 + 和 必须 是 同 元 的 ， 即 它们 的 属性 数目 必须 相同 。 ET 
2. 对 所 有 的 i, r 的 第 i 个 属性 的 域 必 须 和 ;的 第 i 个 属性 的 | CS-101 
CS-315 
域 相同 。 CS-319 
请 注意 和 可 以 是 数据 库 关 系 或 者 作为 关系 代数 表达 式 结果 的 临时 Sae 
关系 。 HIS-351 | 
6.1.1.5 集合 差 运算 . pei 








用 - 表示 的 集合 差 (set-difference ) 运算 使 得 我 们 可 以 找 出 在 一 个 
关系 中 而 不 在 另 一 个 关系 中 的 那些 元 组 。 表 达 式 7 -s 的 结果 即 一 个 包 
含 所 有 在 r 中 而 不 在 s 中 的 元 组 的 关系 。 

我 们 可 以 通过 书写 如 下 表达 式 来 找 出 所 有 开设 在 2009 年 秋季 学 
期 但 是 在 2010 年 春季 学 期 不 开 的 课程 : 


TI course id O semester = "Fall" A year =2009 ( Section) ) — TT course id ( O semester = "Spring" Ayear =2010 ( Section) ) 


该 查询 产生 的 关系 如 图 6-6 所 示 。 


图 6-5 2009 年 秋季 学 期 或 
2010 年 春季 学 期 或 者 这 两 个 
学 期 都 开设 的 课程 


_PHY-101 
6-6 FE 2009 年 秋季 学 期 开设 但 在 2010 年 春季 学 期 不 开 的 课程 


就 像 并 运算 一 样 ， 我 们 必须 保证 集合 差 运 算 在 相 容 的 关系 间 进 行 。 因 此 ， 为 使 集合 差 运 算 r-s 有 意 
X, 我们 要 求 关系 r 和 s 是 同 元 的 ， 且 对 于 所 有 的 i, r 的 第 i 个 属性 的 域 与 ， 的 第 i 个 属性 的 域 都 相同 。 

6.1.1.6 FILZ 

用 x 表示 的 笠 卡 儿 积 ( Cartesian-product) 运 算 使 得 我 们 可 以 将 任意 两 个 关系 的 信息 组 合 在 一 起 。 我 
们 将 关系 r 和 7, 的 笛 卡 儿 积 写作 xro 

回忆 一 下 ， 关 系 定义 为 一 组 域 上 的 笛 卡 儿 积 的 子 集 。 从 这 个 定义 ， 我 们 应 该 已 经 对 笛 卡 儿 积 运算 
的 定义 有 了 直观 的 认识 。 但是， 由 于 相同 的 属性 名 可 能 同时 出 现在 r, 和 7, 中 ,我 们 需要 提出 一 个 命名 
机 制 来 区 别 这 些 属性 。 我 们 这 里 采用 的 方式 是 找到 属性 所 来 自 的 关系 ,把 关系 名 称 附加 到 该 属性 上 。 
例如 ，r = instructor x teaches 的 关系 模式 为 : 


(instructor. ID, instructor. name, instructor. dept_name, instructor. salary 
teaches. ID, teaches. course_id, teaches. sec_id, teaches. semester, teaches. year) 


用 这 样 的 模式 ， 我 们 可 以 区 别 instructor. ID 和 teaches. ID。 对 那些 只 在 两 个 关系 模式 之 一 中 出 现 的 属性 ， 
我 们 通常 省 略 其 关系 名 前 级 。 这 样 的 简化 不 会 导致 任何 歧义 。 这 样 ， 我 们 就 可 以 将 7 的 关系 模式 写作 : 
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(instructor. ID, name, dept_name, salary 
teaches. ID, course_id, sec_id, semester, year) 


这 个 命名 规则 规定 作为 第 卡 儿 积 运算 参数 的 关系 名 字 必 须 m 







































































| courseid | secid | semester | year | 
不 同 。 这 一 规定 有 时 会 带 来 一 些 问题 ,例如 当 某 个 关系 需 “10101 | CS-101 1 | Fall |2009| 
要 与 自身 做 笛 卡 儿 积 时 。 当 我 们 在 笛 卡 儿 积 中 使 用 关系 代 | 10101 | C5315 | 1 Spring | 2010 
` ner y- A | | es | | 
数 表达 式 的 结果 时 也 会 产生 类 似 问 题 ， 因 为 我 们 必须 给 关 12121 | FIN-201 | 1 | Spring | 2010 
L NEZD f whe aise 5 | 15151 | MU-199 1 Spring 2010 
系 一 人 名 字 以 引用 其 属 性 。 在 6. 1.1.7 节 中 ,我 们 将 学 习 | 22222 | PHY-101 | 1 | Fall 5008 
如 何 通过 更 名 运算 来 避免 这 些 问 题 。 | 32343 | HIS-351 1 | Spring | 2010 
if 、 | 45565 | CS-101 1 Spring 2010 
Py = Z pring, 
我 们 已 经 知道 = instructor x teaches 的 关系 模式 ， 那 么 | 45565 | CS-319 | 1 | Spring | 2010 
到 底 哪些 元 组 会 出 现在 r 中 呢 ? 或 许 你 已 经 想到 了 ， 如 下 | 76766 | BIO-101 | 1 | Summer | 2009 
eo 本 ae | 76766 | BIO-301 1 Summer | 2010 | 
所 述 每 一 个 可 能 的 元 组 对 都 形成 r 的 一 个 元 组 ， 元 组 对 中 | 83821 | CS-190 1 Spring | 2009 
一 个 来 自 关 系 instructor ( 图 6-1) 而 另 一 个 来 自 关 系 teaches 83821 | CS-190 2 Spring 2009 | 
aes 83821 | CS-319 2 | Spring | 2010 | 
(图 6-7) 。 因 此 ， 正 如 你 可 以 从 图 6-8 看 到 的 那样 ，r 是 一 | 98345 | EE-181 1 | Spring | 2009 | 
个 和 ， 而 该 图 只 显示 r TH. © 
个 很 大 的 关系 ， 而 该 图 只 显示 了 构成 "的 部 分 元 组 EE 
inst. ID | name __|dept-name salary | teaches.ID | course.id | sec_id semester year | 
10101 | Srinivasan [CompSci |65000| 10101 |CS-101 1 | Fall 2009 | 
10101 | Srinivasan CompSci. | 65000! 10101 | CS-315 1 |Spring | 2010) 
10101 | Srinivasan |CompSeci. | 65000) 10101 | CS-347 1 | Fall 2009 | 
10101 | Srinivasan |CompSci. | 65000} 12121 | FIN-201 1 | Spring 2010 
10101 | Srinivasan |CompSei. | 65000} 15151 | MU-199 1 |Spring | 2010! 
10101 | Srinivasan |CompSeci. | 65000} 22222 | PHY-101 | 1 | Fall 2009 | 
dove las | ee | sx | 
12121 | Wu Finance | 90000) 10101 iCs-101 | 1 | Fall | 2009 | 
12121 | Wu Finance | 90000} 10101 ,Cs-315 | 1 [Spring | 2010, 
12121 | Wu Finance “| 90000) 10101 C5-347 | 1 |Fall | 2009 | 
12121 | Wu [Finance 90000) 12121 | FIN-201 | 1 | Spring | 2010, 
12121 | Wu Finance 90000} 15151 |MU-199 | 1 [Spring | 2010. 
12121 | Wu Finance “| 90000} 22222 | PHY-101 | 1 | Fall 2009 | 
15151 Mozart |Musie 40000} 10101 (cs-101 | 1 |Fal ~— | 2009, 
15151 | Mozart Music 40000} 10101 | CS-315 1 |Spring | 2010 
15151 | Mozart Music 40000 | 10101 | CS-347 1 | Fall 2009 
15151 | Mozart Music 40000} 12121 | FIN-201 1 |Spring | 2010 
15151 | Mozart Music 40000} 15151 |MU-199 | 1 |Spring | 2010) 
15151 | Mozart [Musie  |40000| 22222 |PHY-101| 1 |Fall |2009| 
22222 | Einstein {Physics (95000) 10101 ,Cs-101 | 1 | Fall | 2009 
22222 | Einstein {Physics (95000) 10101 |CS-315 | 1 | Spring | 2010 
22222 | Einstein |Physics (95000) 10101 | CS-347 | 1 Fall 2009 | 
22222 | Einstein [Physics |95000| 10101 |FIN-201 | 1 |Spring | 2010, 
22222 | Einstein {Physics | 95000) 15151 |MU-199 | 1 |Spring | 2010! 
22222 | Einstein |Physics |95000| 22222 |PHY-101} 1 | Fall 2009 | 
| ae | 
| 
图 6-8 instructor x teaches 的 结果 


假设 instructor 中 有 nn 个 元 组 ，teaches ‘PA n, 个 元 组 。 那 么 我 们 可 以 有 n xn, 种 方式 来 选择 元 组 
对 一 一 每 个 关系 中 选 出 一 个 元 组 ; 因此 7 中 有 n, xn, 个 元 组 。 特 别 地 ,请 注意 对 7 中 的 某 些 元 组 i 来 
i, FY BE tl instructor. ID] #t[ teaches. ID]。 

Ai, WRAKA r (R,) Ar, (R,), WA r xr, 的 模式 是 R, AR, 串 接 而 成 的 。 关 系 R PAA 
所 有 满足 以 下 条 件 的 元 组 1: r 中 存在 元 组 t 且 中 存在 元 组 t, 使 得 tL R] =t [R] Ae R,] =2,[R,). 


O TER, 在 图 6-8 和 图 6-9 中 ， 为 了 减 小 表格 的 宽度 ， 我 们 把 instructor. ID ERZA inst. ID, 
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假设 我 们 希望 找 出 物理 系 的 所 有 教师 ， 以 及 他 们 教授 的 所 有 课程 。 为 了 实现 这 一 要 求 ， 我 们 同时 
需要 关系 instructor 和 关系 teaches 中 的 信息 。 如 果 我 们 写 : 


Osom_name = "Physics" ( isSITrUCLOr x teaches) 


则 其 结果 就 是 图 6-9 所 示 关 系 。 


























inst.ID| name |dept-name|salary | teaches.ID | course_id | secid | semester | year | 
22222 | Einstein | Physics |95000) 10101 TCS-437 1 | Fall 2009 | 
22222 | Einstein | Physics |95000| 10101 |Cs-315 1 |Spring | 2010 
22222 | Einstein | Physics /95000} 12121 | FIN-201 1 | Spring | 2010 
22222 | Einstein | Physics |95000) 15151 |MU-199 | 1 |Spring | 2010 
22222 | Einstein | Physics |95000| 22222 |PHyY-101| 1 | Fall 2009 
22222 | Einstein | Physics |95000| 32343 | HIS-351 1 | Spring | 2010 | 
33456 | Gold Physics | 87000} 10101 | CS-437 1 Fall 2009 | 
33456 | Gold Physics {87000} 10101 | CS-315 1 | Spring | 2010 
33456 | Gold Physics |87000| 12121 | FIN-201 1 | Spring |2010 
33456 | Gold Physics |87000 15151 |MU-199 | 1 | Spring | 2010} 
33456 | Gold Physics |87000| 22222 |PHY-101| 1 | Fall 2009 
33456 | Gold Physics |87000} 32343 | HIS-351 1 |Spring | 2010 

a | 























图 6-9 au name ="Physiexs (instructor x teaches) 的 结果 


这 里 我 们 得 到 的 关系 中 只 包含 物理 系 的 教师 。 然 而 ，course_id 列 却 可 能 包含 并 非 这 些 教师 所 教授 
的 课程 。( 如 果 你 不 明白 为 什么 会 发 生 这 种 情况 ， 请 不 要 忘 了 笛 卡 儿 积 中 保留 了 所 有 可 能 的 由 一 个 来 自 
instructor 的 元 组 和 一 个 来 自 teaches 的 元 组 构成 的 元 组 对 。) 

由 于 笛 卡 儿 积 运算 将 instructor 中 的 每 个 元 组 同 teaches 中 的 每 个 元 组 进行 联系 ， 所 以 我 们 可 以 
确定 ， 如 果 一 名 教师 来 自 于 物理 系 并 教授 某 门 课程 (在 关系 teaches 中 有 对 应 的 元 组 )， 那么 
 tept_name = "Physics" ( instructor X teaches) 中 必定 存在 某 个 元 组 ， 它 包含 该 教师 的 名 字 ， 并 且 满 足 instructor. ID = 
teaches. 万。 因此 ， 如 果 我 们 用 : 


Oia jo shane ramen Playas (instructor x teaches) ) 
就 可 以 得 到 在 instructor x teaches 中 那些 只 与 物理 系 教师 以 及 他 们 所 教 课程 相关 的 元 组 。 
最 后 ， 由 于 我 们 只 需要 物理 系 教师 的 名 字 ， 以 及 他 们 所 教 课程 的 course_id， 我 们 进行 投影 : 
TI name,course id ( O insirucior. 1D = teaches. ID ( O depi name = "Physica" ( instructor x teaches ) ) ) 
此 表达 式 的 结果 如 图 6-10 所 示 ， 这 就 是 我 们 的 查询 的 正确 答案 。 可 以 看 到 ， 虽 然 God 属于 物理 系 ， 但 
是 (从 关系 teaches 可 知 ) 他 不 教 课 ， 因 此 未 出 现在 结果 中 。 
| name course id 


| Einstein | PHY-101 

















图 6-10 [I name ,course_id ( rai 1D = teases. ot E dept_name = " Physics" ( instructor x teaches) ) ) 的 结果 


需要 注意 ， 用 关系 代数 表达 查询 的 方法 并 不 唯一 。 考 虑 如 下 查询 : 
Pm (O instructor. iD = teathes. m CO, dept_name = " Physics” (instructor) ) x teaches) ) 

注意 这 两 个 查询 的 细微 差别 : 上 面 的 查询 是 对 instructor 进行 选择 运算 ， 把 dept_name 限制 为 Physics， 
之 后 再 进行 笛 卡 儿 积 ; 相 比 之 下 ， 在 前 面 介 绍 的 查询 中 ， 在 选择 运算 之 前 先 计算 笛 卡 儿 积 。 然 而 这 两 
种 查询 是 等 价 的 (equivalent) ， 也 就 是 说 ， 在 任何 数据 库 上 它们 都 能 得 到 相同 的 结果 。 

6.1.1.7 更 名 运算 

关系 代数 表达 式 的 结果 没有 可 供 我 们 引用 的 名 字 ， 这 一 点 与 数据 库 中 的 关系 有 所 不 同 。 如 果 能 给 
它们 赋 上 和 名字 那 将 是 十 分 有 用 的 ; 我 们 可 以 通过 小 写 希腊 字母 tho(p) 表 示 的 更 名 (rename) 运 算 来 完成 
这 一 任务 。 对 给 定 关系 代数 表达 式 E， 表 达 式 
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p:(E) 

返回 表达 式 E WAR, FHA x RATE. 

对 于 一 个 关系 + 来 说 ， 它 自身 被 认为 是 一 个 (平凡 的 ) 关 系 代数 表达 式 。 因 此 ， 我 们 也 可 以 将 更 名 
运算 运用 于 关系 r， 这 样 可 得 到 具有 新 名 字 的 一 个 相同 的 关系 。 

更 名 运算 的 另 一 形式 如 下 。 假 设 关系 代数 表达 式 E 是 n 元 的 ， 则 表达 式 

Patana ap (E) 

返回 表达 式 的 结果 ， 并 赋 给 它 名 字 x， 同 时 将 各 属性 更 名 为 4 ，4,，…，4,。 

我 们 以 查询 “ 找 出 大 学 里 的 最 高 工资 ”作为 例子 来 演示 关系 的 更 名 运算 。 我 们 的 策略 是 : 首先 计算 
出 一 个 由 非 最 高 工资 组 成 的 临时 关系 ， 然 后 计算 关系 Two ( instructor ) 和 刚才 算出 的 临时 关系 之 间 的 集 
合 差 ， 从 而 得 到 结果 。 











L 步骤 1: 为 了 计算 该 临时 关系 ， 我 们 需要 比较 所 有 工资 的 值 。 salary 
要 做 这 样 的 比较 ， 可 以 通过 计算 笛 卡 儿 积 instructor x instructor 并 构 | 
造 一 个 选择 来 比较 任意 两 个 出 现在 同一 元 组 中 的 工资 。 我 们 的 首要 40000 | 
任务 是 设计 一 种 机 制 来 区 别 两 个 salary 属性 。 我 们 将 使 用 更 名 运算 
来 改变 其 中 一 个 对 教师 关系 进行 引用 的 名 字 ; 这 样 我 们 就 可 以 无 歧 | 75000 
义 地 两 次 引用 这 个 关系 。 | 

现在 可 以 把 非 最 高 工资 构成 的 临时 关系 写作 : 上 





TT instructor. salary ( O instructor. salary < d. salary ( instructor X p, (instructor ) ) ) 
通过 这 一 表达 式 可 以 得 到 instructor 中 满足 如 下 条 件 的 那些 工资 : 在 图 6-11 TRAR ueo wen 
HR instructor( BAH d) 中 还 存在 比 它 更 高 的 工资 。 结 果 中 包含 了 人 wee lan ct ar (instructor x 
除 最 高 工资 以 外 的 所 有 工资 。 图 6-11 表示 这 个 关系 。 pu (instructor) ) ) 的 结果 

2. 步骤 2: 查找 大 学 里 最 高 工资 的 查询 可 写作 : 

I ( instructor) — [| instructor salary ( O instructor. salary < d. salary ( Unstructor X p, (instructor) ) ) 


该 查询 的 结果 如 图 6-12 所 示 。 


| 95000 
图 6-12 大 学 里 的 最 高 工资 


更 名 运算 不 是 必需 的 ， 因 为 可 以 对 属性 使 用 位 置 标记 。 我 们 可 以 用 位 置 标 记 隐 含 地 作为 关系 的 属 
EZ, 用 $1、$2、… 指 代 第 一 个 属性 、 第 二 个 属性 ， 以 此 类 推 。 位 置 标 记 也 适用 于 关系 代数 表达 式 
运算 的 结果 。 下 面 的 关系 代数 表达 式 演示 了 位 置 标记 的 用 法 ， 我 们 用 它 来 写 先前 介绍 的 计算 非 最 高 工 
资 的 表达 式 : 


Tes ( Ty ss ( instructor x instructor ) ) 


注意 ， 笛 卡 儿 积 把 两 个 关系 的 属性 串 接 起 来 。 因 此 ， 在 笛 卡 儿 积 (instructor x teaches) 中 $4 代表 第 一 个 
instructor 的 属性 salary， 而 $8 代表 第 二 个 instructor 的 属性 salary。 如 果 一 个 二 元 运算 需要 在 作为 其 运算 
对 象 的 两 个 关系 之 间 进 行 区 分 ， 类 似 的 位 置 标记 也 可 以 用 来 作为 关系 名 称 。 例 如 ，$ RI 可 以 指 代 第 一 
个 作为 运算 对 象 的 关系 ， 而 $R2 可 以 指 代 第 二 个 关系 。 然 而 ， 位 置 标记 对 人 而 言 不 够 方便 ， 因 为 属性 
的 位 置 是 一 个 数字 ， 不 像 属 性 名 那样 易于 记忆 。 所 以 在 这 本 书 里 我 们 不 采用 位 置 标记 。 
6. 1.2 关系 代数 的 形式 化 定义 

6.1.1 节 中 的 运算 使 我 们 能 够 给 出 关系 代数 中 表达 式 的 完整 定义 。 关 系 代 数 中 基本 的 表达 式 是 如 
下 二 者 之 一 ; 

© 数据 库 中 的 一 个 关系 。 

© 一 个 常数 关系 。 
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常数 关系 可 以 用 在 | | 内 列 出 它 的 元 组 来 表示 ， 例 如 | (22222, Einstein, Physics, 95000), (76543, Singh, 

Finance, 80000) | 。 
关系 代数 中 一 般 的 表达 式 是 由 更 小 的 子 表达 式 构 成 的 。 设 玉 ME, 是 关系 代数 表达 式 ， 则 以 下 这 

些 都 是 关系 代数 表达 式 : 

e E UE,, 

e E -E,, 

e E xE,. 

eo CE) , HF PEE, 的 属性 上 的 谓词 。 
。 TI,(£,), HP SHE, 中 某 些 属性 的 列表 。 
e p, CED ， 其 中 x* 是 局 结果 的 新 名 字 。 

6.1.3 附加 的 关系 代数 运算 
关系 代数 的 基本 运算 足以 表达 任何 关系 代数 查询 。 但 是 ， 如 果 我 们 把 自己 局 限于 基本 运算 ， 某 些 

常用 查询 表达 出 来 会 显得 宛 长 。 因 此 ， 我 们 定义 附加 的 一 些 运算 ， 它 们 不 能 增强 关系 代数 的 表达 能 力 ， 

却 可 以 简化 一 些 常 用 的 查询 。 对 每 个 新 运算 ,我 们 给 出 一 个 只 采用 基本 运算 的 等 价 表达 式 。 227 
6.1.3.1 集合 交 运算 228 
我 们 要 定义 的 第 一 个 附加 的 关系 代数 运算 是 集合 交 (intersection) (mn ) 。 假 设 我 们 希望 找 出 在 2009 

年 秋季 和 2010 年 春季 都 开设 的 课程 。 使 用 集合 交 运 算 ， 我们 可 以 写 为 

si ( O semester =" Fall” A year =2009 (section) ) N Tw id Cr Spring" A year =2010 ( section) ) 


此 查询 产生 的 关系 如 图 6-13 所 示 。 

















图 6-13 ”在 2009 年 秋季 学 期 和 2010 年 春季 学 期 都 开设 的 课程 


请 注意 ， 任 何 使 用 了 集合 交 的 关系 代数 表达 式 ， 我 们 都 可 以 通过 用 一 对 集合 差 运算 替代 集合 交 运 
AKEH, W FAR: 
rNAs=r-(r-s) 
因此 ， 集 合 交 不 是 基本 运算 ， 不 能 增强 关系 代数 的 表达 能 力 。 只 不 过 写 rn s ES r -(r - *) 要 方便 。 
6.1.3.2 自然 连接 运算 

对 某 些 要 用 到 笛 卡 儿 积 的 查询 进行 简化 常常 是 我 们 需要 的 。 通 常情 况 下 ， 涉 及 笛 卡 儿 积 的 查询 中 
会 包含 一 个 对 笛 卡 儿 积 结果 进行 选择 的 运算 。 该 选择 运算 大 多 数 情况 下 会 要 求 进行 笛 卡 儿 积 的 两 个 关 
系 在 所 有 相同 属性 上 的 值 相 一 致 。 

6.1.1.6 中 的 例子 把 表 instructor 和 teaches 的 信息 相 结 合 ,， 匹配 条 件 是 要 满足 instructor. ID 和 
teaches. ID 相等。 在 这 两 个 关系 中 只 有 它们 有 相同 的 属性 名 。 

二 元 运算 自然 连接 使 得 我 们 可 以 将 某 些 选择 和 笛 卡 儿 积 运算 合并 为 一 个 运算 。 我 们 用 连接 (join) 
符号 来 表示 它 。 自 然 连接 运算 首先 形成 它 的 两 个 参数 的 笛 卡 儿 积 ， 然 后 基于 两 个 关系 模式 中 都 出 现 
的 属性 上 的 相等 性 进行 选择 ， 最 后 还 要 去 除 重复 属性 。 回 到 关系 instructor 和 teaches 的 例子 中 ,计算 
instructor 和 teaches 的 自然 连接 时 ， 只 考虑 由 instructor 和 teaches 中 在 相同 属性 ID 上 有 相同 值 的 元 组 组 成 [229 | 
的 元 组 对 。 结 果 关 系 如 图 6-14 所 示 ， 只 包含 13 个 元 组 ， 每 个 元 组 记录 了 某 个 教师 及 其 实际 教授 的 一 
门 课程 的 信息 。 注 意 ， 我 们 并 不 重复 记录 那些 在 两 个 关系 的 模式 中 都 出 现 的 属性 。 还 要 注意 所 列 出 的 
属性 的 顺序 : 排 在 最 前 面 的 是 两 个 关系 模式 的 相同 属性 ， 其 次 是 只 属于 第 一 个 关系 模式 的 属性 ， 最 后 
是 只 属于 第 二 个 关系 模式 的 属性 。 

尽管 自然 连接 的 定义 很 复杂 ， 这 种 运算 使 用 起 来 却 很 方便 。 举 例 来 说 ， 考 虑 一 下 查询 “ 找 出 所 有 教 
师 的 姓名 ， 连 同 他 们 教 的 所 有 课程 的 course_id”。 用 自然 连接 我 们 可 以 将 此 查询 表述 如 下 : 


Ime course ia ( instructor DA teaches ) 
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ID [name | |deptname |salary|courseid|secid|semester | year 
10101 | Srinivasan | Comp. Sci.|65000|Cs-101 | 1 |Fall 12009 | 
| 10101 | Srinivasan | Comp. Sci. | 65000 CS-315 1 [Spring = 2010} 
10101 | Srinivasan | Comp. Sci.| 65000 | CS-347 | 1 |Fall 2009 | 
12121| Wu Finance |90000|FIN-201 1 |Spring |2010 
15151 | Mozart Music 40000 | MU-199 | 1 |Spring |2010 
22222 | Einstein | Physics 95000 PHY-101 1 Fall |2009 
32343 | El Said History | 60000 HIS-351 1 |Spring 2010 
45565 | Katz Comp. Sci.|75000 Cs-101 | 1 (Spring 2010 
45565 | Katz Comp. Sci. | 75000 | CS-319 1 |Spring | 2010 
76766 | Crick Biology 72000 | BIO-101 | 1 |Summer | 2009 
76766 | Crick Biology | 72000 BIO-301 | 1 |Summer | 2010 
| 83821 | Brandt Comp. Sci. | 92000 | CS-190 1 |Spring | 2009) 
83821|Brandt | Comp. Sci.|92000| cs-190 ， 2 |Spring 2009) 
83821 | Brandt Comp. Sci. | 92000 | Cs-319 2 |Spring 2010) 
98345|Kim _| Elec. Eng. |80000|EE-181 | 1 [Spring 2009| 




















由 于 instructor 和 teaches 的 模式 中 具有 相同 属性 D， 自 然 连 接 运 算 只 考虑 在 ID 上 值 相同 的 元 组 对 。 它 
将 每 个 这 样 的 元 组 对 合并 为 单一 的 元 组 ， 其 模式 为 两 个 模式 的 并 ,， 即 (1D, name, dept_name, salary, 














course_id) 。 在 执行 投影 后 ， 我 们 得 到 的 关系 如 图 6-15 所 示 。 name | course id. | 
考虑 两 个 关系 模式 R 和 5， 当 然 ， 它 们 都 是 属性 名 的 一 个 列表 。 | Srinivasan | C101 
如 果 我 们 认为 模式 是 集合 而 不 是 列表 ， 我 们 可 以 用 Rn $ 表示 同时 Sinivasan | C5-315 
出 现在 及 和 5 中 的 那些 属性 名 ， 用 RUS 表示 出 现在 R 中 或 3 中 或 We | PNO 
在 二 者 中 都 出 现 的 那些 属性 名 。 类 似 地 ， 出 现在 尺 中 而 不 出 现在 3 | en | M01 
中 的 属性 名 用 RR-$ 表示 ， 出 现在 $ 中 而 不 出 现在 中 的 属性 名 用 Sad S351 
S -表示 。 请 注意 这 里 的 并 、 交 、 差 运算 都 是 属性 的 集合 上 的 ， Kae | cs3l9 | 
而 不 是 关系 上 的 。 leas | | 
我 们 现在 就 可 以 给 出 自然 连接 的 形式 化 定义 。 设 r(R) 和 s(S) | Brandt | cs190 
是 两 个 关系 。r 和 s 的 自然 连接 ( natural join) 表示 为 r Xs, ERR R i ie 














U S$ 上 的 一 个 关系 ， 其 形式 化 定义 如 下 : 
r 闪 s = Hius 0 an he dd Am Ned sa CT xs)) 
其 中 RNS= |A, 4,,…, Asbo 
请 注意 如 果 关 系 r(R) 和 s(5) 不 含有 任何 相同 属性 ,， BIRN S = 名 ,那么 r Ms=rxs。 
这 里 再 给 出 一 个 使 用 自然 连接 的 例子 ， 写 查询 “ 找 出 计算 机 系 (Comp. Sci. ) 的 所 有 教师 ， 以 及 他 们 
教授 的 所 有 课程 的 名 称 ”。 


TI name title ( O dept name = "Comp. Sei" (instructor 区 teaches DXX course) ) 
此 查询 的 结果 关系 如 图 6-16 所 示 。 


Brandt | Game Design 


图 6-15 II counseia 
(instructor M teaches) 的 结果 








| Brandt Image Processing 

Katz Image Processing 

Katz Intro. to Computer Science 
Srinivasan | Intro. to Computer Science 
Srinivasan | Robotics 

| Srinivasan | Database System Concepts 





图 6-16 TI pame tite ( O dept name = "Comp. Sei." ( instructor DI teaches M course)) 的 结果 
注意 上 式 中 我 们 在 instructor M teaches M course 中 没有 加 入 括号 来 表明 自然 连接 在 这 三 个 关系 间 执 行 
的 顺序 。 上 述 情况 下 有 两 种 可 能 : 


(instructor X teaches) MK course 
instructor MX ( teaches M course) 
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我 们 没有 说 明 我 们 希望 的 是 哪个 表达 式 ， 因 为 二 者 是 等 价 的 。 也 就 是 说 ， 自 然 连 接 是 可 结合 的 
(associative ) 。 

theta 连接 是 自然 连接 的 扩展 ， 它 使 得 我 们 可 以 把 一 个 选择 运算 和 一 个 笛 卡 儿 积 运算 合并 为 单独 的 
一 个 运算 。 考 虑 关系 r(R) 和 s(S)， 并 设 9 是 模式 R U 5 的 属性 上 的 谓词 ， 则 theta 连接 ( theta join) iz 
Birks 定义 如 下 : 


res = oo(r xs) 


6.1.3.3 赋值 运算 
有 时 通过 给 临时 关系 变量 赋值 的 方法 来 写 关 系 代 数 表达 式 会 很 方便 。 赋 值 ( assignment ) 运算 用 二 表 
示 ， 与 程序 语言 中 的 赋值 类 似 。 为 了 说 明 这 个 和 运算， 我 们 来 看 自然 连接 运算 的 定义 。 我 们 可 以 把 多， 
写作 : 
temp1+—R x S 
temp2+—G,,, 4. ara Nr hos dA Ar Asa 4, (templ ) 


result = [lrus( temp2) 


赋值 的 执行 不 会 使 得 把 某 个 关系 显示 给 用 户 看 ， 而 是 将 一 右 侧 的 表达 式 的 结果 赋 给 一 左 侧 的 关系 变量 。 
该 关系 变量 可 以 在 后 续 的 表达 式 中 使 用 。 

使 用 赋值 运算 ， 我 们 可 以 把 查询 表达 为 一 个 顺序 程序 ， 该 程序 由 一 系列 赋值 加 上 一 个 其 值 被 作为 
查询 结果 显示 的 表达 式 组 成 。 对 关系 代数 查询 而 言 ， 赋 值 必须 是 赋 给 一 个 临时 关系 变量 。 对 永久 关系 
的 赋值 形成 了 对 数据 库 的 修改 。 请 注意 ， 赋 值 运算 不 能 增强 关系 代数 的 表达 能 力 ， 但 是 可 以 使 复杂 查 
询 的 表达 变 得 简单 。 

6.1.3.4 外 连接 运算 

外 连接 (outer-join ) 运 算是 连接 运算 的 扩展 ， 可 以 处 理 缺 失 的 信息 。 假 设 有 一 些 教师 不 教 课 。 那 么 
关系 instructor( 图 6-1) 中 这 些 教师 对 应 的 元 组 将 不 满足 与 关系 teaches( 图 6-7) 进 行 自 然 连接 的 条 件 ， 所 
以 在 图 6-14 所 示 的 自然 连接 的 结果 中 找 不 到 他 们 的 数据 。 以 教师 Califieri, Gold 和 Singh 为 例 ， 因 为 他 
们 不 教 课 ， 所 以 就 不 会 出 现在 自然 连接 的 结果 中 。 

更 一 般 地 ， 参 加 连接 的 一 个 或 两 个 关系 中 的 某 些 元 组 可 能 会 这 样 地 "丢失 ”"。 外 连接 ( outer join) 运 
算 与 前 面 学 过 的 自然 连接 运算 比较 类 似 ， 不 同 之 处 在 于 它 在 结果 中 创建 带 空 值 的 元 组 ， 以 此 来 保留 在 
连接 中 丢失 的 那些 元 组 。 

我 们 可 以 用 外 连接 运算 来 避免 上 述 的 信息 丢失 。 外 连接 运算 有 三 种 形式 : AIE, HAER; 右 外 
iti, MERR; 全 外 连接 ， 用 了 CC 表示 。 这 三 种 形式 的 外 连接 都 要 计算 连接 ， 然 后 在 连接 结果 中 添加 额外 
的 元 组 。 例 如 ， 表 达 式 instructor DX teaches 和 teaches XL instructor 的 结果 分 别 如 图 6-17 和 图 6-18 所 示 。 

ID [name |dept-name | salary | course id | secid| semester | year 


10101 [Srinivasan | Comp. Sci.[65000/CS-101 | 1 |Fall 2009 | 
10101 | Srinivasan | Comp. Sci. | 65000 | CS-315 1 {Spring | 2010) 
10101 | Srinivasan | Comp. Sci. | 65000 | CS-347 1 | Fall 2009 | 
12121 | Wu Finance 90000 | FIN-201 1 (Spring |2010 | 
1 
1 











15151|Mozart |Music 40000 MU-199 | Spring |2010 
22222 | Einstein |Physics |95000,PHY-101 Fall 2009 
32343 | El Said History 60000} HIS-351 ， 1 |Spring | 2010 











33456 | Gold Physics 87000 | null null | null null 
45565 | Katz Comp. Sci.|75000| CS-101 ， 1 |Spring | 2010) 
45565 | Katz Comp. Sci. | 75000 | Cs-319 | 1 |Spring | 2010} 
58583 | Califieri History 62000 null null | null null | 
76543 | Singh Finance 80000 | null null | null null | 
76766 | Crick Biology | 72000 BIO-101 | 1 |Summer 2009 | 
76766 | Crick Biology {| 72000) BIO-301 1 |Summer/} 2010; 


83821 | Brandt Comp. Sci. | 92000 | Cs-190 | Spring |2009 


1 
83821 | Brandt Comp. Sci. | 92000 | CS-190 | 2 |Spring | 2009 
83821 | Brandt Comp. Sci. | 92000 | CS-319 | 2 |Spring | 2010 
98345 | Kim Elec. Eng. |80000 | EE-181 | 1 [Spring | 2009) 


























图 6-17 instructor DA teaches 的 结果 


131 


132 第 一 部 分 关系 数据 库 


“3 
234 


























ID |courseid | sec_id | semester | year | name Taept name | salary | 
10101 | CS-101 1 | Fall 2009 | Srinivasan | Comp. Sci. | 65000 | 
10101 | CS-315 1 |Spring | 2010) Srinivasan | Comp. Sci. | 65000 | 
10101 | CS-347 1 | Fall 2009 | Srinivasan | Comp. Sci. aed 
12121 | FIN-201 | 1 |Spring |2010)Wu Finance | 90000 
15151|MU-199 | 1 |Spring |2010| Mozart Music 40000 | 
22222 | PHY-101| 1 | Fall 2009 | Einstein [Physics | 95000 
32343 | HIS-351 | 1 |Spring |2010 ElSaid {History | 60000 
33456 | null | null | null null |Gold Physics | 87000 
45565 | CS-101 1 |Spring | 2010) Katz Comp. Sci. | 75000 
45565 | CS-319 1 |Spring | 2010) Katz Comp. Sci. | 75000 
58583 | null null | null null |Califieri | History 62000 
76543 | null | null | null null | Singh Finance | 80000 
76766 | BIO-101 | 1 {Summer |2009 | Crick Biology | 72000! 
76766 | BIO-301 | 1 | Summer | 2010) Crick Biology | 72000 
83821|}CS-190 | 1 |Spring | 2009) Brandt Comp. Sci. | 92000 | 
83821 |Cs-190 | 2 |Spring |2009 Brandt Comp. Sci. | 92000 | 
83821 | CS-319 2 |Spring | 2010) Brandt Comp. Sci. | 92000 | 
198345 |EE-181 | 1 |Spring |2009|Kim | lec. Eng. | 80000, 























6-18 teaches XL instructor 的 结果 


左 外 连接 (left outer join) (TX) 取出 左 侧 关 系 中 所 有 与 右 侧 关系 的 任 一 元 组 都 不 匹配 的 元 组 ， 用 空 
值 填充 所 有 来 自 右 侧 关系 的 属性 ， 再 把 产生 的 元 组 加 到 自然 连接 的 结果 中 。 图 6-17 中 ， 元 组 (58583 ， 
Califieri, History, 62000, null, null, null, null) 即 是 这 样 的 元 组 。 所 有 来 自 左 侧 关系 的 信息 在 左 外 连 
接 结 果 中 都 得 到 保留 。 

右 外 连接 (right outer join) (XI) 与 左 外 连接 相对 称 : 用 空 值 填充 来 自 右 侧 关 系 的 所 有 与 左 侧 关系 的 
任 一 元 组 都 不 匹配 的 元 组 ， 将 结果 加 到 自然 连接 的 结果 中 。 图 6- 18 中 ，(58583, null, null, null, 
null, Califieri, History, 62000) 即 是 这 样 的 元 组 。 因 此 ， 所 有 来 自 右 侧 关 系 的 信息 在 右 外 连接 结果 中 都 
得 到 保留 。 

全 外 连接 (full outer join) (JC) 既 做 左 外 连接 又 做 右 外 连接 ， 既 填充 左 侧 关系 中 与 右 侧 关系 的 任 一 
元 组 都 不 匹配 的 元 组 ， 又 填充 右 侧 关系 中 与 左 侧 关系 的 任 一 元 组 都 不 匹配 的 元 组 ， 并 把 结果 都 加 到 连 
接 的 结果 中 。 

注意 ， 从 左 外 连接 的 例子 到 右 外 连接 的 例子 ， 我 们 交换 了 运算 对 象 的 顺序 。 这 样 它 们 都 保留 了 
instructor 的 元 组 ， 因 此 包含 相同 的 内 容 。 对 于 我 们 的 示例 关系 ，teaches 的 元 组 在 instructor 中 总 能 找到 与 
之 对 应 的 元 组 ， 所 以 teaches DA instructor 与 teaches instructor 产生 的 结果 是 一 样 的 。 如 果 在 teaches 中 有 元 
组 在 instructor 中 找 不 到 对 应 元 组 ， 该 元 组 将 会 出 现在 teaches D instructor 的 结果 以 及 teaches DE instructor 
的 结果 中 ， 所 默认 的 部 分 用 空 值 填充 。 外 连接 的 更 多 例子 (以 SQL 语法 表达 ) 请 参考 4. 1.2 节 。 

由 于 外 连接 可 能 产生 含有 空 值 的 结果 ， 我 们 需要 了 解 不 同 的 关系 代数 运算 是 如 何 处 理 空 值 的 。3.6 
节 涉 及 SQL 环境 中 的 这 个 问题 。 相 同 的 概念 也 适用 于 关系 代数 的 情况 ， 我们 在 这 里 不 再 蒙 述 。 

请 注意 ， 很 有 趣 的 是 外 连接 运算 可 以 用 基本 关系 代数 运算 表示 。 例 如 ， 左 连接 运算 rs 可 以 写成 : 

(rmMs)U(r - ICrMs) ) x |(null, ---, null) | 

其 中 常数 关系 | (null, =, null) | 的 模式 是 5S -RR。 
6.1.4 扩展 的 关系 代数 运算 

我 们 现在 来 介绍 另外 几 个 关系 代数 运算 ,它们 可 以 实现 一 些 不 能 用 基本 的 关系 代数 运算 来 表达 的 
查询 。 这 些 运算 被 称 为 扩展 的 关系 代数 (extended relational- algebra) 运算 。 

6.1.4.1 广义 投影 

第 一 个 运算 是 广义 投影 (generalized- projection) ， 它 通过 允许 在 投影 列表 中 使 用 算术 运算 和 字符 串 
函数 等 来 对 投影 进行 扩展 。 广 义 投影 运算 形式 为 : 

Irr, (E) 

Hp E EFEXRRAKRAR, MF, PL, o, Fo 中 的 每 一 个 都 是 涉及 常量 以 及 五 的 模式 中 属性 的 算 
术 表 达 式 。 最 基本 的 情况 下 算术 表达 式 可 以 仅仅 是 一 个 属性 或 常量 。 通 常 来 说 ， 在 表达 式 中 可 以 使 用 
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对 数值 属性 或 者 产生 数值 结果 的 表达 式 的 + 、- 、* 、/ 等 代数 运算 。 广 义 投影 还 允许 其 他 数据 类 型 上 
的 运算 ， 比 如 对 字符 串 的 串 接 。 

例如 ， 表 达 式 : 

区 ma 三 ( instructor ) 

可 以 得 到 每 个 教师 的 ID, name, dept_name 以 及 每 月 的 工资 。 

6.1.4.2 BE 

第 二 个 扩展 的 关系 代数 运算 是 聚集 运算 9 ， 可 以 用 来 对 值 的 集合 使 用 聚集 函数 ， 例 如 计算 最 小 值 
或 者 求 平 均值 。 

聚集 函数 (aggregate function) 输 入 值 的 一 个 汇集 ， 将 单一 值 作为 结果 返回 。 例 如 ， 育 集 函 数 sum 输 
入 值 的 一 个 汇集 ， 返 回 这 些 值 的 和 。 因 此 ， 将 函数 sum 用 于 汇集 

{1, 1, 3, 4, 4, 11} 

上 ,返回 值 24。 聚 集 函 数 ave 返回 值 的 平均 ， 当 用 于 上 述 汇集 ， 返 回 值 为 4。 聚 集 函 数 count 返回 汇集 
中 元 素 的 个 数 ， 对 上 述 汇集 将 返回 6。 除 此 之 外 ， 常 用 聚集 函数 还 有 min 和 max， 它 们 分 别 返 回 汇集 
中 的 最 小 值 和 最 大 值 ， 对 上 面 的 汇集 分 别 返 回 1 和 11。 

使 用 聚集 函数 对 其 进行 操作 的 汇集 中 ， 一 个 值 可 以 出 现 多 次 ， 值 出 现 的 顺序 是 无 关 紧 要 的 。 这 样 
的 汇集 称 为 多 重 集 (multiset) 。 集 合 (set) 是 多 重 集 的 特例 ， 其 中 每 个 值 都 只 出 现 一 次 。 

我 们 用 关系 instructor 来 说 明 聚 集 的 概念 。 假 设 我 们 希望 找 出 所 有 教师 的 工资 总 和 ， 这 一 查询 的 关 
系 代 数 表达 式 为 : 

BC (salary) ( instructor ) 

符号 9 是 字母 G 的 书法 体 ; 读 作 “ 书 法 体 G”。 关 系 代数 运算 9 表示 聚集 将 被 应 用 ， 它 的 下 标 说 明 采 用 
的 聚集 运算 。 上 述 表 达 式 的 结果 是 一 个 单一 属性 的 关系 ， 且 只 包含 单独 的 一 行 ， 其 值 表示 所 有 教师 的 
工资 总 和 。 

有 时 ， 在 计算 聚集 函数 前 我 们 必须 去 除 重复 值 。 如 果 我 们 想 去 除 重复 ， 我 们 仍然 使 用 前 面 的 函数 
Z, BERR distinct” 附加 在 函数 名 后 ( 如 count-distinct) 。 以 查询 “ 找 出 在 2010 年 春季 学 期 教 课 
的 教师 数 "为 例 。 在 这 里 ， 每 名 教师 只 应 计算 一 次 ， 而 不 管 他 教 了 几 门 课程 。 关 系 teaches 包含 了 所 需 
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的 信息 ， 所 以 我 们 把 此 查询 表达 如 下 : COD | name” | deptname | salary | 

: - 7 = 

Gace ( O semester = "Spring" \ year =2010 ( teaches ) ) Bee E te rt ee k Com Par — 
count-distinct 可 以 : B 7 | i — 10101 | Srinivasan | Comp. Sci. | 65000 
RRRA ‘a ai 0 使 某 位 教师 授课 多 于 83821 | Brandt Comp. Sci. | 92000 
门 ， 在 结果 中 也 只 对 他 计数 一 次 。 98345 | Kim Elec. Eng. | 80000 
有 时 候 我 们 希望 对 一 组 元 组 集合 而 不 是 单个 元 组 集合 执 | 75543 Seok ee | eae 
行 聚集 函数 。 作 为 示例 ， 考 虑 查询 “ 求 出 每 个 系 的 平均 工资 *。 (37343 | EISaid History | 60000 
` > ~ . 58583 | Califieri History 62000 
我 们 把 此 查询 表达 如 下 15151 | Mozart Music | 40000 
days name G average(satary ( instructor) 33456 | Gold Physics 37000 
22222 | Einstein Physics 95000 




















图 6-19 显示 了 通过 dept_name 属性 对 关系 instructor 进行 
分 组 得 到 的 元 组 ， 这 是 计算 查询 结果 的 第 一 步 。 然 后 对 每 个 ”图 6-19 通过 属性 dept_name 对 关系 
组 执行 指定 的 聚集 ， 查 询 结果 如 图 6-20 所 示 。 instructor 分 组 后 的 元 组 


Biology 72000 
Comp. Sci. | 77333 
Elec. Eng. | 80000 
Finance 85000 
History 61000 
Music | 40000 
Physics | 91000 


6-20 查询 " 求 出 每 个 系 的 平均 工资 " 的 结果 关系 
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作为 对 比 ， 对 于 查询 * 求 出 所 有 教师 的 平均 工资 "， 我 们 可 以 如 下 表达 : 
— salary) ( instructor ) 


此 时 ， 从 运算 符 G 的 左边 去 掉 了 属性 dept_name， 这 样 一 来 整个 关系 就 被 当 作 单 个 组 来 执行 聚集 。 


多 重 集 关系 代数 

与 关系 代数 不 同 的 是 ，SQL 允许 在 输入 关系 以 及 查询 结果 中 和 存在 元 组 的 多 重 拷 贝 。SQL 标准 做 
了 如 下 定义 : 在 一 个 查询 的 输出 结果 中 每 个 元 组 有 多 少 个 拷贝 取决 于 所 对 应 的 元 组 在 输入 关系 中 的 
拷贝 个 数 。 

为 了 映射 SQL 的 这 种 模式 ， 我 们 定义 了 一 种 被 称 为 多 重 集 关 系 代数 ( multiset relational algebra) 
的 关系 代数 版 本 来 对 多 重 集 ( 即 存在 重复 的 集合 ) 进 行 操作 。 多 重 集 关系 代数 的 基本 运算 有 如 下 
定义 : 

1. 如 果 在 六 中 元 组 三 有 el MEN, HE 满足 选择 eu， 那么 在 q(T ) 中 元 组 ti 有 ci SHR. 

2. 对 于 六 POH, 的 每 份 拷贝 ， 在 Hs(7i) 中 都 有 一 个 与 之 对 应 的 114(ti)，IL4s(& ) 表 示 单 个 元 
At, 的 投影 。 

3. 如 果 在 mi 中 元 组 ti Ae MAN, Ern PAALA a AAN, PALEN xr, 中 就 有 元 组 4. t, 
的 cl *c, PHN, 

例如 ， 假设 关系 7 的 模式 是 (4，B)， 7 的 模式 是 (C)， 它 们 是 如 下 的 多 重 集 : 

1 ={(1, a), (2, a)}, n={(2), (3), (3)} 
那么 Mel) 就 得 到 | (a), (a)}, 而 Maln) xr, HARE 
Ca, A ,a 3) (a 3, (3 

按照 SQL 中 的 相应 含义 ( 见 3.5 节 )， 我们 还 可 以 用 相似 的 方法 来 定义 多 重 集 的 并 、 交 以 及 集合 

差 运算 。 而 对 于 聚集 运算 来 说 ， 在 多 重 集 下 的 定义 并 没有 什么 变化 。 


聚集 运算 ( aggregation operation) 9 通常 的 形式 如 下 : 
Cui » Fron) FA) pA) (E) 
其 中 EE 是 任意 关系 代数 表达 式 ，G, ，G, ，…，G, 是 用 于 分 组 的 一 系列 属性 ; BHP, 是 一 个 聚集 函数 ， 
每 个 A 是 一 个 属性 名 。 运 算 的 含义 如 下 ， 表 达 式 E 的 结果 中 元 组 以 如 下 方式 被 分 成 若干 组 : 
1. 同一 组 中 所 有 元 组 在 G6, ，G,，…，G, 上 的 值 相同 。 
236 2. 不 同 组 中 元 组 在 6 ，G6,，…，G, 上 的 值 不 同 。 
sis 因此 ,各 组 可 以 用 属性 G, CG, =, C, 上 的 值 来 唯一 标识 。 对 每 个 组 (g, ，g;，…，g, ) 来 说 ， 结 果 中 
有 一 个 元 组 (8 ，g; ，…，&g,。，a1，4a;，*…，an) ， 其 中 对 每 个 i，a; 是 将 聚集 函数 F, 作用 于 该 组 的 属性 
4; 上 的 多 重 值 集 所 得 到 的 结果 。 
作为 聚集 运算 的 特例 ， 属 性 列 G, G, =, C, 可 以 是 空 的 ， 在 这 种 情况 下 ， 会 有 唯一 一 组 包含 关 
系 中 所 有 的 元 组 。 这 相当 于 没有 分 组 。 


SQL 与 关系 代数 
通过 关系 代数 运算 和 SQL 运算 的 比较 ， 可 以 清楚 地 看 到 二 者 之 间 联 系 紧 密 。 典 型 的 SQL 查询 样 
式 如 下 : 
select A,, A,, …, A, 
from r;, y 77's Ta 
where P 
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每 个 A, 表示 一 个 属性 ， 每 个 7 代表 一 个 关系 。P 忆 表示 一 个 谓词 。 这 个 查询 等 价 于 多 重 集 关系 代数 表 
达 式 : 
I aja Gop ri Xr Xo XT, )) 
如 果 省 略 掉 where 子 句 ， 那 么 谓词 已 就 是 true。 
更 复杂 的 SQL 查询 也 可 以 用 关系 代数 来 重 写 。 例 如 ， 查 询 : 
select A, , A,, sum( A,) 
fromr,,7,,... ,7, 
where P 
group by A,, A, 


m 


等 价 于 : 
Aa Pasting ( Fhia (op(y Xr, xX" Xr,,))) 


from 子 句 中 的 连接 表达 式 可 以 用 关系 代数 中 与 之 等 价 的 连接 表达 式 来 写 ; 我 们 把 详细 内 容留 给 读者 
作为 练习 。 然 而 where 或 者 select 子 句 中 的 子 查询 却 不 能 像 这 样 直接 用 关系 代数 来 重 写 ， 这 是 因为 
默认 与 子 查询 结构 等 价 的 关系 代数 运算 。 为 了 解决 这 个 问题 ， 有 人 提出 了 对 关系 代数 的 扩展 ， 但 是 
这 些 内 容 不 在 本 书 讨论 范围 之 内 。 


6.2 元 组 关系 演算 


当 书 写 关 系 代数 表达 式 时 ， 提 供 了 产生 查询 结果 的 过 程序 列 ， 这 个 序列 能 生成 查询 的 答案 。 与 之 
相 比 ， 元 组 关系 演算 是 非 过 程 化 的 (nonprocedural) 查询 语言 。 它 只 描述 所 需 信息 ， 而 不 给 出 获得 该 信 
息 的 具体 过 程 。 

元 组 关系 演算 中 的 查询 表达 为 : 

{tl PC [2391 
也 就 是 说 ， 它 是 所 有 使 谓词 P 为 真 的 元 组 i 的 集合 。 和 前 面 的 记 法 一 样 ， 我 们 用 i[ 4 ] 表示 元 组 ti 在 属 
性 4 上 的 值 ， 并 用 :er 表示 元 组 上 在 关系 7 中。 

在 给 出 元 组 关系 演算 的 形式 化 定义 之 前 ， 我 们 先 回头 看 几 个 在 6. 1. 1 节 中 我 们 用 关系 代数 表达 式 

书写 过 的 查询 。 
6.2.1 查询 示例 
我 们 希望 找 出 所 有 工资 在 80 000 美元 以 上 的 教师 的 ID, name, dept_name 和 salary: 


{tl te instructor 人 tl salary| > 80000} 


假设 我 们 只 需要 ID 属性 ， 而 不 是 关系 instructor 的 所 有 属性 。 为 了 用 元 组 关系 演算 来 书写 这 个 查 

询 ， 我 们 需要 为 模式 (1D) 上 的 关系 写 一 个 表达 式 。 我 们 需要 (1D) 上 在 instructor 中 对 应 元 组 的 属性 

salary > 80 000 的 那些 元 组 。 为 了 表述 这 样 的 要 求 ， 我 们 需要 引入 数理 逻辑 中 的 “存在 "这 一 结构 。 记 法 
Jt e r(Qcr)) 


表示 “关系 7 中 存在 元 组 i 使 谓词 0(1) 为 真 ”。 
用 这 种 记 法 ， 我 们 可 以 将 查询 “ 找 出 工资 大 于 80 000 美元 的 所 有 教师 的 ID” 表述 为 : 
{tl Js e instructor(t{ ID] = s[ID] A s[salary] > 80000)} 


我 们 可 以 这 样 来 读 上 述 表 达 式 :“ 它 是 所 有 满足 如 下 条 件 的 元 组 上 的 集合 : 在 关系 instructor 中 存在 元 组 
s (E t FI s EAE ID LHE, H s 在 属性 salary 上 的 值 大 于 80 000 美元 ” 。 

元 组 变量 上 只 定义 在 友 属性 上 ,， 因 为 这 一 属性 是 对 上 进行 限制 的 条 件 所 涉及 的 唯一 属性 。 因 此 ， 
结果 得 到 (万) 上 的 关系 。 

考虑 查询 “ 找 出 位 置 在 Watson 楼 的 系 中 的 所 有 教师 姓名 ”。 这 个 查询 比 前 一 个 稍微 复杂 一 些 ， 因 为 
它 涉及 instructor 和 department 两 个 关系 。 但 是 ， 正 如 我 们 将 看 到 的 一 样 ， 所 需 的 只 不 过 是 在 元 组 关系 
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演算 表达 式 中 使 用 两 个 “存在 ” 子 句 ， 并 通过 and( 和 ) 把 它们 连接 起 来 。 我 们 将 此 查询 表述 如 下 : 


{tl Js e instructor(t[name| = s| name | 
A Au e department( u| dept_name} = s| dept_name | 
240 A ul building] =" Watson" ) ) | 


元 组 变量 v 保证 该 系 位 于 Watson 楼 ， 元 组 变量 s 被 限制 到 与 zx 的 dept_name 相同 。 查 询 产生 的 结果 如 
图 6-21 所 示 。 








为 了 找 出 在 2009 年 秋季 学 期 或 者 2010 年 春季 学 期 或 者 这 两 个 学 [mame | 
期 都 开设 的 所 有 课程 的 集合 ， 我 们 在 关系 代数 中 使 用 了 并 运算 。 在 元 ee | 
组 关系 演算 中 ， 我 们 将 用 到 用 or( V ) 连 接 的 两 个 “存在 " 子 句 : cold | 
{tl ds e section(t{ course_id] = sl course_id] ) 7 
A s[ semester] ="Fall"” A s[ year] = 2009) 图 6-21 位 置 在 Watson 
V du e section(ul course_id] = t[ course_id | ) 楼 的 系 中 的 所 
A ul semester] ="Spring" A ul year] = 2010) } 有 教师 姓名 
此 表达 式 给 出 所 有 至 少 满足 下 面 两 个 条 件 之 一 的 course_id 元 组 的 
集合 : 


e 在 关系 section 中 满足 semeter = Fall H. year =2009 的 某 个 元 组 包含 该 course_id。 

© 在 关系 section 中 满足 semeter = Spring 且 year =2010 的 某 个 元 组 包含 该 course_id。 

如 果 同 一 门 课 在 2009 年 秋季 和 2010 年 春季 学 期 都 开课 ,那么 它 的 course_id 在 结果 中 也 只 出 现 一 
次 ， 因 为 集合 的 数学 定义 不 允许 重复 成 员 。 此 查询 的 结果 已 在 前 面 的 图 6-5 中 展示 。 

假设 我 们 现在 只 想 找到 那些 在 2009 年 秋季 和 2010 年 春季 学 期 都 开设 的 课程 的 course_id， 所 需 做 的 
只 不 过 是 把 上 述 表达 式 中 的 or( V ) 用 and( 人) 替代 。 


{tl Js e section(t[ course_id| = s| course_id | ) 
A s[ semester] ="Fall" A s[ year] = 2009) 
A du e section( ul course_id| = t| course_id] ) 
A ul semester] ="Spring" A ul year] = 2010) | 


此 查询 结果 如 图 6-13 所 示 。 
现在 考虑 查询 “ 找 出 2009 年 秋季 学 期 开设 而 2010 年 春季 学 期 不 开 的 所 有 课程 ”。 这 一 查询 的 元 组 
关系 演算 表达 式 同上 面 的 表达 式 类 似 ， 只 是 使 用 了 zol( 一 ) 符号 : 


{tl 4s e section(t[ course_id] = s| course_id | ) 
A s[ semester] ="Fall" A s[ year] = 2009) 
A Ju e section( ul course_id| = t| course_id | ) 
A ul semester] = "Spring" A u[ year] = 2010) } 


这 个 元 组 关系 演算 表达 式 用 Js e section(…) 子 句 来 要 求 该 course_id 开设 在 2009 年 秋季 学 期 ， 用 
“Ju e section(…) 子 句 来 去 掉 那 些 作 为 在 2010 年 春季 学 期 开设 的 课程 出 现在 关系 section 中 的 course_id。 

下 面 我 们 要 考虑 的 查询 将 用 到 蕴含 ,用 一 表示。 公式 已 一 RR PAR Q”, M WR PHA, 
则 0 必然 为 真 " P >00 逻辑 上 等 价 于 ”PVAQO 。 用 蕴含 而 不 是 not 和 or 常常 可 以 更 直观 地 表达 查询 。 

我 们 来 看 这 样 一 个 查询 :“ 找 出 所 有 那些 选 了 生物 (Biology ) 系 全 部 课程 的 学 生 ”。 为 了 用 元 组 关系 
演算 书写 此 查询 ， 我 们 引入 “对 所 有 的 ”结构 ， 用 V 表示 。 记 法 

Vt e r(Q(t)) 

表示 “对 关系 > 中 所 有 元 组 上 ，@ 均 为 真 ”。 

此 查询 的 表达 式 如 下 : 

{tldr e student(r[ ID] = t[1D]) A 
Vu e course( ul dept_name] =" Biology" => 


Js e takes(t[ ID] = s[ ID] 
A s[ course_id| = ul course_id] ) ) | 
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我 们 可 以 这 样 来 读 上 述 表达 式 :“ 它 是 所 有 满足 如 下 条 件 的 学 生 ( 即 (1D) 上 的 元 组 t) 的 集合 : 对 关系 
course 中 所 有 的 元 组 ww， 如果 在 dept_name 属性 上 的 值 是 Biology’, ABAZEKR takes 中 一 定 存在 一 个 
RAL ID 以 及 该 课程 course_id 的 元 组 ”。 
注意 上 述 查询 中 有 一 点 很 微妙 : 如 果 生 物 系 没有 开设 任何 课程 ， 则 所 有 的 学 生 ID 都 满足 条 件 。 在 
这 种 情况 下 ， 上 述 查 询 表达 式 的 第 一 行 非常 关键 。 如 果 没 有 条 件 : 
Jr e student(r[ ID] = t[1D]) 
那么 若 生 物 系 没有 课程 ， 则 任何 一 个 上 值 ( 包 括 不 是 关系 studet 里 学 生 ID 的 值 ) 都 会 符合 要 求 。 
6.2.2 形式 化 定义 
我 们 现在 可 以 给 出 形式 化 定义 了 。 元 组 关系 演算 表达 式 具 有 如 下 形式 : 
{tI P(t) 1 
其 中 PP 是 一 个 公式 。 公 式 中 可 以 出 现 多 个 元 组 变量 。 如 果 元 组 变量 不 被 INV 修饰 ， 则 称 为 自由 变 
=, Alt, 在 
t e instructor 人 4s e department(t| dept_name] = s| dept_name | ) 
中 , EARE, MCA * 称 为 受 限 变量 。 
元 组 关系 演算 的 公式 由 原子 构成 。 原 子 可 以 是 如 下 的 形式 之 一 : 
e ser, EF s 是 元 组 变量 而 > 是 关系 (我 们 不 允许 使 用 ¢ 运算 符 ) 。 
o s[x] Ouly], Hs Mu BASE, x Es 所 基于 的 关系 模式 中 的 一 个 属性 ，y Æ u 所 基于 的 
关系 模式 中 的 一 个 属性 , @ EERE, <, =, ¥, >, >); 我 们 要 求 属性 x 和 y 所 
属 域 的 成 员 能 用 @ 比较 。 
o s[x] Oc, EF s 是 元 组 变量 , x 是 * 所 基于 的 关系 模式 中 的 一 个 属性 , @ 是 比较 运算 符 ,c 是 属 
性 x 所属 域 中 的 常量 。 
我 们 根据 如 下 规则 ， 用 原子 构造 公式 : 
。 原子 是 公式 。 
。 WARP, BAK, BAP, A (P) 也 都 是 公式 。 
。 WR P, AP, SAK, BAP, V P, P, AP, MPSP, 也 都 是 公式 。 
。 如 果 Pi(s) 是 包含 自由 元 组 变量 ;的 公式 ， 且 7 是 关系 ， 则 
Js er(P(s)) 和 Vs e r(P,(s)) 
也 都 是 公式 。 
正如 关系 代数 中 一 样 ， 我 们 也 可 以 写 出 一 些 形式 上 不 一 样 的 等 价 表达 式 。 在 元 组 关系 演算 中 ， 这 
种 等 价 性 包括 如 下 三 条 规则 : 
1. P, AP, StF A-(P,) V WP2)) 
2. Vt er(P,(t)) SRF 7 At e r(7P,(t)). 
3. PiP, FFP) V Pie 
6.2.3 表达 式 的 安全 性 
最 后 还 要 讨论 一 个 问题 。 元 组 关系 演算 表达 式 可 能 产生 一 个 无 限 的 关系 。 例 如 如 果 我 们 写 出 表 
达 式 
{tl T(t e instructor) | 
不 在 instructor 中 的 元 组 有 无 限 多 个 ， 大 多 数 这 样 的 元 组 所 包含 的 值 甚至 根本 不 在 数据 库 中 ! 显然 ,我 
们 不 希望 有 这 样 的 表达 式 。 
为 了 帮助 我 们 对 元 组 关系 演算 进行 限制 ， 引 入 了 元 组 关系 公式 P 的 域 (domain) 这 一 概念 。 直 观 地 
说 , P 的 域 (用 dom(P) 表 示 ) 是 P 所 引用 的 所 有 值 的 集合 。 它 们 既 包 括 P 自身 用 到 的 值 ， 又 包括 P P 
涉及 的 关系 的 元 组 中 出 现 的 所 有 值 。 因 此 , P 的 域 是 P 中 显 式 出 现 的 值 及 名 称 出 现在 P 中 的 那些 关系 
的 所 有 值 的 集合 。 例 如 ，dom(te instructor At[ salary] > 80 000) 是 包括 80 000 和 出 现在 instructor 中 的 所 
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有 值 的 集合 。 男 外 ，dom( 一 (te instructor) ) 是 instructor 中 出 现 的 所 有 值 的 集合 ， 因 为 关系 instructor ER 
达 式 中 出 现 。 

如 果 出 现在 表达 式 111P(1) | 结果 中 的 所 有 值 均 来 自 dom(P)， 则 我 们 说 表达 式 |1 | P(t) | BRE 
Jo KIAR |t l(t e instructor) | 不安 全， 因为 dom( 一 (te instructor) ) 是 所 有 出 现在 instructor 中 的 值 的 集 
A, 但 是 很 可 能 有 某 个 不 在 instructor 中 的 元 组 上 ， 它 包含 不 在 instructor 中 出 现 的 值 。 我 们 在 这 一 节 中 
所 写 的 其 他 元 组 关系 演算 表达 式 都 是 安全 的 。 

(Rit IC e instructor) | 这 样 的 不 安全 表达 式 中 的 元 组 个 数 是 无 限 的 ， 而 安全 的 表达 式 一 定 包含 有 
限 的 结果 。 因 此 我 们 限定 只 有 那些 安全 的 元 组 关系 演算 表达 式 才 被 认为 是 允许 的 。 
6.2.4 语言 的 表达 能 力 

限制 在 安全 表达 式 范围 内 的 元 组 关系 演算 和 基本 关系 代数 (包括 运算 符 U、- x, oo, MAp, 
但 是 没有 扩展 的 关系 代数 运算 符 ， 例 如 广义 投影 和 聚集 ( 9 ) ) 具有 相同 的 表达 能 力 。 因 此 ， 对 于 每 个 
只 运用 基本 操作 的 关系 代数 表达 式 ， 都 有 与 之 等 价 的 元 组 关系 演算 表达 式 ; 对 于 每 个 元 组 关系 演算 表 
达 式 ， 也 都 有 与 之 等 价 的 关系 代数 表达 式 。 我 们 在 此 不 证 明 这 个 断言 ， 文 献 注解 中 有 关于 此 证 明 的 参 
考 资料 。 在 习题 里 包含 了 部 分 的 证 明 。 注 意 ， 没 有 任何 一 个 元 组 关系 演算 等 价 于 聚集 运算 ， 但 是 可 以 
对 它 进行 扩展 以 支持 聚集 。 扩 展 元 组 关系 演算 来 处 理 算术 表达 式 是 很 简单 的 。 


6.3 域 关 系 演算 


关系 演算 的 另 一 种 形式 称 为 域 关 系 演 算 ( domain relational calculus) , ， 使 用 从 属性 域 中 取 值 的 域 变 
量 ， 而 不 是 整个 元 组 的 值 。 尽 管 如 此 ， 域 关系 演算 同 元 组 关系 演算 联系 紧密 。 

就 像 关系 代数 是 SQL 语言 的 基础 一 样 ， 域 关系 演算 是 被 广泛 采用 的 QBE 语言 (参考 附录 B. 1 ) 的 理 
论 基 础 。 
6. 3.1 形式 化 定义 

域 关 系 演算 中 的 表达 式 形式 如 下 : 

| < Wl S| Pia 

Hx, x, +, x 代表 域 变 量 。 和 元 组 关系 演算 的 情况 一 样 ，P 代表 由 原子 构成 的 公式 。 域 关系 演 
算 中 的 原子 具有 如 下 形式 之 一 : 

e <a, %, 7, %, > eT， 其 中 r 是 n 个 属性 上 的 关系 ， 而 x,，x,，…，%, 是 域 变 量 或 域 常量 。 

。xQ@y， 其 中 x Aly 是 域 变量 ， 而 @ 是 比较 运算 符 ( <,<, =,4, >, 2). 我 们 要 求 属性 x 

和 y 所 属 域 可 用 @ 比较 。 

。 «Oc, Hix 是 域 变量 , @ 是 比较 运算 符 , 而 c 是 x 作为 域 变量 的 那个 属性 域 中 的 常量 。 

根据 以 下 规则 ， 我 们 用 原子 构造 公式 : 

se 原子 是 公式 。 

e 如 果 P, 是 公式 ， WAP 和 (Pi) 也 都 是 公式 。 

。 MRP, MP, EAR, MAP, VP, P, AP, MPP, 也 都 是 公式 。 

。 WRP Ga) tex 的 一 个 公式 ， 其 中 * 是 自由 域 变量 ， 则 

3x(Pi(x)) 和 Vx(P;(x)) 

也 都 是 公式 。 

我 们 把 Ja,b,c(P(a,b,c)) 作为 3a( 36( 3c(P(a,6,c)))) HRS. 
6. 3.2 查询 的 例子 

我 们 现在 用 域 关 系 演算 对 前 面 讲 到 的 例子 给 出 查询 表达 式 。 请 注意 这 些 表达 式 和 元 组 关系 演算 表 
达 式 的 相似 之 处 。 

e 找 出 工资 在 80 000 美元 以 上 的 教师 的 ID、name、dept_name 和 salary: 

| <i,n,d,s >| < i,n,d,s > e instructor A s > 80000) } 


© 找 出 工资 大 于 80 000 美元 的 所 有 教师 的 姓名 : 


第 6 章 形式 化 关系 查询 语言 


| <i >| dAn,d,s( < i,n,d,s > e instructor A s > 80000) | 
虽然 第 二 个 查询 看 起 来 同 我 们 在 元 组 关系 演算 中 书写 的 很 相似 ， 但 实际 上 两 者 有 重要 区 别 。 在 元 组 演 
算 中 ， 当 我 们 对 某 个 元 组 变量 * 写 3 s 时 ， 我 们 立刻 通过 Js sr 将 它 同 某 个 关系 挂钩 。 可 是 ， 当 我 们 
在 域 演 算 中 写 J nif, n 不 指 代 一 个 元 组 ， 而 指 的 是 一 个 域 值 。 因 此 ， 在 用 子 公 式 <i, n, d, s> Ee 
instructor 将 对 束缚 到 instructor 关系 中 的 教师 以 前 ， 变 量 n 的 域 是 不 受 约束 的 。 
下 面 我 们 给 出 一 些 域 关系 演算 的 查询 示例 : 
。 找 出 在 物理 系 的 所 有 教师 姓名 ， 以 及 他 们 教授 的 所 有 课程 的 course_id: 


| < n,e >| Fi,a,se,y( < i,c,a,s,y > © teaches 
A Jd,s( <i,n,d,s > e instructor A d =" Physics" ) ) | 


© 找 出 在 2009 年 秋季 学 期 或 者 2010 年 春季 学 期 或 者 这 两 学 期 都 开设 的 所 有 课程 的 集合 : 


|<c>l da,s,y,b,r,t( < c,a,s,y,b,r,t > © section 
As ="Fall" Ny ="2009") 
Vda,s,y,b,r,t( < c,a,s,y,b,r,t > E section 
A s ="Spring" N y ="2010") | 


© 找 出 选 了 生物 系 开设 的 全 部 课程 的 所 有 学 生 : 


| <i >I Jn,d,te( < i,n,d,te > e student) 人 
Vci,ti,dn,cr( < ci,ti,dn,cr > e course \ dn =" Biology” => 
Jsi,se,y,g( < i,ci,si,se,y,g > e takes) )} 


注意 ， 如 果 生 物 系 没 开设 任何 课程 ， 那 么 结果 将 包含 所 有 学 生 ， 这 与 元 组 关系 演算 中 的 示例 相 一 致 。 
6.3.3 表达 式 的 安全 性 
我 们 知道 ， 在 元 组 关系 演算 (6.2 节 ) 中 可 能 写 出 产生 结果 为 无 限 关系 的 表达 式 。 这 使 得 我 们 为 元 
组 关系 演算 表达 式 定义 安全 性 。 域 关系 演算 中 也 有 类 似 的 情况 。 像 
| < i,n,d,s >| 7( < i,n,d,s > © instructor) | 


这 样 的 表达 式 是 不 安全 的 ， 因 为 它 允 许 在 结果 中 出 现 不 在 表达 式 的 域 中 的 值 。 

在 域 关 系 演算 中 ， 我们 还 必须 考虑 “存在 ”和 “对 所 有 的 ” 子 句 中 公式 的 形式 。 我 们 来 看 表达 式 

{<a >l Jy <y >er) A 32(7(<4«,z Er A Plazy] 

其 中 己 是 涉及 x 和 =z 的 公式 。 对 于 公式 的 第 一 部 分 3y( < x,y > e r) ,我 们 在 测试 时 只 需 考 虑 7 中 的 
值 。 可 是 ， 对 于 公式 的 第 二 部 分 3z(”(<x,z >er) AP(x,z)) ,我 们 在 测试 时 必须 考虑 不 在 7 中 出 
现 的 z 值 。 由 于 所 有 关系 都 是 有 限 的 ,不 在 中 出 现 的 值 无 限 多 。 因 此 ， 通 常情 况 下 如 果 不 考 虑 z 的 取 
值 有 无 限 多 种 可 能 ， 我 们 就 不 能 完成 对 第 二 部 分 的 测试 。 事 实 上 我 们 并 不 这 样 做 。 我 们 通过 增加 一 些 
约束 来 限制 上 面 这 样 的 表达 式 。 

在 元 组 关系 演算 中 ， 我 们 将 所 有 存在 量词 修饰 的 变量 限制 在 某 个 关系 范围 内 。 由 于 在 域 关 系 演 算 
中 还 没有 这 样 做 ， 我 们 增加 用 于 定义 安全 性 的 规则 ， 以 处 理 类 似 于 上 例 中 出 现 的 情况 。 如 果 下 列 条 件 
同时 成 立 ， 我 们 认为 表达 式 


i < XIyX2 kn >I 人 


是 安全 的 : 

1. 表达 式 的 元 组 中 所 有 值 均 来 自 dom(P) 。 

2. 对 每 个 形 如 3x(P,(x) ) 的 “存在 " 子 公 式 而 言 ， 子 公式 为 真 当 且 仅 当 在 dom(P, ) 中 有 某 个 值 x 
使 P, (xz) 为 真 。 

3. 对 每 个 形 如 Vx(P,(xz) ) 的 “对 所 有 的 " 子 公式 而 言 ， 子 公式 为 真 当 上 且 仅 当 已 (x*) 对 dom(P,) # 
所 有 值 x HAR. 

附加 规则 的 目的 是 为 了 保证 我 们 不 需要 测试 无 限 多 的 可 能 性 就 可 以 完成 对 “存在 ”和 “对 所 有 的 ”" 子 公 
式 的 测试 。 我 们 看 安全 性 定义 中 的 第 二 个 规则 。 要 使 3x( P(x) ) 为 真 ， 我 们 只 需 找到 一 个 x 使 P(x) 为 
真 。 通 常 ， 我 们 需要 测试 无 数 个 值 。 但 是 ， 如 果 表 达 式 是 安全 的 ， 我 们 就 知道 可 以 只 注意 dom(P ) 中 的 
值 。 这 种 限制 使 我 们 考虑 的 元 组 减少 到 有 限 个 。 
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形 如 Vx(P\(x)) 的 子 公式 情况 类 似 。 要 断言 Vx(Pi(x) ) 为 真 ， 需 要 测试 所 有 可 能 的 值 ， 因 此 必 
须 检查 无 限 多 的 值 。 跟 前 面 一 样 ， 如 果 我 们 知道 表达 式 是 安全 的 ， 则 只 需要 对 dom(P, ) 中 的 值 来 测试 
P (x) 就 已 经 足够 了 。 

除了 前 面 我 们 介绍 的 不 安全 查询 的 例子 之 外 ， 本 节 例 子 中 所 给 出 的 域 关 系 演算 表达 式 都 是 安全 的 。 
6.3.4 语言 的 表达 能 力 

当 我 们 把 域 关 系 演算 限制 在 安全 表达 式 范围 内 时 ， 它 与 被 限制 在 安全 表达 式 范 围 内 的 元 组 关系 演 
算 具 有 相同 的 表达 能 力 。 我 们 在 前 面 已 经 知道 受 限 的 元 组 关系 演算 与 关系 代数 等 价 ， 所 以 下 述 三 者 都 
是 等 价 的 : 

© 基本 关系 代数 (不 包括 扩展 关系 代数 运算 ) 。 

。 限制 在 安全 表达 式 范围 内 的 元 组 关系 演算 。 

。 限制 在 安全 表达 式 范围 内 的 域 关系 演算 。 

注意 没有 任何 一 个 域 关系 演算 等 价 于 聚集 运算 ， 但 是 它 可 以 扩展 以 支持 聚集 ， 并 且 扩展 它 来 处 理 
算术 表达 式 是 很 简单 的 。 


6.4 总 结 


© 关系 代数 ( relational algebra) 定义 了 一 套 在 表 上 运算 且 输 出 结果 也 是 表 的 代数 运算 。 这 些 运算 可 以 混 
合 使 用 来 得 到 表达 所 希望 查询 的 表达 式 。 关 系 代数 定义 了 关系 查询 语言 中 使 用 的 基本 运算 。 

© 关系 代数 运算 可 以 分 为 : 

口 基本 运算 。 

O 附加 的 运算 ， 可 以 用 基本 运算 表达 。 

口 扩展 的 运算 ， 其 中 的 一 些 扩展 了 关系 代数 的 表达 能 力 。 

。 关系 代数 是 一 种 简洁 的 、 形 式 化 的 语言 ， 不 适合 于 那些 偶尔 使 用 数据 库 系 统 的 用 户 。 因 此 ， 商 用 数 
据 库 系统 采用 有 更 多 “语法 修饰 ”的 语言 。 从 第 3 章 到 第 5 章 我 们 讨论 了 最 有 影响 力 的 语言 一 一 SQL， 
它 是 基于 关系 代数 的 。 

© 元 组 关系 演算 ( tuple relational calculus) 和 域 关 系 演算 (domain relational calculus) 是 非 过 程 化 语言 ， 代 
表 了 关系 查询 语言 所 需 的 基本 能 力 。 基 本 关系 代数 是 一 种 过 程 化 语言 ， 在 能 力 上 等 价 于 被 限制 在 安 
全 表达 式 范围 内 的 关系 演算 的 这 两 种 形式 。 

。 关系 演算 是 简洁 的 、 形 式 化 的 语言 ， 并 不 适合 于 那些 偶尔 使 用 数据 库 系 统 的 用 户 。 这 两 种 形式 化 语 
言 构成 了 两 种 更 易 使 用 的 语言 QBE 和 Datalog 的 基础 ， 我 们 将 在 附录 B 中 介绍 它们 。 












































术语 回顾 
。 关系 代数 © 附加 的 运算 。 多 重 集 
。 关系 代数 运算 O 集合 交 N 。 分 组 
O 选择 o 自然 连接 MX e JË 
口 投影 [I 口 赋值 运算 。 元 组 关系 演算 
o% u 口 外 连接 。 域 关系 演算 
O 集合 差 - - 左 外 连接 J 。 表达 式 安 全 性 
笛 卡 儿 积 x - 右 外 连接 XC 。 语言 的 表达 能 力 
口 更 名 p - 全 外 连接 了 C 
实践 习题 


6. 1 使 用 大 学 的 模式 ， 用 关系 代数 来 表达 下 面 这 些 查询 。 
a. 找 出 计算 机 ( Comp. Sci. ) 系 开设 的 占 3 个 学 分 的 课程 的 名 称 。 
b. 找 出 选 了 教师 Einstein 所 教 课程 的 所 有 学 生 的 ID ， 注 意 结果 中 不 能 有 重复 。 
c. 找 出 所 有 教师 的 最 高 工资 。 


6.2 


6.3 


6.4 


6.5 


6.6 


6.7 
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d 找 出 收入 为 最 高 工资 的 所 有 教师 (可 能 有 多 个 人 工资 相同 ) 。 

e. 找 出 2009 年 秋季 学 期 开设 的 各 个 课程 段 的 选课 人 数 。 

f 找 出 2009 年 秋季 学 期 开设 的 各 个 课程 段 中 最 大 的 选课 人 数 。 

g 找 出 在 2009 年 秋季 学 期 选课 人 数 最 多 的 课程 段 。 

考虑 图 6-22 所 示 关 系数 据 库 ， 主 码 加 了 下 划 线 。 给 出 关系 代数 表达 式 来 表示 下 列 每 一 个 查询 : 
a 找 出 与 其 经 理 居住 在 同一 城市 同一 街道 的 所 有 员工 姓名 。 

b. 找 出 此 数据 库 中 不 在 “First Bank Corporation” 工作 的 所 有 员工 姓名 。 

c. 找 出 比 “Small Bank Corporation "的 所 有 员工 收入 都 高 的 所 有 员工 姓名 。 





employee ( person_name , street , city ) 

works ( person_name ,company_name , salary ) 
company ( company_name , city ) 

manages ( person_name , manager_name ) 


图 6-22 “习题 6.2、 习 题 6.8 、 习 题 6. 11 、 习 题 6. 13 和 习题 6. 15 的 关系 数据 库 


外 连接 是 自然 连接 的 一 种 扩展 ， 它 使 得 参与 运算 的 关系 中 的 元 组 在 连接 结果 中 不 丢失 。 描 述 theta 连接 
运算 可 以 怎样 扩展 ， 使 得 在 theta 连接 结果 中 来 自 左 侧 、 右 侧 及 两 侧 关 系 的 元 组 不 被 丢失 。 
( 除 运算 ，division operation) 关系 代数 中 的 除 运算 符 是 + ， 它 的 定义 如 下 : 设 r(R) 和 8(S) 是 两 个 关 
A, 并且 SCR; 即 模式 S 中 的 每 个 属性 都 在 模式 R Ho IA r+ 是 模式 R-S 上 的 关系 ， 即 此 模式 中 
包含 所 有 在 R 中 而 不 在 $ 中 的 属性 。 元 组 上 属于 r*s 当 且 仅 当 以 下 两 个 条 件 同 时 成 立 : 
1.¢#€T1e-s(r) Po 
2. 对 s 中 的 每 一 个 元 组 i, ,在 r 中 都 有 元 组 i, 同时 满足 以 下 两 个 条 件 : 
a [S] =2,[S] 
b. t [R-S] =t 
有 了 以 上 定义 ， 要 求 : 
a. 用 除 运算 符 写 一 个 关系 代数 表达 式 来 找到 选 了 计算 机 ( Comp. Sci. ) 系 课程 的 所 有 学 生 的 ID。( 提示 : 
在 除 之 前 ， 把 takes 投影 到 ID 和 course_id， 并 用 一 个 选择 表达 式 生 成 所 有 计算 机 系 课程 course_id 的 








集合 。) 
b. 如 果 不 用 除法 ， 如 何在 关系 代数 中 表达 上 述 查询 。( 通 过 这 样 做 ， 你 就 可 以 了 解 如 何 用 其 他 关系 代 
数 运算 来 定义 除 运算 。) 
已 知 如 下 关系 模式 : 
B=( B; C) 
S=(D, E, E) 
关系 r(R) 和 s(S) 已 给 出 。 请 给 出 与 下 列 每 个 表达 式 等 价 的 元 组 关系 演算 表达 式 : 
a. Ia (r) 
b. osgan (r) 
arxs 


d. IILArCcc-oCr X 5) ) 

BR=(A, B, C), n Mr, 都 是 模式 R 上 的 关系 。 请 分 别 给 出 与 下 列表 达 式 等 价 的 域 关 系 演算 表达 式 : 
a. I(r) 

b. gg-1 7) 

cer, Ur, 

dr Nr, 

e. TI -r 

f. Iyer, ) MX Is clr) 

WR=(A, B),，S=(4, C),r(R) 和 s(5) 为 关系 。 为 下 列 查询 写 出 关系 代数 表达 式 : 
a. { <a> l I(l <a, b>er A b=7)} 

b: | <a, bs eS laa by er A <a,c>es)} 
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c. | <a> | de(<a,c>esAdb,, b( <a, bi >erh<c, b,> erAb, >b,))} 
6.8 考虑 图 6-22 所 示 的 关系 数据 库 ， 其 中 主 码 用 下 划 线 标示 。 为 下 面 每 个 查询 写 出 元 组 关系 演算 表达 式 : 
251 a. 找 出 所 有 直接 在 经 理 *Jones” 下 工作 的 员工 。 
b. 找 出 直接 在 经 理 “ Jones” 下 工作 的 员工 居住 的 所 有 城市 。 
c， 找 出 “Jones" 的 经 理 的 经 理 的 名 字 。 
d. H HIETE“ Mumbai” 的 所 有 员工 的 收入 都 高 的 那些 员工 。 
6.9 ”描述 如 何 将 SQL 中 的 连接 表达 式 转换 成 关系 代数 。 
习题 
6.10 ”使 用 大 学 的 模式 ， 用 关系 代数 表达 如 下 查询 。 
a. 找 出 所 有 至 少 选 了 一 门 计算 机 ( Comp. Sci. ) 系 课程 的 学 生 。 
b. 找 出 所 有 在 2009 年 春季 之 前 没有 选任 何 课程 的 学 生 的 ID 和 姓名 。 
c. 对 于 每 个 系 ， 找 到 该 系 教师 的 最 高 工资 。 可 以 假设 每 个 系 至 少 有 一 名 教师 。 
d. 在 上 一 问 找到 每 个 系 的 最 高 工资 的 基础 上 ， 找 出 所 有 各 系 的 最 高 工资 的 最 小 值 。 
6. 11 考虑 图 6-22 所 示 关 系数 据 库 ， 主 码 加 了 下 划 线 。 给 出 关系 代数 表达 式 来 表示 下 列 每 一 个 查询 : 
a. 找 出 First Bank Corporation 的 所 有 员工 姓名 。 
b. 找 出 First Bank Corporation 所 有 员工 的 姓名 和 居住 城市 。 
c. 找 出 First Bank Corporation 所 有 年 收入 在 10 000 美元 以 上 的 员工 姓名 和 居住 的 街道 、 城 市 。 
d. 找 出 所 有 居住 地 与 工作 的 公司 在 同一 城市 的 员工 姓名 。 
e 假设 公司 可 以 位 于 几 个 城市 中 。 找 出 满足 下 面条 件 的 所 有 公司 ， 它 位 于 Small Bank Corporation 所 位 
252 于 的 每 一 个 城市 。 
6. 12 ”使 用 大 学 的 例子 ， 用 关系 代数 查询 来 找 出 多 于 一 个 教师 授课 的 课程 段 ， 分 别 用 以 下 两 种 方式 来 表达 : 
a. 使 用 聚集 函数 。 
b. 不 使 用 聚集 函数 。 
6.13 考虑 图 6- 22 所 示 的 关系 数据 库 。 分 别 给 出 下 列 查询 的 关系 代数 表达 式 : 
a 找 出 员工 最 多 的 公司 。 
b. 找 出 工资 最 少 的 员工 所 在 公司 。 
c. 找 出 人 均 工 资 比 First Bank Corporation 人 均 工资 高 的 公司 。 
6.14 考虑 如 下 关于 图 书馆 的 关系 模式 : 


memeber( memb_no , name ,dob ) 
books ( isbn , title , authors , publisher ) 


borrowed ( memb_no , isbn , date ) 


用 关系 代数 写 出 下 列 查询 : 
a. 找 出 借 了 任何 由 McGraw-Hill 出 版 的 书 的 成 员 的 姓名 。 
b. 找 出 借 了 由 McGraw-Hill 出 版 的 所 有 的 书 的 成 员 的 姓名 。 
c. 找 出 借 了 由 McGraw-Hill 出 版 的 5 本 以 上 不 同 的 书 的 成 员 的 姓名 和 成 员 号 。 
d. 对 每 个 出 版 商 ， 找 出 借 了 该 出 版 商 的 5 本 以 上 的 书 的 成 员 的 姓名 和 成 员 号 。 
e 找 出 平均 每 个 成 员 借 了 多 少 本 书 。 下 面 的 情况 需要 考虑 在 内 ， 如 果 某 个 成 员 没 有 借 任 何 书 ， 那 么 
他 就 根本 不 会 出 现在 关系 borrowed 中 。 
6.15 考虑 图 6-22 所 示 的 员工 数据 库 。 为 下 面 每 个 查询 分 别 写 出 元 组 关系 演算 和 域 关系 演算 表达 式 : 
a. 找 出 所 有 为 First Bank Corporation 工作 的 员工 名 字 。 
b. 找 出 所 有 为 First Bank Corporation 工作 的 员工 名 字 和 居住 城市 。 
c 找 出 所 有 为 First Bank Corporation 工作 且 年 薪 超 过 10 000 美元 的 员工 名 字 、 居 住 街 道 和 城市 。 
253 d. 找 出 居住 城市 和 公司 所 在 城市 相同 的 所 有 员工 。 
e 找 出 居住 街道 和 城市 与 其 经 理 相同 的 所 有 员工 。 
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f. 找 出 数据 库 中 所 有 不 为 First Bank Corporation 工作 的 员工 。 
g 找 出 工资 高 于 Small Bank Corporation 的 每 一 位 员工 的 员工 。 
h. 假设 一 个 公司 可 以 位 于 好 几 个 城市 。 找 出 满足 下 面条 件 的 所 有 公司 ， 它 位 于 Small Bank Corporation 
所 位 于 的 每 一 个 城市 。 
6.16 设 R=(4, B) 且 S$=(4，C)，r(R) 和 s(S) 是 关系 。 分 别 给 出 与 下 列 域 关 系 演 算 表 达 式 等 价 的 关 
系 代 数 表达 式 : 
a {<a>ldjb(<a,b>erAb = 17)| 
b: | < a,b,c >| < a,b >ar ÀT ag ses 
ce (< alab ob Ser) V Ve(dd(<d,ec pes) <a >eEs)} 
d |<a@rlac(<ajes es A Jbrbl < abh S er A < eb > er Ab, > b,))} 
6.17 用 SQL 查询 代替 关系 代数 表达 式 来 重 做 习题 6. 16, 
6.18 设 R=(4, B) HS=(A, C), r(R) 和 s(S) 是 关系 。 使 用 特殊 常量 null, 分别 书写 等 价 于 下 列表 达 
式 的 元 组 关系 演算 表达 式 : 
a.r DC s 
b.r DL s 
cr Xs 
6.19 ”给 出 元 组 关系 表达 式 ， 找 出 关系 r(4) 中 的 最 大 值 。 


文献 注解 


关系 代数 最 初 的 定义 在 Codd[ 1970] 中 给 出 ; 关系 模型 的 扩展 、 关 于 在 关系 代数 中 引入 空 值 的 论述 
(RM/T 模 型)， 以 及 外 连接 ， 这些 内 容 都 出 现在 Codd[ 1979] 中 。Codd[ 1990] Æ E. F. Codd 关于 关系 模型 
的 所 有 文章 的 一 个 概括 。 外 连接 在 Date[ 1993b]j 中 也 进行 了 讨论 。 [254 
元 组 关系 演算 最 初 的 定义 在 Codd[ 1972] 中 给 出 。 元 组 关系 演算 和 关系 代数 等 价 性 的 形式 化 证 明 在 
Codd[ 1972] 中 给 出 。 关 系 演算 的 一 些 扩 展 已 经 被 提出 。Klug[ 1982] 和 Escobar-Molano 等 [1993] 描述 了 [255 
向 分 级 聚集 函数 的 扩展 。 sae 
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Part 2 


数据 库 设计 


设计 数据 库 系 统 的 目的 是 为 了 管理 大 量 信息 。 这 些 大 量 的 信息 并 不 是 孤立 存在 的 ， 而 是 
某 些 企业 业务 的 一 部 分 。 这 些 企业 的 终端 产品 可 能 是 来 自 数据 库 中 的 信息 ; 也 可 能 是 菜 些 设 
备 或 服务 ， 数 据 库 则 仅 为 其 扮演 一 个 支持 者 的 角色 。 

本 部 分 的 前 两 章 关 注 于 数据 库 模 式 的 设计 。 第 7 章 讲述 的 实体 -联系 (ER) 模型 是 一 种 
高 层 数 据 模型 ， 与 把 所 有 数据 用 表 来 表示 的 方法 不 同 ， 它 将 称 作 实体 的 基本 对 象 和 这 些 对 象 
之 间 的 联系 区 分 开 来 。 该 模型 通常 用 作 数据 库 模 式 设计 的 第 一 步 。 

先前 的 章节 曾 非 正式 地 介绍 了 关系 数据 库 设 计 关系 模式 的 设计 。 然 而 ， 还 存在 用 于 
区 分 好 的 数据 库 设计 和 不 好 的 数据 库 设 计 的 基本 原理 。 这 些 原理 被 形式 化 为 若干 “范式 ”， 这 
些 范式 提供 了 在 不 一 致 的 可 能 性 和 特定 查询 效率 之 间 的 不 同 权衡 。 第 8 章 讲述 关系 模式 的 规 
范 化 设计 。 

设计 一 个 完整 的 数据 库 应 用 环境 ， 并 满足 被 建 模 企业 的 需求 ， 需 要 关注 更 广泛 的 问题 ， 
很 多 这 样 的 问题 将 在 第 9 章 讲述 。 该 章 首 先 介绍 基于 Web 的 应 用 程序 接口 的 设计 ， 然 后 描述 
如 何 利用 多 个 抽象 层次 来 构建 大 型 应 用 。 最 后 ， 给 出 了 在 应 用 程序 级 别 和 数据 库 级 别 的 安全 
性 的 详细 讨论 。 




















第 7 章 | 


Database System Concepts, 6E 


数据 库 设 计 和 E-R 模型 





到 现在 为 止 ， 在 本 书 中 我 们 已 经 假想 了 一 个 给 定 的 数据 库 模式 并 研究 了 如 何 表述 查询 和 更 新 
我 们 现在 考虑 究竟 如 何 设计 一 个 数据 库 模式 。 在 本 章 中 ,我 们 关注 于 实体 -联系 (E-R) 数据 模型 ， 
它 提 供 了 一 个 找 出 在 数据 库 中 表示 的 实体 以 及 实体 间 如 何 关联 的 方法 。 最 终 ， 数 据 库 设计 将 会 表示 
为 一 个 关系 数据 库 设计 和 一 个 与 之 关联 的 约束 集合 。 本 章 讲述 一 个 E-R 设计 如 何 转换 成 一 个 关系 模 
式 的 集合 以 及 如 何在 该 设计 中 找到 某 些 约束 。 然 后 ， 第 8 章 详细 考查 一 个 关系 模式 的 集合 是 否 为 一 
个 好 的 或 不 好 的 数据 库 设计 ， 并 研究 使 用 更 广 的 约束 集合 来 构建 好 的 设计 的 过 程 。 这 两 章 覆 盖 数 据 
库 设 计 的 基本 概念 。 


7.1 设计 过 程 概览 


构建 一 个 数据 库 应 用 是 一 个 复杂 的 任务 ， 包 括 设 计数 据 库 模 式 ， 设 计 访 问 和 更 新 数据 的 程序 ， 
以 及 设计 控制 数据 访问 的 安全 模式 。 用 户 的 需求 在 设计 过 程 中 扮演 一 个 中 心 角色 。 本 章 主 要 关注 于 
数据 库 模 式 的 设计 ， 不 过 本 章 后 面 会 简要 地 概括 其 他 几 个 设计 任务 。 
设计 一 个 完整 的 数据 库 应 用 环境 ， 并 满足 被 建 模 企 业 的 需求 ， 需 要 关注 广泛 的 问题 。 数 据 库 预 
期 用 途 的 这 些 其 他 方面 在 物理 级 、 人 逻辑 级 和 视图 级 影响 着 各 种 各 样 的 设计 选择 。 
7. 1.1 设计 阶段 
259 对 于 小 型 的 应 用 ， 由 一 个 理解 应 用 需求 的 数据 库 设计 者 直接 决定 要 构建 的 关系 、 关 系 的 属性 以 
及 其 上 的 约束 ， 这 样 也 许 是 可 行 的。 但 是 ， 这 种 直接 的 设计 过 程 在 现实 的 应 用 中 是 困难 的 ， 由 于 现 
实 的 应 用 常常 很 复杂 ， 通 常 没有 一 个 人 能 够 理解 应 用 的 所 有 数据 需求 。 数 据 库 设计 者 必须 与 应 用 的 
用 户 进行 交互 以 理解 应 用 的 需求 ， 把 它们 以 用 户 能 够 理解 的 高 级 别 的 形式 表示 出 来 ， 然 后 再 将 需求 
转化 为 较 低 级 别 的 设计 。 一 个 高 层 数据 模型 为 数据 库 设 计 者 提供 了 一 个 概念 框架 ， 在 该 框架 中 以 系 
统 的 方式 定义 了 数据 库 用 户 的 数据 需求 ， 以 及 满足 这 些 需 求 的 数据 库 结 构 。 
© 数据 库 设 计 的 最 初 阶段 需要 完整 地 刻画 未 来 数据 库 用 户 的 数据 需求 。 为 完成 这 个 任务 ， 数 据 
库 设计 者 需要 同 应 用 领域 的 专家 和 用 户 进行 深入 的 沟通 。 这 一 阶段 的 产品 是 用 户 需求 规格 说 
明 。 虽 然 存在 图 形 方 式 的 用 户 需 求 表示 技术 ， 但 是 在 本 章 中 ,我们 仅 限 于 采用 文字 的 方式 来 
描述 用 户 需 求 。 
© 接 下 来 ， 设 计 者 选择 数据 模型 ， 并 采用 所 选 数据 模型 的 概念 将 这 些 需求 转化 为 数据 库 的 概念 
模式 。 在 此 概念 设计 (conceptual-design) 阶段 所 产生 的 模式 提供 了 一 个 对 企业 的 详细 综述 
我 们 在 本 章 中 将 研究 的 实体 - 联系 模型 通常 用 于 表示 概念 设计 。 用 实体 - 联系 模型 的 术语 来 
说 ， 概 念 模式 定义 了 数据 库 中 表示 的 实体 、 实 体 的 属性 、 实 体 之 间 的 联系 ， 以 及 实体 和 联系 
上 的 约束 。 通 常 ， 概 念 设 计 阶 段 会 导致 实体 - 联系 图 的 构建 ， 它 提供 了 对 模式 的 图 形 化 
描述 。 
设计 者 检查 此 模式 以 确保 所 有 数据 需求 都 满足 ， 并 且 互 相 不 冲突 。 她 还 可 以 检查 该 设计 
以 去 除 宛 余 的 特征 。 在 这 个 阶段 ， 她 关注 的 是 描述 数据 及 其 联系 ,而 不 是 定义 物理 存储 
细节 。 
© 完善 的 概念 模式 还 指明 企业 的 功能 需求 。 在 功能 需求 规格 说 明 (specification of functional 
requirement) 中 ， 用 户 描述 将 在 数据 上 进行 的 各 类 操作 (或 事务 )。 操 作 的 例子 包括 修改 或 更 
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新 数据 ， 搜 索 并 取 回 特定 数据 ， 以 及 删除 数据 。 在 概念 设计 的 这 一 阶段 ， 设 计 者 可 以 检查 所 

设计 的 模式 ， 以 确保 其 满足 功能 需求 。 

。 从 抽象 数据 模型 到 数据 库 实 现 的 转换 过 程 在 最 后 两 个 设计 阶段 中 进行 。 

O 在 逻辑 设计 阶段 〈logical-design phase) 中 ， 设 计 者 将 高 层 概念 模式 映射 到 将 使 用 的 数据 库 
系统 的 实现 数据 模型 上 。 实 现 数据 模型 通常 是 关系 数据 模型 ， 该 阶段 通常 包括 将 以 实体 - 
联系 模型 定义 的 概念 模式 映射 到 关系 模式 。 

最 后 ,设计 者 将 所 得 到 的 系统 特定 的 数据 库 模 式 使 用 到 后 续 的 物理 设计 阶段 ( physical-design 
phase) 中 。 在 该 阶段 ， 指 明 数 据 库 的 物理 特征 ， 这 些 特征 包括 文件 组 织 格式 和 索引 结构 的 
选择 ， 我 们 将 在 第 10 章 和 第 11 章 讨论 这 些 内 容 。 

在 应 用 建立 之 后 ， 要 改变 数据 库 的 物理 模式 相对 地 比较 简单 。 但 是 ， 由 于 可 能 影响 到 应 用 程序 
代码 中 散布 的 大 量 的 查询 和 更 新 操作 ， 因 此 改变 逻辑 模式 的 任务 执行 起 来 常常 更 加 困难 。 因 此 ,在 
建立 后 续 的 数据 库 应 用 之 前 ， 慎 重 实施 数据 库 设 计 阶 段 是 非常 重要 的 。 

7.1.2 设计 选择 

数据 库 设计 过 程 的 一 个 主要 部 分 是 决定 如 何在 设计 中 表示 各 种 类 型 的 “事物 ”， 比 如 人 、 地 方 、 
产品 ， 诸 如 此 类 。 我 们 使 用 实体 (entity) 这 个 术语 来 指示 所 有 可 明确 识别 的 个 体 。 在 一 个 大 学 数据 
库 中 ， 实 体 的 例子 将 包括 教师 、 学 生 、 系 、 课 程 和 开课 “。 这 些 各 种 各 样 的 实体 以 多 种 方式 互相 关 
联 ， 而 所 有 这 些 方式 都 需要 在 数据 库 设 计 中 反映 出 来 。 例 如 ， 一 名 学 生 在 一 次 开课 中 选课 ， 而 一 名 
教师 在 一 次 开课 中 授课 ， 授 课 和 选课 就 是 实体 间 联 系 的 实例 。 

在 设计 一 个 数据 库 模 式 的 时 候 ， 我 们 必须 确保 避免 两 个 主要 的 缺陷 。 

e TR: 一 个 不 好 的 设计 可 能 会 重复 信息 。 例 如 ， 如 果 对 于 每 一 次 开课 我 们 都 存储 课程 编号 和 

课程 名 称 ， 那 么 对 于 每 一 次 开课 我 们 就 元 余地 (〈 即 多 次 地 、 不 必要 地 ) 存储 了 课程 名 称 。 对 
每 次 开课 仅 存储 课程 编号 ， 并 在 一 个 课程 实体 中 将 课程 名 称 和 课程 编号 关联 一 次 就 足够 了 。 

宛 余 也 可 能 出 现在 关系 模式 中 。 在 目前 我 们 所 使 用 的 大 学 的 例子 中 ， 我 们 有 一 个 开课 信 
息 的 关系 和 一 个 课程 信息 的 关系 。 假 设 换 一 个 做 法 ， 我 们 只 有 一 个 关系 ， 对 一 门 课程 的 每 一 
次 开课 我 们 将 全 部 课程 信息 (课程 编号 、 课 程 名 、 系 名 、 学 分 ) 重复 一 次 。 很 明显 ， 关 于 课 
程 的 信息 将 元 余地 存储 。 

信息 的 这 种 元 余 表 达 的 最 大 问题 是 当 对 一 条 信息 进行 更 新 但 没有 将 这 条 信息 的 所 有 拷贝 
都 更 新 时 ， 这 条 信息 的 拷贝 会 变 得 不 一 致 。 例 如 ， 拥 有 同一 个 课程 编号 的 几 次 不 同 的 开课 可 
能 会 拥有 不 同 的 课程 名 称 ， 于 是 会 搞 不 清楚 课程 的 正确 名 称 是 什么 。 理 想 的 情况 下 ， 信 息 应 
该 只 出 现在 一 个 地 方 。 

。 不 完整 : 一 个 不 好 的 设计 可 能 会 使 得 企 事 业 机 构 的 某 些 方面 难于 甚至 无 法 建 模 。 例 如 ， 假 设 
在 上 述 案例 (1) 中 ,我 们 只 有 对 应 于 开课 的 实体 ， 而 没有 对 应 于 课程 的 实体 。 从 关系 的 角 
度 说 ， 这 就 是 假设 我 们 有 单个 关系 ， 对 一 门 课程 的 每 一 次 开课 都 重复 存储 课程 的 所 有 信息 。 
那么 一 门 新 课程 的 信息 将 无 法 表示 ， 除 非 开 设 了 该 课程 。 我 们 可 能 会 尝试 将 开课 信息 设置 为 
空 值 的 方法 来 解决 这 个 有 问题 的 设计 。 这 种 绕 开 问题 的 措施 不 仅 不 吸引 人 ， 而 且 有 可 能 由 于 
主 码 约束 而 无 法 实行 。 

仅仅 避免 不 好 的 设计 是 不 够 的 。 可 能 存在 大 量 好 的 设计 ， 我们 必须 从 中 选择 一 个 。 作 为 一 个 简 
单 的 例子 ， 考 虑 买 了 某 产品 的 一 个 客户 。 该 产品 的 销售 是 客户 和 产品 之 间 的 联系 吗 ?” 还 是 销售 本 身 
是 一 个 与 客户 和 产品 都 相关 的 实体 ?这 个 选择 ,虽然 简单 ， 却 可 能 对 企业 某 些 方面 建 模 的 好 坏 有 很 
大 的 影响 。 考 虑 为 一 个 现实 企业 中 的 大 量 实体 和 联系 做 类 似 这 样 的 选择 的 需要 ， 不 难看 出 数据 库 设 
计 是 一 个 很 有 挑战 性 的 问题 。 事 实 上 我 们 将 看 到 ， 它 需要 科学 和 “好 的 品味 ”的 结合 。 

















名 “一 门 课 程 可 能 在 多 个 学 期 开设 ,同样 也 可 能 一 个 学 期 中 开设 多 次 ， 我 们 称 某 课 程 的 每 次 开设 为 一 个 课程 段 。 
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7.2 实体 -联系 模型 


实体 - 联系 〈entity-relationship ，E-R) 数据 模型 的 提出 旨 在 方便 数据 库 的 设计 ， 它 是 通过 允许 
定义 代表 数据 库 全 局 逻辑 结构 的 企业 模式 实现 的 。 

E-R 模型 在 将 现实 世界 企业 的 含义 和 交互 映射 到 概念 模式 上 非常 有 用 ， 因 此 , 许多 数据 库 设 计 
工具 都 利用 了 E-R 模型 的 概念 。E-R 数据 模型 采用 了 三 个 基本 概念 : 实体 集 、 联 系 集 和 属性 ， 我 们 
首先 对 此 进行 学 习 ; E-R 模型 还 有 一 个 相关 联 的 图 形 表 示 (E-R 图 ) ， 我 们 在 本 章 后 面 学 习 。 

7.2.1 实体 集 

实体 entity) 是 现实 世界 中 可 区 别 于 所 有 其 他 对 象 的 一 个 “事物 ”或 “对 象 "。 例 如 ， 大 学 中 

的 每 个 人 都 是 一 个 实体 。 每 个 实体 有 一 组 性 质 ， 其 中 一 些 性 质 的 值 可 以 唯一 地 标识 一 个 实体 。 例 如 ， 一 

262 | 个 人 可 能 具有 person_id 性 质 唯一 标识 这 个 人 。 因 此 ，person_id 的 值 677 - 89 -9011 将 唯一 标识 大 学 中 一 
个 特定 的 人 。 与 此 类 似 ， 课 程 也 可 以 看 作 实体 ， 而 course_id 唯一 标识 了 大 学 中 的 某 个 课程 实体 。 实 体 可 
以 是 实 实在 在 的 ， 如 人 或 书 ; 也 可 以 是 抽象 的 ， 如 课程 、 课 程 段 开 课 或 者 机 票 预 订 。 

实体 集 (entity set) 是 相同 类 型 即 具 有 相同 性 质 ( 或 属性 ) 的 一 个 实体 集合 。 例 如 ， 一 所 给 定 大 学 的 
所 有 教师 的 集合 可 定义 为 实体 集 instructor。 类 似 地 ， 实 体 集 student 可 以 表示 大 学 中 所 有 学 生 的 集合 。 

在 建 模 的 过 程 中 ,我 么 通常 抽象 地 使 用 术语 实体 集 ， 而 不 是 指 某 个 个 别 实体 的 特别 集合 。 我 
们 用 术语 实体 集 的 外 延 (extension) 来 指 属 于 实体 集 的 实体 的 实际 集合 。 因 此 ， 大 学 中 实际 教师 的 
集合 构成 了 实体 集 instructor 的 外 延 。 我 们 在 第 2 章 看 到 过 的 联系 和 联系 实例 之 间 的 区 别 和 上 述 区 
别 类 似 。 

实体 集 不 必 互 不 相交 。 例 如 ， 可 以 定义 大 学 里 所 有 人 的 实体 集 (person)。 一 个 person 实体 可 以 是 
instructor 实体 ， 可 以 是 student 实体 ， 可 以 既是 instructor 实体 又 是 student 实体 ， 也 可 以 都 不 是 。 

实体 通过 一 组 属性 (attribute) 来 表示 。 属 性 是 实体 集中 每 个 成 员 所 拥有 的 描述 性 性 质 。 为 某 实体 集 
指定 一 个 属性 表明 数据 库 为 该 实体 集中 每 个 实体 存储 相似 的 信息 ; 但 每 个 实体 在 每 个 属性 上 都 有 各 自 
的 值 。 实 体 集 instructor 可 能 具有 属性 ID, name, dept_name, Ñ salary。 在 现实 生活 中 ， 可 能 还 有 更 多 
的 属性 ， 如 街道 号 、 房 间 号 、 州 、 邮 政 编码 和 国家 ， 但 是 为 了 使 我 们 的 例子 简单 ， 我 们 省 略 了 这 些 属 
HE. course 实体 集 可 能 的 属性 有 course_id, title, dept_name 和 credits ., 

每 个 实体 的 每 个 属性 都 有 一 个 值 (value) 。 例 如 ， 一 个 特定 的 instructor 实体 可 能 ID 的 值 为 12121 ， 
name WEHR, dept_name 的 值 为 金融 ，salary 的 值 为 90 000. 

ID 属性 用 来 唯一 地 标识 教师 ， 因 为 可 能 会 有 多 个 教师 拥有 相同 的 名 字 。 在 美国 ， 许 多 企业 发 现 将 
一 个 人 的 社会 保障 号 用 作 其 值 唯 一 标识 该 人 的 属性 很 方便 。 一 般 来 说 ， 大 学 必须 给 每 个 教师 创建 和 
分 配 一 个 唯一 的 标识 符 。 

因此 ， 数 据 库 包括 一 组 实体 集 ， 每 个 实体 集 包括 任意 数量 的 相同 类 型 的 实体 。 图 7-1 为 一 个 大 学 
数据 库 的 一 部 分 ， 其 中 有 两 个 实体 集 : instructor 和 student。 为 了 使 图 示 简 单 ， 只 显示 了 两 个 实体 集 的 
一 部 分 属性 。 

一 个 大 学 数据 库 可 能 包含 许多 其 他 的 实体 集 。 例 如 ， 除 了 跟踪 记录 教师 和 学 生 外 ， 大 学 还 具有 课 

程 信 息 ， 用 实体 集 course 来 表示 ， 它 包括 属性 account_number, course_id, title, dept_name 和 credits, FE 
真实 环境 中 ， 一 个 大 学 数据 库 可 能 会 包含 数 十 个 实体 集 。 


7.2.2 联系 集 


EKA (relationship) 是 指 多 个 实体 间 的 相互 关联 。 例 如 ， 我 们 可 以 定义 关联 教师 Katz 和 学 生 Shankar 
的 联系 advisor。 这 一 联系 指明 Katz 是 学 生 Shankar 的 导师 。 





O 在 美国 ,政府 分 配给 国家 中 的 每 一 个 人 一 个 唯一 的 号 码 ， 称 为 社会 保障 号 ， 用 来 唯一 地 标识 一 个 人 。 任 何 一 个 
人 都 仅 有 一 个 这 样 的 社会 保障 号 ， 并 且 没 有 两 个 人 会 拥有 相同 的 社会 保障 号 。 
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FA 7-1 实体 集 instructor 和 student 


EKA (relationship set) 是 相同 类 型 联系 的 集合 。 正 规 地 说 ， 联 系 集 是 n==2 个 (可 能 相同 的 ) 实 体 
集 上 的 数学 关系 。 如 果 E, E, =, E, WERE, BARRE RE 
lleis 6) leek,, Ee "| 
的 一 个 于 集 ; e e, “+, ¢,) FE-MRA. 
考虑 图 7-1 中 的 两 个 实体 集 instructor 和 student。 我 们 定义 联系 集 advisor 来 表示 教师 及 学 生 之 间 的 
关联 。 这 一 关联 如 图 7-2 所 示 。 


Crick 

















instructor 





student 


图 7-2 联系 集 advisor 


再 看 另 一 个 例子 ， 考 虑 实体 集 student 和 section。 我 们 可 以 定义 联系 集 takes 来 表示 学 生 和 该 学 生 所 
注册 的 开课 之 间 的 关联 。 

实体 集 之 间 的 关联 称 为 参与 ; 也 就 是 说 ， 实 体 集 E, E, |, E, 参与 (participate ) 联系 集 R。E-R 
模式 中 的 一 个 联系 实例 (relationship instance ) 表示 在 所 建 模 的 现实 世界 企业 中 命名 实体 间 的 一 个 关联 。 
例如 ， 一 个 教师 ID 为 45565 的 instructor 实体 Katz 和 一 个 学 生 ID 为 12345 的 student 实体 Shankar 参与 到 
aduisor 的 一 个 联系 实例 中 。 这 一 联系 实例 表示 在 大 学 中 教师 Katz 指导 学 生 Shankar。 

实体 在 联系 中 扮演 的 功能 称 为 实体 的 角色 (role) 。 由 于 参与 一 个 联系 集 的 实体 集 通常 是 互 异 的 ， 
因此 角色 是 隐 含 的 并 且 一 般 并 不 指定 。 但 是 ， 当 联系 的 含义 需要 解释 时 角色 是 很 有 用 的 。 当 参与 联系 
集 的 实体 集 并 非 互 异 的 时 候 就 是 这 种 情况 ; 也 就 是 说 ， 同 样 的 实体 集 以 不 同 的 角色 参与 一 个 联系 集 多 
于 一 次 。 在 这 类 联系 集中 ， 即 有 时 称 作 自 环 的 (recursive) 联系 集中 ， 有 必要 用 显 式 的 角色 名 来 指明 实 
体 是 如 何 参 与 联系 实例 的 。 例 如 ， 考 虑 记录 大 学 开设 的 所 有 课程 的 信息 的 实体 集 course。 我 们 用 course 
实体 的 有 序 对 来 建 模 联系 集 prereg ， 以 描述 一 门 课程 (C2 ) 是 另 一 门 课程 (Cl1 ) 的 先 修 课 。 每 对 课程 中 的 
第 一 门 课程 具有 课程 C1 的 角色 ， 而 第 二 门 课程 具有 先 修 课 C2 的 角色 。 按 照 这 种 方式 ， 所 有 的 prereq 
联系 通过 ( C1 ，C2 ) 对 来 表示 ， 排 除了 (C2，C1) 对 。 

联系 也 可 以 具有 描述 性 属性 ( descriptive attribute ) 。 考 虑 实体 集 instructor 和 student 之 间 的 联系 集 
advisor。 我 们 可 以 将 属性 date 与 该 联系 关联 起 来 ， 以 表示 教师 成 为 学 生 的 导师 的 日 期 。 教 师 Katz 对 应 
的 实体 和 学 生 Shankar 对 应 的 实体 之 间 的 联系 advisor 的 属性 date 的 值 为 “10 June 2007”， 表 示 Katz 于 
2007 年 6 月 10 HIX Shankar 的 导师 。 

图 7-3 所 示 为 具有 描述 性 属性 date 的 联系 集 advisor。 注 意 ，Katz 在 两 个 不 同 的 日 期 成 为 了 两 名 学 
生 的 导师 。 
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作为 联系 的 描述 性 属性 的 一 个 更 实际 的 例子 ， 考 虑 实体 集 student 和 section 参与 一 个 联系 集 takes。 
我 们 也 许 希望 在 这 个 联系 中 用 一 个 描述 性 属性 grade， 来 记录 学 生 在 这 门 课 中 取得 的 成 绩 。 我 们 同样 可 
以 用 一 个 描述 性 的 属性 for_credit 来 记录 学 生 在 这 门 课 中 是 选修 还 是 旁听 (或 出 席 ) 的 情况 。 




















2007 年 
2006 年 月 外 
instructor 


student 


图 7-3 date 作为 联系 集 advisor 的 属性 


给 定 的 联系 集中 的 一 个 联系 实例 必须 是 由 其 参与 实体 唯一 标识 的 ， 而 不 必 使 用 描述 属性 。 为 了 理 
解 这 一 点 ， 假 设 我 们 要 对 一 个 教师 成 为 一 个 特定 学 生 的 导师 的 所 有 日 期 建 模 。 单 值 的 属性 date 只 能 保 
存 一 个 日 期 。 我 们 不 能 通过 同一 个 教师 和 学 生 之 间 的 多 个 联系 实例 来 表示 多 个 日 期 ， 因 为 这 些 联系 实 
例 仅 使 用 参与 的 实体 是 无 法 唯一 标识 的 。 正 确 的 处 理 方法 是 创建 一 个 多 值 属性 date， 它 可 以 保存 所 有 
的 日 期 。 

相同 的 实体 集 可 能 会 参与 到 多 于 一 个 联系 集中 。 在 我 们 的 例子 中 ，insiructor 和 student 实体 集 参 与 
到 联系 集 advisor 中 。 另 外 ,假设 每 个 学 生 必须 有 一 名 教师 作为 他 的 系 导 师 ( 本科 或 研究 生 )， 那 么 
instructor 和 student 实体 集 将 参与 到 另 一 个 联系 集 dept_advisor 中 。 

联系 集 advisor 和 dept_advisor 给 出 了 二 元 ( binary) 联系 集 的 例子 ， 即 涉及 两 个 实体 集 的 联系 集 。 数 
据 库 系 统 中 的 大 部 分 联系 集 都 是 二 元 的 。 然 而 ， 有 时 联系 集会 涉及 多 于 两 个 实体 集 。 

例如 ， 假 设 我 们 有 一 个 代表 在 大 学 内 开展 的 所 有 研究 项 目的 实体 集 project:， 考 虑 实体 集 instrustor , 
student 和 Project。 每 个 项 目 可 以 有 多 个 参与 的 学 生 和 多 个 参与 的 教师 。 另 外 ， 每 个 参与 项 目的 学 生 必须 
有 一 个 教师 指导 他 在 项 目 中 的 工作 。 目 前 ， 我 们 忽略 项 目 和 教师 以 及 项 目 和 学 生 这 两 个 关联 ， 而 关注 
哪个 教师 在 一 个 特定 项 目 上 指导 哪个 学 生 。 为 了 表达 这 个 信息 ,我 们 通过 关联 proj guide 将 三 个 实体 集 
联系 到 一 起 ， 它 表示 某 个 学 生 在 某 个 项 目 上 接收 了 某 个 教师 的 指导 。 

注意 ， 一 个 学 生 可 以 在 不 同 的 项 目 中 有 不 同 的 教师 作为 导师 ， 不 能 将 这 个 联系 描述 成 学 生 与 教师 


之 间 的 二 元 关系 。 


参与 联系 集 的 实体 集 的 数目 称 为 联系 集 的 度 ( degree) 。 二 元 联系 集 的 度 为 2; 三 元 联系 集 的 度 为 3。 
7.2.3 属性 
每 个 属性 都 有 一 个 可 取 值 的 集合 ， 称 为 该 属性 的 域 (domain) ， 或 者 值 集 ( value set), course_id 属性 
的 域 可 能 是 特定 长 度 的 所 有 文本 字符 串 的 集合 。 类 似 地 ， 属 性 semester 的 域 可 能 是 集合 | 秋 ， 冬 ， 春 ， 
夏 | 中 的 字符 串 。 
正规 地 说 ， 实 体 集 的 属性 是 将 实体 集 映射 到 域 的 函数 。 由 于 一 个 实体 集 可 能 有 多 个 属性 ， 因 此 每 
个 实体 可 以 用 一 组 (属性 ， 数 据 值 ) 对 来 表示 ， 实 体 集 的 每 个 属性 对 应 一 个 这 样 的 对 。 例 如 ， 某 个 
instructor 实体 可 以 用 集合 | (ID, 76766), (name, Crick), (dept_name, Œ), (salary, 72000) | 来 描 
述 ， 该 实体 描述 了 一 个 叫 Crick 的 人 ， 他 的 教师 编号 为 76766， 是 生物 系 的 成 员 ， 工 资 为 $72 000, M 
这 里 我 们 可 以 看 出 抽象 模式 与 被 建 模 的 实际 企业 的 结合 。 用 来 描述 实体 的 属性 值 构成 存储 在 数据 库 中 
的 数据 的 一 个 重要 部 分 。 
E-R 模型 中 的 属性 可 以 按照 如 下 的 属性 类 型 来 进行 划分 : 
。 简单 (simple) 和 复合 (composite ) 属性 。 在 我 们 的 例子 中 ,迄今 为 止 出 现 的 属性 都 是 简单 属性 ， 
也 就 是 说 ， 它 们 不 能 划分 为 更 小 的 部 分 。 另 一 方面 ， 复 合 (composite ) 属性 可 以 再 划分 为 更 小 的 
部 分 ( 即 其 他 属性 ) 。 例 如 ， 属 性 name 可 设计 为 一 个 包括 first_name、middle_initial 和 last_name 
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的 复合 属性 。 如 果 一 个 用 户 希 望 在 一 些 场景 中 引用 完整 的 属性 ， 而 在 另外 的 场景 中 仅 引 用 属性 
的 一 部 分 ， 则 在 设计 模式 中 使 用 复合 属性 是 一 个 好 的 选择 。 假 设 我 们 要 给 student 实体 集 增加 一 
个 地 址 。 地 址 可 定义 为 包含 属性 street city, state 和 zip_code “的 复合 属性 address。 复 合 属性 帮 
助 我 们 把 相关 属性 聚集 起 来 ， 使 模型 更 清晰 。 

注意 ， 复 合 属性 可 以 是 有 层次 的 。 在 复合 属性 address 中 ， 其 子 属 性 street 可 以 进一步 分 为 
street_number , street_name 和 apartment_number。 图 7-4 描述 了 instructor 实体 集 的 这 些 复合 属性 的 
例子 。 


复合 name address 


属性 


firstname middle_initial last_name streel city state — postal_code 


子 属性 


street_number — sireet_name apartment_number 


图 7-4 复合 属性 教师 name 和 address 


© 单 值 (single-valued) 和 多 值 (multivalued) 属性 。 我 们 的 例子 中 的 属性 对 一 个 特定 实体 都 只 有 单独 
的 一 个 值 。 例 如 ， 对 某 个 特定 的 学 生 实体 而 言 ，student_D 属性 只 对 应 于 一 个 学 生 ID, IX REN 
属性 称 作 是 单 值 (single valued) 的 。 而 在 某 些 情况 下 对 某 个 特定 实体 而 言 ， 一 个 属性 可 能 对 应 
于 一 组 值 。 假 设 我 们 往 instructor 实体 集 添加 一 个 phone_number 属性 ， 每 个 教师 可 以 有 零 个 、 一 
个 或 多 个 电话 号 码 ， 不 同 的 教师 可 以 有 不 同 数量 的 电话 。 这 样 的 属性 称 作 是 多 值 (multivalued ) 
的 。 作 为 另 一 个 例子 ， 我 们 可 以 往 实 体 集 instructor 中 添加 一 个 属性 dependent_name， 它 列 出 所 
有 的 眷属 。 这 个 属性 将 是 多 值 的 ， 因 为 任何 一 个 特定 的 教师 可 能 有 零 个 、 一 个 或 多 个 眷属 。 

为 了 表示 一 个 属性 是 多 值 的 ， 我 们 用 花 括 号 将 属性 名 括 住 ， 例 如 : | phone_number} 或 者 
| dependent_name} 。 

在 适当 的 情况 下 ， 可 以 对 一 个 多 值 属性 的 取 值 数目 设置 上 、 下 界 。 例 如 ， 一 所 大 学 可 能 将 
单个 教师 的 电话 号 码 个 数 限制 在 两 个 以 内 。 在 这 个 例子 中 设置 限制 表明 instructor 实体 集 的 
phone_number 属性 可 以 有 0 ~ 2 个 值 。 
派生 (derived) 属 性。 这 类 属性 的 值 可 以 从 别 的 相关 属性 或 实体 派生 出 来 。 例 如 ， 让 我 们 假设 
instructor 实体 集 有 一 个 属性 students_advised， 表 示 一 个 教师 指导 了 多 少 个 学 生 。 我 们 可 以 通过 
统计 与 一 个 教师 相关 联 的 所 有 student 实体 的 数目 来 得 到 这 个 属性 的 值 。 

又 如 ,假设 instructor 实体 集 具 有 属性 age, RAN BUM AYE, WER instructor 实体 集 还 具有 
属性 date_of_birth， 我 们 就 可 以 从 当前 的 日 期 和 date_of_birth 计算 出 age。 因 此 age 就 是 派生 属 
性 。 在 这 里 ，date_of_birth 可 以 称 为 基 属 性 ， 或 存储 的 属性 。 派 生 属 性 的 值 不 存储 ， 而 是 在 需 
要 时 计算 出 来 。 

当 实 体 在 某 个 属性 上 没有 值 时 使 用 空 (null) 值 。 空 值 可 以 表示 "不 适用 ”， 即 该 实体 的 这 个 属性 不 
存在 值 。 例如， 一 个 人 可 能 没有 中 间 名 字 。 空 还 可 以 用 来 表示 属性 值 未 知 。 未 知 的 值 可 能 是 缺失 的 ( 值 
存在 ， 但 我 们 没有 该 信息 ) ， 或 不 知道 的 (我 们 并 不 知道 该 值 是 否 确实 存在 ) 。 

例如 ， 如 果 一 个 特定 的 教师 的 name 值 是 空 ， 我们 推测 这 个 值 是 缺失 的 ， 因 为 每 个 教师 肯定 有 一 个 
名 字 。apariment_number 属性 的 空 值 可 能 意味 着 地 址 不 包括 房间 号 (不 适用 ) ， 或 房间 号 是 存在 的 但 是 我 
们 不 知道 是 什么 (缺失 的 ) ， 或 者 我 们 不 知道 房间 号 是 否 是 该 教师 的 地 址 的 一 部 分 (不 知道 的 ) 。 


7.3 约束 


E-R 企业 模式 可 以 定义 一 些 数据 库 中 的 数据 必须 要 满足 的 约束 。 这 一 节 讨 论 映射 基数 以 及 参与 
ARo 








O ”我们 假定 使 用 美国 的 地 址 格式 ， 其 中 包括 一 个 称 作 zip code 的 数字 邮政 编码 。 
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7.3.1 映射 基数 
映射 基数 ( mapping cardinality) ， 或 基数 比率 ， 表 示 一 个 实体 通过 一 个 联系 集 能 关联 的 实体 的 个 数 。 
映射 基数 在 描述 二 元 联系 集 时 非常 有 用 ， 尽 管 它们 可 以 用 于 描述 涉及 多 于 两 个 实体 集 的 联系 集 。 
在 这 一 节 中 ， 我 们 将 只 集中 在 二 元 联系 集 上 。 
对 于 实体 集 4 和 B 之 间 的 二 元 联系 集 R 来 说 ， 映 射 基 数 必然 是 以 下 情况 之 一 : 
e 一 对 一 (one-to-one) 。4 中 的 一 个 实体 至 多 与 B 中 的 一 个 实体 相关 联 ， 并 且 B 中 的 一 个 实体 也 至 
多 与 4 中 的 一 个 实体 相关 联 ( 如 图 7-5a 所 示 )。 
e 一 对 多 (one-to-many) 。4 中 的 一 个 实体 可 以 与 B 中 的 任意 数目 ( 零 个 或 多 个 ) 实 体 相关 联 ， 而 B 
中 的 一 个 实体 至 多 与 A 中 的 一 个 实体 相关 联 ( 如 图 7-5b 所 示 ) 。 
© 多 对 一 (many-to-one) 。4 中 的 一 个 实体 至 多 与 B 中 的 一 个 实体 相关 联 ， 而 B 中 的 一 个 实体 可 以 
与 4 中 任意 数目 ( 零 个 或 多 个 ) 实 体 相关 联 (如 图 7-6a 所 示 )。 
© 多 对 多 (many-to-many) 。4 中 的 一 个 实体 可 以 与 8 中 任意 数目 ( 零 个 或 多 个 ) 实 体 相关 联 ， 而 且 
B 中 的 一 个 实体 也 可 以 与 4 中 任意 数目 ( 零 个 或 多 个 ) 实 体 相 关联 (如 图 7-6b 所 示 ) 。 
显然 ， 一 个 特定 联系 集 的 适当 的 映射 基数 依赖 于 该 联系 集 所 建 模 的 现实 世界 的 情况 。 
作为 例子 ， 考 虑 advisor 联系 集 。 如 果 在 一 所 特定 的 大 学 中 ， 一 名 学 生 只 能 由 一 名 教师 指导 ， 而 一 
名 教师 可 以 指导 多 个 学 生 ， 那 么 instructor 到 student 的 联系 集 是 一 对 多 的 。 如 果 一 名 学 生 可 以 由 多 名 教 
师 指导 ( 比如 学 生 可 以 由 多 名 教师 共同 指导 ) ， 那 么 此 联系 集 是 多 对 多 的 。 
B A 









































图 7-6 映射 基数 


7. 3.2 参与 约束 

如 果实 体 集 E 中 的 每 个 实体 都 参与 到 联系 集 RR 的 至 少 一 个 联系 中 ， 实 体 集 在 联系 集 RR 中 的 参与 
称 为 全 部 (total) 的 。 如 果 五 中 只 有 部 分 实体 参与 到 R 的 联系 中 ， 实 体 集 E 到 联系 集 R 的 参与 称 为 部 分 
(partial) 的 。 在 图 7-5a 中 ，B 在 联系 集中 的 参与 是 全 部 的 ， 而 4 在 联系 集中 的 参与 是 部 分 的 ; 在 图 7-5b 
中 ,4 和 8B 在 联系 集中 的 参与 都 是 全 部 的 。 
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例如 ， 我 们 期 望 每 个 student 实体 通过 advisor 联系 同 至 少 一 名 教师 相 联系 ， 因 而 student 在 联系 集 advisor 
中 的 参与 是 全 部 的 。 相 反 地 ， 一 个 instructor 不 是 必须 要 指导 一 个 学 生 。 因 此 ， 很 可 能 只 有 一 部 分 instructor 
实体 通过 advisor 联系 同 student 实体 集 相 关联 ， 于 是 instructor 在 advisor 联系 集中 的 参与 是 部 分 的 。 

7.3.3 码 

我 们 必须 有 一 个 区 分 给 定 实体 集中 的 实体 的 方法 。 从 概念 上 来 说 ， 各 个 实体 是 互 异 的 ; 但 从 数据 
库 的 观点 来 看 ， 它 们 的 区 别 必 须 通 过 其 属性 来 表明 。 

因此 ， 一 个 实体 的 属性 的 值 必 须 可 以 唯一 标识 该 实体 。 也 就 是 说 ， 在 一 个 实体 集中 不 允许 两 个 实 
体 对 于 所 有 属性 都 具有 完全 相同 的 值 。 

2.3 节 定 义 的 关系 模式 的 码 的 概念 直接 适用 于 实体 集 。 即 实体 的 码 是 一 个 足以 区 分 每 个 实体 的 属 
性 集 。 关 系 模式 中 的 超 码 、 候 选 码 、 主 码 的 概念 同样 适用 于 实体 集 。 

码 同样 用 于 唯一 地 标识 联系 ， 并 从 而 将 联系 互相 区 分 开 来 。 我 们 在 下 面 定义 联系 的 码 的 相应 概念 。 

实体 集 的 主 码 使 得 我 们 可 以 区 分 实体 集中 不 同 的 实体 。 我 们 需要 一 种 类 似 的 机 制 来 区 分 联系 集中 
不 同 的 联系 。 

设 R 是 一 个 涉及 实体 集 E, ，E,，…，E, 的 联系 集 。 设 主 码 (,) 代 表 构 成 实体 集 E, 的 主 码 的 属性 
集合 。 目 前 我 们 假设 所 有 主 码 的 属性 名 是 互 不 相同 的 。 联 系 集 主 码 的 构成 依赖 于 同 联系 集 R 相关 联 的 
属性 集合 。 

如 果 联 系 集 尽 没有 属性 与 之 相关 联 ， 那 么 属性 集合 

primary-key( E, ) Uprimary-key( E, ) U +++ Uprimary-key( E, ) 
描述 了 集合 R 中 的 一 个 联系 。 

如 果 联 系 集 尺 有 属性 c ，o ，…，a, 与 之 相关 联 ， 那 么 属性 集合 

primary-key( E, ) Uprimary-key( E, ) U Uprimary-key(E,) Ula, a, =, a,l 
描述 了 集合 R 中 的 一 个 联系 。 

在 以 上 两 种 情况 下 ， 属 性 集合 

primary-key( E, ) U primary-key( E, ) U -++ Uprimary-key( E, ) 
构成 了 联系 集 的 一 个 超 码 。 

如 果实 体 集 间 主 码 的 属性 名 称 不 是 互 不 相同 的 ， 重 命名 这 些 属 性 以 区 分 它们 ; 实体 集 的 名 字 加 上 
属性 名 可 以 构成 唯一 的 名 称 。 如 果 一 个 实体 集 不 止 一 次 参与 某 个 联系 集 ( 如 7.2.2 节 中 的 prereg KZ), 
则 使 用 角色 名 代替 实体 集 名 构成 唯一 的 属性 名 。 

联系 集 的 主 码 结构 依赖 于 联系 集 的 映射 基数 。 例 如 ， 考 虑 在 7.2.2 TPH LAR instructor 和 
student 以 及 具有 属性 date 的 联系 集 advisor。 假 设 联系 集 是 多 对 多 的 ， ABA advisor 的 主 码 由 instructor 和 
student 的 主 码 的 并 集 组 成 。 如 果 联 系 是 从 student 到 instructor 多 对 一 的 ， 即 每 个 学 生 最 多 只 能 有 一 个 导 
师 ， 则 student 的 主 码 就 是 advisor 的 主 码 。 而 如 果 一 名 教师 只 能 指导 一 名 学 生 ， 即 联系 是 从 instructor 到 
student 多 对 一 的 ， 则 instructor 的 主 码 就 是 advisor 的 主 码 。 对 于 一 对 一 的 联系 ， 两 个 候选 码 中 的 任意 一 
个 可 以 用 作 主 码 。 

对 于 非 二 元 联系 ， 如 果 没 有 基数 的 限制 ， 那 么 在 本 节 开 始 时 描述 的 超 码 就 是 唯一 的 候选 码 ， 并 被 选 
为 主 码 。 如 果 有 基数 的 限制 ， 主 码 的 选择 就 复杂 多 了 。 因 为 我 们 还 没有 讨论 如 何在 非 二 元 关系 中 描述 基 
数 约束 ， 所 以 我 们 在 本 章 中 不 对 此 做 更 多 的 讨论 。 我 们 将 在 7. 5.5 节 和 8.4 节 详 细 地 考虑 这 个 问题 。 


7.4 从 实体 集中 删除 元 余 属 性 


当 我 们 使 用 E-R 模型 设计 数据 库 时 ， 我 们 通常 从 确定 那些 应 当 包含 的 实体 集 开 始 。 例 如 ， 在 我 们 
迄今 所 讨论 的 大 学 机 构 中 ， 我 们 想 要 包含 如 student 和 instructor 等 实体 集 。 当 决定 好 实体 集 后 ， 我 们 必 
须 挑选 适当 的 属性 ， 这 些 属性 要 表示 我 们 在 数据 库 中 所 捕获 的 不 同 的 值 。 在 大 学 机 构 中 ,我 们 为 
instructor 实体 集 设 计 了 包括 ID, name, dept_name 以 及 salary 几 个 属性 ， 我 们 还 可 以 增加 phone_number , 
office_number, home_page 等 属性 。 要 包含 哪些 属性 的 选择 决定 于 了 解 企 业 结 构 的 设计 者 。 

一 旦 选择 好 实体 和 它们 相应 的 属性 ， 不 同 实 体 间 的 联系 集 就 建立 起 来 了 。 这 些 联系 集 有 可 能 会 导 
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致 不 同 实体 集中 的 属性 元 余 ， 并 需要 将 其 从 原始 实体 集中 删除 。 为 了 说 明 这 一 点 ， 考 虑 实体 集 
instructor 和 department ; 
e 实体 集 instructor 包含 属性 ID, name, dept_name 以 及 salary， 其 中 万 构成 主 码 。 
© 实体 集 department 包含 属性 dept_name , building 以 及 budget, FEP dept_name 构成 主 码 。 
272 我 们 用 关联 instructor 和 department 的 联系 集 inst_dept 对 每 个 教师 都 有 一 个 关联 的 系 的 情况 建 模 。 
属性 dept_name 在 两 个 实体 集中 都 出 现 了 。 由 于 它 是 实体 集 department 的 主 码 ， 因 此 它 在 实体 集 
instructor 中 是 宛 余 的 ， 需 要 将 其 移 除 。 
从 实体 集 instructor 中 移 除 属性 dept_name 可 能 不 是 那么 直观 ， 因 为 我 们 在 前 几 章 所 用 到 的 关系 
instructor 中 具有 dept_name 属性 。 我 们 将 在 后 面 看 到 ， 当 我 们 从 E-R 图 构建 一 个 关系 模式 时 ， 只 有 当 每 
个 教师 最 多 只 与 一 个 系 关 联 时 ， 属 性 dept_name 才 会 添加 到 关系 instructor 中 。 如 果 一 个 教师 有 多 个 关联 
的 系 时 ， 教 师 与 系 之 间 的 联系 会 记录 在 一 个 单独 的 关系 inst_dept 中 。 
将 教师 和 系 之 间 的 关联 统一 看 成 联系 ， 而 不 是 instructor 的 一 个 属性 ， 使 得 逻辑 关系 明确 ， 并 有 助 
于 避免 过 早 地 假设 每 个 教师 只 与 一 个 系 关联 。 
类 似 地 ， 实 体 集 student 通过 联系 集 student_dept 与 实体 集 department 关联 ， 因 而 student 中 不 需要 
dept_name 属性 。 
作为 另 一 个 例子 ， 考 虑 开课 (section) 和 开课 的 时 段 。 每 个 时 段 都 由 time_slot_id 标识 ,并且 和 上 课 
时 间 的 集合 相关 联 ， 每 次 上 课时 间 都 由 星期 几 、 开 始 时 间 以 及 结束 时 间 标 识 。 我 们 打算 使 用 多 值 复合 
属性 对 上 课时 间 集 合 建 模 。 假 设 我 们 对 实体 集 section 和 time_slot 按 以 下 方式 建 模 : 
© 实体 集 section 包含 属性 course_id, sec_id, semester, year, building, room_number 以 及 time_slot_ 
id, $A (course_id, sec_id, year, semester) 构成 主 码 。 
。 实体 集 time_slot 包含 主 码 属性 time_slot_id， 以 及 一 个 多 值 复合 属性 | (day, start_time, 
end_time) | S 
这 些 实体 通过 联系 集 sec_time_slot 相互 关联 。 
属性 time_slot_id 在 两 个 实体 集中 均 出 现 。 由 于 它 是 实体 集 time_slot 的 主 码 ， 因 此 它 在 实体 集 
section 中 是 元 余 的， 并 且 需 要 将 其 删除 。 
作为 最 后 的 例子 ,假设 我 们 有 一 个 实体 集 classroom, AE JR VE building, room_number 以 及 capacity , 
EAS building 和 room_number 组 成 。 再 假设 我 们 有 一 个 联系 集 sec_class， 将 section 和 classroom 关联 在 
一 起 。 那 么 属性 | building, room_number | 在 实体 集 section 中 是 元 余 的 。 
一 个 好 的 实体 -联系 设计 不 包含 见 余 的 属性 。 对 于 我 们 的 大 学 的 例子 ,我 们 在 下 面 列 出 实体 集 以 
及 它们 的 属性 ， 主 码 以 下 划 线 标明 。 
e classroom : 包含 属性 ( building、room_number、capacity) 。 
e department : 包含 属性 (dept_marme building, budget) 。 
e course : 包含 属性 (course_id、iitle、credits)。 
e instructor : 4 /RVE( ID, name, salary) 。 
. 











section : 包含 属性 (course_id、sec_id、semester 、year) 。 
student : 包含 属性 (ID、name、tot_cred)。 
time_slot ; 包含 属性 (time_slot_id、| (day, start_time, end_time) | ) s 
我 们 设计 的 联系 集 如 下 。 
o inst_dept: 关联 教师 和 系 。 
e stud_dept: 关联 学 生 和 系 。 
© teaches; 关联 教师 和 开课 。 





名 ”我们 将 在 后 面 看 到 由 实体 集 time_slot 构建 的 关系 的 主 码 包含 day 以 及 start_time, Sil, day 和 start_time 并 不 是 
实体 集 time_slot 的 主 码 一 部 分 。 
© ”我们 可 以 给 包含 day, start_time 以 及 end_time 的 复合 属性 选择 一 个 名 字 ， 例 如 meeting. 
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© takes; 关联 学 生 和 开课 ,包含 描述 性 属性 grade, 

e course_dept: 关联 课程 和 系 。 

e sec_course; 关联 开课 和 课程 。 

e sec_class: 关联 开课 和 教室 。 

e sec_time_slot: 关联 开课 和 时 段 。 

。 advisor : 关联 学 生 和 教师 。 

e prereq: 关联 课程 和 先 修 课程 。 

你 可 以 验证 没有 任何 一 个 实体 集 包含 由 联系 集 而 造成 元 余 的 属性 ; 另外 ， 你 可 以 验证 我 们 此 前 在 
第 2 章 的 图 2-8 中 看 到 的 大 学 数据 库 关系 模式 中 的 所 有 的 信息 (除了 约束 ) 全 部 包含 在 上 述 的 设计 中 ， 
只 是 关系 设计 中 的 几 个 属性 被 E-R 设计 中 的 联系 所 替代 。 


7.5 实体 -联系 图 


1.3.3 节 曾 经 简要 地 介绍 过 ，E-R 图 (E-R diagram ) 可 以 图 形 化 表示 数据 库 的 全 局 逻辑 结构 。E-R 
图 既 简单 又 清晰 ， 这 些 是 致使 E-R 模型 广泛 使 用 的 重要 性 质 。 


7.5.1 基本 结构 
E-R 图 包括 如 下 几 个 主要 构件 : 
© 分 成 两 部 分 的 矩形 代表 实体 集 。 本 书 中 有 阴影 的 第 一 部 分 包含 实体 集 的 名 字 ， 第 二 部 分 包含 实 
体 集 中 所 有 属性 的 名 字 。 


。 葵 形 代表 联系 集 。 

。 未 分 割 的 矩形 代表 联系 集 的 属性 。 构 成 主 码 的 属性 以 下 划 线 标明 。 

。 线段 将 实体 集 连 接 到 联系 集 。 

。 虚线 将 联系 集 属性 连接 到 联系 集 。 

© 双 线 显示 实体 在 联系 集中 的 参与 度 。 

© 双 萎 形 代表 连接 到 弱 实体 集 的 标志 性 联系 集 ( 我 们 将 在 7.5.6 节 讲 述 标 志 性 联系 集 和 弱 实 体 

集 )。 

考虑 图 7-7 中 的 E-R 图 ， 它 由 通过 二 元 联系 集 advisor 关联 的 两 个 实体 集 instructor 和 student 组 成 。 
同 instructor 相关 联 的 属性 为 ID, name 和 salary, |F] student 相关 联 的 属性 为 ID, name 和 tot_cred。 如 
图 7-7 所 示 ， 实 体 集 的 属性 中 那些 组 成 主 码 的 属性 以 下 划 线 标明 。 

如 果 一 个 联系 集 有 关联 的 属性 ， 那 么 我 们 将 这 些 属性 放 和 人 一 个 矩形 中 ,并 且 用 虚线 将 该 矩形 与 代 
表 联 系 集 的 菱形 连接 起 来 。 例 如 ， 在 图 7-8 中 ， 我 们 有 描述 性 属性 date 附带 到 联系 集 advisor 上 ， 表 示 
教师 成 为 导师 的 日 期 。 






student 
ID 


name 
tot_cred 


ID 
name 
salary 










advisor 











图 7-7 对 应 于 教师 和 学 生 的 E-R 图 
instructor student 
ID advisor ID 
name name 
salary tot_cred 








图 7-8 联系 集 上 附带 了 一 个 属性 的 E-R 图 
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7.5.2 映射 基数 
实体 集 instructor 和 student 之 间 的 联系 集 advisor 可 以 是 一 对 一 、 一 对 多 、 多 对 一 或 多 对 多 的 。 为 了 
区 别 这 些 类 型 ， 我 们 在 所 讨论 的 联系 集 和 实体 集 之 间 画 一 个 箭头 (一 ) 或 一 条 线段 (一 ) ， 如 下 所 示 。 
e 一 对 一 : 我 们 从 联系 集 advisor 向 实体 集 instructor 和 student 


instructor student 
各 画 一 个 箭头 ( 见 图 7-9a) 。 这 表示 一 名 教师 可 以 指导 至 多 ID iD 
一 名 学 生 ， 并 且 一 名 学 生 可 以 有 至 多 一 位 导师 。 salan rp 


salary tot_cred 
© 一 对 多 : 我 们 从 联系 集 advisor 画 一 个 箭头 到 实体 集 
instructor， 以 及 一 条 线段 到 实体 集 student( 见 图 7-9b)。 


这 表示 一 名 教师 可 以 指导 多 名 学 生 ， 但 一 名 学 生 可 以 有 irste, seers 
至 多 一 位 导师 。 a 一 一 at 

。 多 对 一 : 我 们 从 联系 集 advisor 画 一 条 线段 到 实体 集 AY EUER 
instructor， 以 及 一 个 箭头 到 实体 集 studem。 这 表示 一 名 教 b) 一 对 多 


师 可 以 指导 至 多 一 名 学 生 ， 但 一 名 学 生 可 以 有 多 位 导师 。 


instruct den 
。 多 对 多 : 我 们 从 联系 集 advisor 向 实体 集 instructor 和 Pp O — 
student 各 夯 一 条 线段 ( 见 图 7-9c) 。 这 表示 一 名 教师 可 | me <a name 


tot_cred 
以 指导 多 名 学 生 ， 并 且 一 名 学 生 可 以 有 多 位 导师 。 jae i 

E-R 图 还 提供 了 一 种 描述 每 个 实体 参与 联系 集中 的 联系 的 次 
数 的 更 复杂 的 约束 的 方法 。 实 体 集 和 二 元 联系 集 之 间 的 一 条 边 H79 联系 
可 以 有 一 个 关联 的 最 大 和 最 小 的 映射 基数 ， 用 1 .的 形式 表示 ， 
其 中 1 表示 最 小 的 映射 基数 ， 而 h 表示 最 大 的 映射 基数 。 最 小 值 为 1 表示 这 个 实体 集 在 该 联系 集中 全 部 
参与 ， 即 实体 集中 的 每 个 实体 在 联系 集中 的 至 少 一 个 联系 中 出 现 。 最 大 值 为 1 表示 这 个 实体 参与 至 多 一 
个 联系 ， 而 最 大 值 为 * 代表 没有 限制 。 

例如 ， 考 虑 图 7-10， 在 advisor 和 student 之 间 的 边 有 1..1 的 基数 约束 ， 意 味 着 基数 的 最 小 值 和 最 
大 值 都 是 1。 也 就 是 ， 每 个 学 生 必 须 有 且 仅 有 一 个 导师 。 从 advisor 到 instructor 边 上 的 约束 0. .* 说 明教 
师 可 以 有 零 个 或 多 个 学 生 。 因 此 ，advisor 联系 是 从 instructor 到 student 的 一 对 多 联系 ， 更 进一步 地 讲 ， 
student 在 advisor 联系 中 的 参与 是 全 部 的 ， 表 示 一 个 学 生 必 须 有 一 个 导师 。 





























































instructor student 
ID ID 
salary tok red 
图 7-10 联系 集 上 的 基数 约束 
很 容易 将 左 侧 边 上 的 0. . * 曲解 为 联系 advisor MA instructor S) [pe | 
student 多 对 一 的 ， 而 这 正好 和 正确 的 解释 相反 。 | 
如 果 两 条 边 都 有 最 大 值 1， 那 么 这 个 联系 是 一 对 一 的 。 如 果 我 们 om ne 
在 左 侧 边 上 标明 基数 约束 1.. * ， 我 们 就 可 以 说 每 名 教师 必须 指导 至 少 ‘middle_initial 
TERE oa 
图 7-10 中 的 E-R 图 的 另 一 种 画 法 是 在 基数 约束 的 位 置 画 一 条 从 eT 
student 到 advisor 的 双 线 ， 以 及 一 个 从 advisor 到 instructor 的 箭头 。 这 种 street name 
夯 法 可 以 强制 实施 同 图 7-10 中 所 示 约 束 完全 一 样 的 约束 。 ppt imber 
图 7-11 说 明了 怎样 在 ER 图 中 表示 复合 属性 。 这 里 一 个 具有 子 {poner 
JETE first_name, middle _initial 和 last_name 的 复合 属性 name 代替 了 | age() 











instructor 的 简单 属性 name。 再 例如 ， 假 定 我 们 给 实体 集 instructor 增加 


图 7-11 包含 复合 、 多 值 和 
一 个 地 址 。 地 址 可 以 定义 为 具有 属性 street、 city, state 和 zip_code 的 


派生 属性 的 上 E-R 图 
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复合 属性 address, JR YE street 本 身 也 是 一 个 复合 属性 ， 其 子 属性 为 street_number、street name 和 
apartment_number , 

在 图 7-11 还 给 出 了 一 个 由 “|phone_number| ”表示 的 多 值 属性 phone_number 和 一 个 由 “| age() |” # 
示 的 派生 属性 age。 
7.5.4 角色 

在 E-R AP, 我们 通过 在 菱形 和 和 矩 形 之 间 的 连 线 上 进行 标注 来 表示 角色 。 图 7-12 给 出 了 course X 
体 集 和 prereq 联系 集 之 间 的 角色 标识 course_id 和 prereq_id. 
course | 
course id 


title 
credits 


course_id 





prereg_id 











图 7-12 包含 角色 标识 的 E-R 图 


7.5.5 非 二 元 的 联系 集 
非 二 元 的 联系 集 也 可 以 在 ER 图 中 简单 地 表示 。 图 7-13 包含 三 个 实体 集 instructor, student 和 [377 
project， 它 们 通过 联系 集 proj_guide 相关 联 。 278 





















“student — 


ID 
name 
tot_cred 


“instructor 
ID 

name 
salary 















图 7-13 包含 三 元 联系 的 E-R 图 


在 非 二 元 的 联系 集中 ， 我 们 可 以 表示 某 些 类 型 的 多 对 一 联系 。 假设 一 个 student 在 每 个 项 目 上 最 多 
只 能 有 一 位 导师 。 这 种 约束 可 用 从 proj_guide 的 边 指向 instructor 的 箭头 来 表示 。 
在 一 个 联系 集 外 我 们 至 多 允许 一 个 箭头 ， 因 为 在 一 个 非 二 元 的 联系 集 外 包含 两 个 或 更 多 箭头 的 下 - 
R 图 可 以 用 两 种 方法 解释 。 假 设 实 体 集 4 A, ，…，4, 之 间 有 联系 集 R， 并 且 只 有 指向 实体 集 A, 
Ana cus A, 的 边 是 箭头 。 那 么 ， 两 种 可 能 的 解释 为 : 
。 RÉA, 4, +, A, 的 实体 的 一 个 特定 组 合 可 以 和 至 多 一 个 来 自 4;,, ，4;,;，…, A, 的 实体 组 
合 相 关联 。 因 而 联系 R 的 主 码 可 以 用 4, ，4,，…，4, 的 主 码 的 并 和 集 来 构造 。 
© 对 每 个 实体 集 4;，i<k<n， 来 自 其 他 实体 集 的 实体 的 每 个 组 合 可 以 和 来 自 A, 的 至 多 一 个 实体 
相关 联 。 于 是 对 于 i<k<n， 每 个 集合 |4, ，4, ，…，A4,_1，4;,1，…，4,| 构 成 一 个 候选 码 。 
这 两 种 解释 在 不 同 的 书 和 系统 中 使 用 。 为 了 避免 混淆 ， 我 们 只 允许 在 一 个 联系 集 外 有 一 个 箭头 ， 
在 这 种 情况 下 这 两 种 解释 是 等 价 的 。 在 第 8 章 中 (8.4 节 ) 我 们 学 习 函 数 依赖 ， 它 允许 以 一 种 不 会 混淆 
的 方式 描述 这 两 种 解释 。 
7.5.6 弱 实 体 集 
考虑 一 个 section 实体 ， 它 由 课程 编号 、 学 期 、 学 年 以 及 开课 编号 唯一 标识 。 显 然 ， 开 课 实体 和 课 
程 实体 相关 联 。 假 定 我 们 在 实体 集 section 和 course 之 间 创 建 了 一 个 联系 集 sec_course。 
现在 ， 发 现 sec_course 中 的 信息 是 匈 余 的 ， 由 于 section 已 有 属性 course_id， 它 标识 该 开课 所 关联 的 
课程 。 消 除 这 种 元 余 的 一 个 方法 是 删除 联系 sec_course; 然而 ， 这 人 么 做 使 得 section 和 course 之 间 的 联系 [279 | 
隐 含 于 一 个 属性 中 ， 这 并 不 是 我 们 想 要 的 。 
消除 这 种 元 余 的 男 一 个 方法 是 在 实体 section 中 不 保存 属性 course id, m RARER F HJR TE sec_id , 
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year 以 及 semester“。 然 而 ， 这 样 的 话 实体 集 section 就 没有 足够 的 属性 唯一 标识 一 个 指定 的 section 实体 ; 
即使 每 个 section 实体 都 是 唯一 的 ， 不 同 课程 的 开课 也 可 能 会 有 相同 的 sec_id、year 以 及 semester。 为 解 
决 这 个 问题 ， 我 们 将 联系 sec_course 视 为 一 个 特殊 的 联系 ， 它 给 唯一 标识 section 实体 提供 额外 信息 ， 即 
course id, 

弱 实 体 集 的 概念 对 上 述 想 法 进行 了 正式 的 规定 。 没 有 足够 的 属性 以 形成 主 码 的 实体 集 称 作 弱 实体 
集 (weak entity set)。 有 主 码 的 实体 集 称 作 强 实体 集 ( strong entity set) 。 

弱 实 体 集 必须 与 男 一 个 称 作 标 识 (identifying) 或 属 主 实体 集 (owner entity set) 的 实体 集 关 联 才 能 有 意 
义 。 每 个 弱 实 体 必须 和 一 个 标识 实体 关联 ; 也 就 是 说 ， 弱 实体 集 存 在 依赖 (existence dependent) 于 标识 
实体 集 。 我 们 称 标识 实体 集 拥有 ( own) 它 所 标识 的 弱 实 体 集 。 将 弱 实 体 集 与 其 标识 实体 集 相 联 的 联系 
称 为 标识 性 联系 (identifying relationship) o 

标识 性 联系 是 从 弱 实 体 集 到 标识 实体 集 多 对 一 的 ， 并 且 弱 实体 集 在 联系 中 的 参与 是 全 部 的 。 标 识 
性 联系 集 不 应 该 有 任何 描述 性 属性 ， 因 为 这 种 属性 中 的 任意 一 个 都 可 以 与 弱 实体 集 相关 联 。 

在 我 们 的 例子 中 ，section 的 标识 实体 集 是 course， 将 section 实体 和 它们 对 应 的 course 实体 关联 在 一 
起 的 sec_course 是 标识 性 联系 。 

虽然 弱 实 体 集 没 有 主 码 ， 但 是 我 们 仍 需 要 区 分 依赖 于 特定 强 实体 集 的 弱 实体 集中 的 实体 的 方法 。 
弱 实 体 集 的 分 辩 符 (discriminator) 是 使 得 我 们 进行 这 种 区 分 的 属性 集合 。 例 如 ， 弱 实体 集 section 的 分 辨 
符 由 属性 sec_id、year 以 及 semester 组 成 ， 因 为 对 每 门 课程 来 说 ， 这 个 属性 集 唯 一 标识 了 这 门 课程 的 一 
次 开课 。 弱 实体 集 的 分 辨 符 也 称 为 该 实体 集 的 部 分 码 。 

弱 实 体 集 的 主 码 由 标识 实体 集 的 主 码 加 上 该 弱 实 体 集 的 分 辩 符 构成 。 在 实体 集 section 的 例子 中 ， 
它 的 主 码 是 | course_id, sec_id, year, semester} ， 其 中 course_id 是 标识 实体 集 course 的 主 码 ，| sec_id, 
year, semester | 区 分 同一 门 课 程 的 不 同 section 实体 。 

注意 ， 我 们 可 以 选择 使 sec_id 对 于 大 学 所 提供 的 所 有 课程 都 不 重复 ， 在 这 种 情况 下 实体 集 section 

将 会 具有 一 个 主 码 。 然 而 ， 一 个 section 的 存在 在 概念 上 仍 依赖 于 一 个 course， 通 过 使 之 成 为 弱 实体 集 可 

以 明确 这 种 依赖 关系 。 

在 E-R 图 中 ， 弱 实体 集 和 强 实体 集 类 似 ， 以 矩形 表示 ， 但 是 有 两 点 主要 的 区 别 : 

© 弱 实体 集 的 分 辩 符 以 虚 下 划 线 标明 ， 而 不 是 实 线 。 

。 关联 弱 实 体 集 和 标识 性 强 实体 集 的 联系 集 以 双 鞭 形 表示 。 

在 图 7-14 H, IEEE section 通过 联系 集 sec_course 依赖 于 强 实 体 集 course, 


course_id 


sec_id 


title semester 


credits 





图 7-14 包含 弱 实 体 集 的 E-R 图 


该 图 还 表明 了 如 何 使 用 双 线 表 明 全 部 参与 ; ( 弱 ) KEE section 在 联系 sec_course 中 的 参与 是 全 部 
的 ， 表 示 每 次 开课 都 必须 通过 sec_course 同 某 门 课程 关联 。 最 后 ， 从 sec_course 指向 course 的 箭头 表示 每 
次 开课 与 单 门 课程 相关 联 。 

弱 实 体 集 可 以 参与 标识 性 联系 以 外 的 其 他 联系 。 例 如 ，section 实体 可 以 和 time_slot 实体 集 参 与 一 
个 联系 ， 以 标识 开课 的 时 间 。 弱 实体 集 可 以 作为 属 主 与 另 一 个 弱 实 体 集 参与 一 个 标识 性 联系 。 一 个 弱 
实体 集 也 可 能 与 不 止 一 个 标识 实体 集 关联 。 这 样 ， 一 个 特定 的 弱 实体 将 被 一 个 实体 的 组 合 标 识 ， 其 中 
每 个 标识 实体 集 有 一 个 实体 在 该 组 合 中 。 弱 实体 集 的 主 码 可 以 由 标识 实体 集 的 主 码 的 并 集 加 上 弱 实 体 
集 的 分 辩 符 组 成 。 

在 某 些 情况 下 ， 数据库 设计 者 会 选择 将 一 个 弱 实 体 集 表示 为 属 主 实体 集 的 一 个 多 值 复合 属性 。 在 





晶 ” 注 意 ， 即 使 我 们 从 实体 集 section 中 去 掉 了 course_id 属性 ， 但 因为 后 面 会 看 清楚 的 一 些 原因 ， 我 们 最 终 从 实体 集 
section 构建 的 关系 模式 还 是 具有 course_id 属性 的 。 
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我 们 的 例子 中 ， 这 种 方法 需要 实体 集 course 具有 一 个 多 值 复合 属性 section。 如 果 弱 实体 集 只 参与 标识 性 
联系 ,而 且 其 属性 不 多 ， 那 么 在 建 模 时 将 其 表示 为 一 个 属性 更 恰当 。 相 反 地 ， 如 果 弱 实体 集 参与 到 标 
识 性 联系 以 外 的 联系 中 ,或 者 其 属性 较 多 ， 则 建 模 时 将 其 表示 为 弱 实 体 集 更 恰当 。 很 明显 ，section 不 
符合 建 模 成 多 值 复合 属性 的 要 求 ， 而 将 其 建 模 为 弱 实 体 集 更 恰当 。 
7.5.7 大 学 的 E-R 

图 7-15 展示 了 本 书馆 今 所 使 用 的 大 学 所 对 应 的 E-R 图 。 除 了 增加 了 若干 约束 ， 以 及 section 为 弱 实 
体 以 外 ,该 E-R 图 与 我 们 在 7. 4 节 中 看 到 的 大 学 E-R 模型 的 文字 性 描述 等 价 。 

在 我 们 的 大 学 数据 库 中 ， 我 们 限制 每 名 教师 必须 有 且 仅 有 一 个 相关 联 的 系 。 因 此 ， 如 图 7-15 所 
示 ， 在 instructor 和 inst_dept 之 间 有 一 条 双 线 ， 表 示 instructor 在 inst_dept 中 全 部 参与 ; 即 每 名 教师 必须 
和 一 个 系 相关 联 。 另 外 ， 存 在 一 个 从 inst_dept 到 department 的 箭头 ， 表 示 每 个 教师 可 以 有 至 多 一 个 相关 
联 的 系 。 

类 似 地 ， 实 体 集 course 和 student 分 别 与 联系 集 course_dept 和 stud_dept 用 双 线 连接 ， 实 体 集 section 
和 联系 集 sec_time_slot 亦 如 此 。 前 面 的 两 个 联系 分 别 通过 箭头 指向 另 一 个 联系 depariment， 而 第 三 个 联 
系 通过 箭头 指向 time_slot , 

此 外 ， 图 7-15 显示 联系 集 takes 具有 一 个 描述 性 属性 grade， 以 及 每 个 学 生 有 至 多 一 位 导师 。 该 图 
还 表明 目前 section 是 一 个 弱 实 体 集 ， 由 属性 sec_id、semester 以 及 year 组 成 分 辩 符 ; sec_course 是 连接 弱 
实体 集 section 和 强 实体 集 course 的 标识 性 联系 集 。 

7.6 节 将 介绍 E-R 图 能 够 如 何 用 于 转换 为 我 们 使 用 的 各 个 关系 模式 。 

















7.6 转换 为 关系 模式 


我 们 可 以 将 一 个 符合 E-R 数据 库 模 式 的 数据 库 表 示 为 一 些 关 系 模式 的 集合 。 在 数据 库 设计 中 ， 对 
于 每 个 实体 集 以 及 对 于 每 个 联系 集 ， 都 有 唯一 的 关系 模式 与 之 对 应 ， 关 系 模式 名 即 为 相应 的 实体 集 或 
联系 集 的 名 称 。 

E-R 模型 和 关系 数据 库 模型 都 是 现实 世界 企业 抽象 的 逻辑 表示 。 由 于 两 种 模型 采用 类 似 的 设计 原 
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则 ， 因 此 我 们 可 以 将 E-R 设计 转换 为 关系 设计 。 

这 一 节 描 述 如 何 用 关系 模式 来 表示 E-R 模式 ， 以 及 如 何 将 E-R 设计 中 提出 的 约束 映射 到 关系 模式 
上 的 约束 。 
7.6.1 具有 简单 属性 的 强 实体 集 的 表示 

设 E 是 只 具有 简单 描述 性 属性 a, ，a,，…，a, 的 强 实体 集 。 我 们 用 具有 个 不 同属 性 的 模式 巨 来 
表示 这 个 实体 集 。 该 模式 的 关系 中 的 每 个 元 组 同 实体 集 的 一 个 实体 相对 应 。 

对 于 从 强 实体 集 转换 而 来 的 模式 ， 强 实体 集 的 主 码 就 是 生成 的 模式 的 主 码 。 这 个 结论 是 从 每 个 元 
组 都 对 应 于 实体 集中 的 一 个 特定 实体 这 个 事实 直接 得 到 的 。 

例如 ， 考 虑 图 7-15 中 E-R 图 的 实体 集 student。 该 实体 集 有 三 个 属性 : ID, name 和 tot_cred。 我 们 
用 名 为 student 的 模式 来 表示 这 个 实体 集 ， 它 有 三 个 属性 : 


student(ID, name, tot_cred) 


注意 ， 由 于 学 生 1D 是 实体 集 的 主 码 ， 因 此 它 也 是 该 关系 模式 的 主 码 。 
282 继续 我 们 的 例子 ， 对 于 图 7-15 中 的 E-R 图 ， 除 time_slot 以 外 的 所 有 的 强 实体 集 只 有 简单 属性 ， 从 
243 | 这 些 强 实体 集 转换 而 来 的 模式 为 : 


classroom( building, room_number, capacity) 
department ( dept_name, building, budget) 
course( course_id, title, credits) 








instructor(ID, name, salary) 
student( ID, name, tot_cred) 


如 你 所 见 ， 模 式 instructor 和 student 与 前 面 章 节 中 用 到 的 模式 不 同 ( 它 们 不 包含 属性 dept_name)。 后 面 
很 快 还 会 讨论 这 个 问题 。 
7. 6.2 具有 复杂 属性 的 强 实 体 集 的 表示 

当 一 个 强 实体 集 具 有 非 简单 属性 时 ， 事 情 更 加 复杂 一 点 。 我 们 通过 为 每 个 子 属 性 创建 一 个 单独 的 
属性 来 处 理 复 合 属性 ; 我 们 并 不 为 复合 属性 自身 创建 一 个 单独 的 属性 。 例 如 ， 考 虑 图 7-11 中 表示 的 
instructor 实体 集 。 对 于 复合 属性 name, H instructor 生成 的 模式 包括 属性 first_name, middle_initial 和 
last_name; 没有 单独 的 属性 或 模式 表示 name。 类 似 地 ， 对 于 复合 属性 address， 产 生 的 模式 包括 属性 
street, city, state 以 及 zip_code。 由 于 street 是 一 个 复合 属性 ， 因 此 它 被 替换 成 street_number、street_name 
以 及 apt_number, 8.2 节 将 再 次 讨论 这 个 问题 。 

多 值 属性 的 处 理 不 同 于 其 他 属性 。 我 们 已 经 看 到 ，E-R 图 中 的 属性 通常 都 可 以 直接 映射 到 相应 关 
系 模式 的 属性 上 。 但 是 ， 多 值 属性 是 个 例外 ; 如 我 们 将 看 到 的 ， 为 了 这 些 属性 ， 创 建新 的 关系 模式 。 

派生 的 属性 并 不 在 关系 数据 模型 中 显 式 地 表示 出 来 。 然 而 ， 它 们 可 以 在 例如 对 象 -关系 数据 模型 
的 其 他 数据 模型 中 表示 为 “方法 ”， 第 22 章 将 对 此 进行 讲述 。 

从 具有 复杂 属性 的 实体 集 instructor 转换 而 来 ， 且 不 包含 多 值 属性 的 关系 模式 为 : 


instructor(ID, first_name, middle_initial, last_name, 
street_number, street_name, apt_number , 
city, state, zip_code, date_of_birth) 


对 于 一 个 多 值 属性 MM， 构 建 关系 模式 R， 该 模式 包含 一 个 对 应 于 M 的 属性 4， 以 及 对 应 于 M 所 在 
的 实体 集 或 联系 集 的 主 码 的 属性 。 

例如 ， 考 虑 图 7-11 中 的 E-R 图 ， 它 描绘 了 包含 多 值 属性 phone_number 的 实体 集 instructor, instructor 
的 主 码 是 DD。 为 这 个 多 值 属性 构建 一 个 关系 模式 : 


284 instructor_phone( ID, phone_number) 


教师 的 每 个 电话 号 码 都 表示 为 该 模式 上 的 关系 中 的 唯一 一 个 元 组 。 因 此 ， 如 果 有 一 个 ID 4 22222 HA 
师 ， 电 话 号 码 为 555 - 1234 和 555 - 4321 ， 关 系 instructor_phone 将 有 两 条 元 组 (22222，555 - 1234) 和 
(22222, 555 - 4321) 。 

创建 关系 模式 的 主 码 ， 它 由 模式 中 的 所 有 属性 组 成 。 在 上 面 的 例子 中 ， 主 码 由 关系 instructor_phone 
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的 两 个 属性 一 起 组 成 。 

另外 ， 在 多 值 属性 构建 的 关系 模式 上 建立 外 码 约束 ， 由 实体 集 的 主 码 所 生成 的 属性 去 参照 实体 集 
所 生成 的 关系 。 在 上 面 的 例子 中 ，instructor_phone 关系 上 的 外 码 约束 是 属性 ID 参照 instructor 关系 。 

在 一 个 实体 集 只 有 两 个 属性 的 情况 下 一 一 一 个 主 码 B 以 及 一 个 多 值 属性 MM 一 一 该 实体 集 的 关系 模 
式 只 包含 一 个 属性 ， 即 主 码 属性 B。 可 以 删 掉 这 个 关系 ， 同 时 保留 具有 属性 B 和 对 应 M 的 属性 4 的 关 
系 模式 。 

例如 ， 考 虑 图 7-15 中 描绘 的 实体 集 time_slot， 其 中 time_slot_id 是 实体 集 time_slot 的 主 码 ， 有 一 个 
多 值 属性 ， 而 且 恰 好 是 复合 的 。 这 个 实体 集 可 以 就 按照 以 下 从 多 值 复 合 属性 生成 的 模式 表示 : 

time_slot(time_slot_id, day, start_time, end_time) 

虽然 没有 在 E-R 图 中 表示 为 约束 ， 但 是 我 们 知道 不 存在 一 个 班 的 两 次 课 在 一 周 中 的 同一 天 的 同一 时 间 
开始 却 在 不 同时 间 结 束 。 基 于 这 个 约束 ，end_time 已 从 模式 time_slot 的 主 码 中 去 除了 。 

从 实体 集 生成 的 关系 将 只 有 一 个 属性 time_slot_id， 去 掉 此 关系 的 优化 有 助 于 简化 生成 的 数据 库 模 
式 ， 即 使 它 有 一 个 与 外 码 相 关 的 缺点 ，7. 6. 4 节 将 对 此 简要 讨论 。 
7.6.3 弱 实 体 集 的 表示 

设 4 是 具有 属性 a, ，a,，…，a 的 弱 实体 集 ， 设 中 是 4 所 依赖 的 强 实体 集 ， 设 B 的 主 码 包括 属性 
6b, ，b,，……，b,。 我 们 用 名 为 4 的 关系 模式 表示 实体 集 4， 该 模式 的 每 个 属性 对 应 以 下 集合 中 的 一 个 
成 员 : 











{a,, ay, “"", a, }U{6,, bs a b,, | 


对 于 从 弱 实 体 集 转换 而 来 的 模式 ， 该 模式 的 主 码 由 其 所 依赖 的 强 实体 集 的 主 码 与 弱 实 体 集 的 分 辩 
符 组 合 而 成 。 除 了 创建 主 码 之 外 ， 还 要 在 关系 4 上 建立 外 码 约 束 ， 该 约束 指明 属性 b, b, o, b, 参 
照 关系 B 的 主 码 。 外 码 约 束 保证 表示 弱 实 体 的 每 个 元 组 都 有 一 个 表示 相应 强 实体 的 元 组 与 之 对 应 。 

以 图 7-15 所 示 E-R 图 中 的 弱 实 体 集 section 为 例 说 明 。 该 实体 集 有 属性 : sec_id、semester 和 year. 
section 实体 集 所 依赖 的 实体 集 course 的 主 码 是 course_id。 因 此 ， 用 来 表示 section 的 模式 具有 下 面 的 
属性 : 

section( course_id, sec_id, semester, year) 
该 主 码 由 实体 集 course 的 主 码 和 section 的 分 辩 符 ( 即 sec_id, semester 以 及 year) 组成。 我 们 还 在 模式 
section 上 建立 了 一 个 属性 course_id 参照 course 模式 的 主 码 的 外 码 约 束 ， 以 及 完整 性 约束 “级 联 删 除 ”°。 
由 于 外 码 约束 上 的 “级 联 删除 ”规范 ， 如 果 一 个 course 实体 被 和 删除， 那么 所 有 与 它 相 关联 的 section 实体 
也 被 删除 。 
7.6.4 联系 集 的 表示 

设 尺 是 联系 集 ， 设 c ，a,，…，a。 表示 所 有 参与 R 的 实体 集 的 主 码 的 并 集 构成 的 属性 集合 ,， 设 R 
的 描述 性 属性 (如 果 有 ) 为 b, ，b,，…，b,。 我 们 用 名 为 RR 的 关系 模式 表示 该 联系 集 ， 下 面 集合 中 的 每 
一 项 表示 为 模式 的 一 个 属性 : 
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7. 3.3 节 介 绍 过 如 何 为 一 个 二 元 联系 集 选 择 主 码 。 如 在 该 节 中 我 们 所 看 到 的 ， 从 所 有 相关 实体 集 
中 取 所 有 主 码 属性 能 够 用 来 标识 一 个 指定 元 组 ， 但 是 对 于 一 对 一 、 多 对 一 和 一 对 多 联系 集 ， 这 会 得 到 
一 个 比 我 们 所 需要 的 主 码 大 的 属性 集合 。 因 而 如 下 选择 主 码 : 

。 对 于 多 对 多 的 二 元 联系 ， 参 与 实体 集 的 主 码 属性 的 并 集成 为 主 码 。 

。 对 于 一 对 一 的 二 元 联系 集 ， 任 何 一 个 实体 集 的 主 码 都 可 以 选 作 主 码 。 这 个 选择 是 任意 的 。 

© 对 于 多 对 一 或 一 对 多 的 二 元 联系 集 ， 联 系 集中 “多 ”的 那 一 方 的 实体 集 的 主 码 构 成 主 码 。 





O 4.4.5 节 介绍 了 SQL 中 外 码 约束 的 "级 联 删除 " 性质。 
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e 对 于 边 上 没有 箭头 的 nn 元 联系 集 ， 所 有 参与 实体 集 的 主 码 属 性 的 并 集成 为 主 码 。 
。 对 于 边 上 有 一 个 箭头 的 元 联系 集 ， 不 在 “箭头 ” 侧 的 实体 集 的 主 码 属性 为 模式 的 主 码 。 回 想 一 
下 ， 一 个 联系 集 外 只 允许 一 个 箭头 。 

我 们 还 在 关系 模式 R 上 建立 外 码 约 束 ， 如 下 : 对 于 每 个 与 联系 集 R 相关 的 实体 集 及， 我 们 建立 一 
个 关系 模式 R 上 的 外 码 约 束 ，R 中 来 自主 码 属性 的 那些 属性 参照 表示 关系 模式 E 的 主 码 。 

以 图 7-15 中 E-R 图 的 联系 集 advisor 为 例 说 明 。 此 联系 集 涉 及 如 下 两 个 实体 集 : 

è instructor， 主 人 码 为 ID, 

© student， 主 码 为 ID。 

由 于 该 联系 集 没有 属性 ， 因 此 advisor 模式 有 两 个 属性 ，instructor 和 student 的 主 码 。 由 于 这 两 个 属 
性 具有 相同 的 名 字 ， 因 此 将 它们 重 命名 为 i_ID 和 s_ID。 因 为 advisor 联系 集 是 从 student 到 instructor 多 对 
一 的 ， 所 以 关系 模式 advisor 的 主 码 是 s_ID。 

我 们 还 在 关系 advisor 上 建立 了 两 个 外 码 约 束 ， 属 性 i_ID BFR instructor 的 主 码 ， 属 性 s_ 7 万 参照 
student 的 主 码 。 

继续 我 们 的 例子 ， 对 于 图 7-15 的 E-R 图 ， 从 联系 集 派生 的 模式 如 图 7-16 所 示 。 

观察 到 对 于 联系 集 prereg， 与 联系 相关 联 的 角色 标识 用 作 属 性 的 名 字 ， 这 是 因为 两 个 角色 都 参照 同 
一 个 关系 course。 

与 advisor 的 情况 类 似 ，sec_course、sec_time_slot secVclass, inst_dept, stud_dept 以 及 course_dept 每 个 
关系 的 主 码 仅 由 两 个 相关 联 的 实体 集中 的 一 个 实体 集 的 主 码 构成 ， 因 为 每 个 对 应 的 联系 都 是 多 对 一 的 。 

7-16 中 并 没有 表示 出 外 码 ， 但 是 对 于 
该 图 中 的 每 一 个 关系 都 有 两 个 外 码 约束 ， 参 照 
相关 的 两 个 实体 集 所 构建 出 的 两 个 关系 。 例 
til, sec_course 有 参照 section 和 classroom 的 外 
#3, teaches A B&H instructor 和 section 的 外 码 ， 
以 及 takes 有 参照 student 和 section 的 外 码 。 

这 个 优化 允许 对 包含 多 值 属性 的 实体 集 
time_slot 只 建立 一 个 关系 模式 ， 而 避免 从 关系 
模式 sec_time_slot 到 由 实体 集 time_slot 生成 的 图 7-16 由 图 7-15 中 了 -R 图 的 联系 集 派生 出 的 模式 
关系 的 外 码 的 建立 ， 因 为 我 们 舍弃 了 由 实体 集 
time_slot 生成 的 关系 。 我 们 保留 了 从 多 值 属性 生成 的 名 为 time_slot 的 关系 ， 但 这 个 关系 可 能 没有 元 组 与 
FE time_slot_id 相关 联 ， 或 者 有 多 条 元 组 与 某 个 time_slot_id 相关 联 ， 因 而 sec_time 中 的 time_slot_id 不 
能 参照 这 个 关系 。 

精明 的 读者 可 能 会 想 ， 为 什么 我 们 在 此 前 的 章节 中 没有 见 过 模式 sec_course、sec_time_slot、sec_ 
class, inst_dept, stud_dept 以 及 course_dept。 原 因 是 我 们 迄今 所 提出 的 算法 使 得 一 些 模式 或 者 被 消除 ， 
或 者 和 其 他 模式 合并 。 我 们 接 下 来 讨论 这 个 问题 。 

7.6.4.1 模式 的 宛 余 

连接 弱 实 体 集 和 相应 强 实 体 集 的 联系 集 比 较 特 殊 。 如 7. 5. 6 节 提 到 的 ， 这 样 的 联系 集 是 多 对 一 的 ， 
且 没有 描述 性 属性 。 另 外 ， 弱 实体 集 的 主 码 包含 强 实体 集 的 主 码 。 在 图 7-14 HERA, SKE 
section 通过 联系 集 sec _course 依赖 于 强 实 体 集 course, section 的 主 码 是 | course_id, sec_id, semester, 
year} , course 的 主 码 是 course_id。 由 于 sec_course 没有 描述 性 属性 ， 因 此 sec_course 模式 有 属性 course_id 、 
sec_id, semester 以 及 year。 表 示 实 体 集 section 的 模式 包含 属性 course_id, sec_id, semester 以 及 year 等 。 
sec_course 关系 中 的 每 个 (course_id，sec_id，semester，year) 组 合 也 将 出 现在 section 模式 上 的 关系 中 ， 反 
之 亦 然 。 因 此 ，sec_course 模式 是 元 余 的 。 

一 般 情况 下 ， 连 接 弱 实 体 集 与 其 所 依赖 的 强 实体 集 的 联系 集 的 模式 是 元 余 的， 而 且 在 基于 E-R 图 
的 关系 数据 库 设 计 中 不 必 给 出 。 





teaches (ID, course id, sec_id, semester, year) 

takes (ID, course_id, sec.id, semester, year, grade) 

prereg (course id, prereq_id) == 

advisor (s_ID, i ID) 

sec_course (course_id, sec_id, semester, year) 

sec time slot (course_id, sec id, semester, year, time.slot id) 

sec class (course_id, sec_id, semester, year, building, roon_number) 
inst_dept (ID, dept_name) 

stud_dept (ID, dept_name) 

course dept (course_id, dept_name) 
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7.6.4.2 模式 的 合并 

考虑 从 实体 集 4 到 实体 集 B 的 一 个 多 对 一 的 联系 集 4B。 用 前 面 讲 的 关系 -模式 构建 算法 ,得 到 三 
MEX: 4、B 和 4B。 进 一 步 假设 4 在 该 联系 中 的 参与 是 全 部 的 ; 即 实体 集 4 中 的 每 个 实体 a 都 必须 
参与 到 联系 48 中 。 那 么 我 们 可 以 将 4 和 48B 模式 合并 成 单个 包含 两 个 模式 所 有 属性 的 并 集 的 模式 。 合 
并 后 模式 的 主 码 是 其 模式 中 融 人 了 联系 集 模式 的 那个 实体 集 的 主 码 。 

让 我 们 检验 图 7-15 的 E-R 图 中 满足 上 述 条 件 的 关系 以 讲解 : 

© inst_dept。 模 式 instructor 和 department 分 别 对 应 于 实体 集 A 和 B。 因 此 模式 inst_dept 可 以 和 模式 

instructor 合并 。 结 果 是 instructor 模式 由 属性 | ID, name, dept_name, salary} 组 成 。 

© stud_dept, Ax student 和 department 分 别 对 应 于 实体 集 4 和 B。 因 此 模式 stud_dept 可 以 和 模式 

student 合并 。 结 果 是 student 模式 由 属性 | J，name，dept_name，tot_cred| 组 成 。 

© course_dept。 模 式 course 和 department 分 别 对 应 于 实体 集 4 和 B8。 因 此 模式 course_dept 可 以 和 模 
A course 合并 。 结 果 是 course 模式 由 属性 | course_id, title, dept_name, credits} 组 成 。 
sec_class。 模 式 section 和 classroom 分 别 对 应 于 实体 集 4 和 B。 因 此 模式 sec_class 可 以 和 模式 
section 合并 。 结 果 是 section 模式 由 属性 | course_id, sec_id, semester, year, building, room_ 
number| 组 成 。 
sec_time_slot。 模 式 section 和 time_slot 分 别 对 应 于 实体 集 4 和 B。 因 此 模式 sec_time_slot 可 以 和 上 
一 步 中 得 到 的 模式 section 合并 。 结 果 是 section 模式 由 属性 | course_id, sec_id, semester, year, 
building, room_number, time_slot_id} 组 成 。 

在 一 对 一 的 联系 的 情况 下 ， 联 系 集 的 关系 模式 可 以 跟 参 与 联系 的 任何 一 个 实体 集 的 模式 进行 合并 。 

即使 参与 是 部 分 的 ， 我 们 也 可 以 通过 使 用 空 值 来 进行 模式 的 合并 。 在 上 面 这 个 例子 中 ， 如 果 inst 
dept 是 部 分 参与 的 ， 那 么 我 们 可 以 为 那些 没有 相关 联 的 系 的 教师 在 属性 dept_name 中 存放 空 值 。 

最 后 ， 我 们 考虑 表示 联系 集 的 模式 上 本 应 有 的 外 码 约 束 。 参 照 每 一 个 参与 联系 集 的 实体 集 的 外 码 
约束 本 应 存在 。 我 们 舍弃 了 参照 联系 集 模 式 所 合并 和 人 的 实体 集 模 式 的 约束 ， 然 后 将 另 一 个 外 码 约束 加 
到 合并 的 模式 中 。 在 上 面 的 例子 中 ，insi_dept 上 有 一 个 dept_name 属性 参照 depariment 关系 的 外 码 约束 ， 
当 模 式 inst_dept 与 instructor 合并 时 ， 这 个 外 码 约束 被 加 到 instructor 关系 中 。 

7.7 ”实体 -联系 设计 问题 

实体 集 和 联系 集 的 标记 法 并 不 精确 ， 而 且 定 义 一 组 实体 及 它们 的 相互 联系 可 能 有 多 种 不 同 的 方式 。 
本 节 讨 论 E-R 数据 库 模 式 设 计 中 的 一 些 基 本 问题 。 设 计 过 程 将 在 7. 10 节 更 详细 地 讨论 。 

7.7.1 用 实体 集 还 是 用 属性 

考虑 具有 新 增 属性 phone_number 的 实体 集 instructor( 见 图 7-17a) 。 显 然 电 话 可 以 作为 一 个 单独 的 实 
体 ， 具 有 属性 phone_number 和 location; 地 点 可 以 是 电话 所 处 于 的 办 公 室 或 家 ， 移 动 电话 则 可 以 用 值 
“移动 "来 表示 。 如 果 我 们 采用 这 样 的 观点 ， 那 么 我 们 就 不 给 instructor 增加 属性 phone_number， 反 之 ， 
我 们 创建 : 

e 实体 集 phone， 具 有 属性 phone_number 和 location. 

© 联系 集 inst_phone， 表 示 教 师 与 他 们 所 拥有 的 电话 之 间 的 关联 。 

这 种 方法 如 图 7-17b 所 示 。 


phone_number 


location 





图 7-17 #& instructor 实体 集 增加 phone 的 两 种 方法 
那么 ,教师 的 这 两 个 定义 之 间 的 主要 差别 是 什么 呢 ? 将 电话 看 成 一 个 属性 phone_number 上 暗示 每 个 
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教师 恰好 有 一 个 电话 号 码 与 之 相关 联 。 将 电话 看 成 一 个 实体 phone， 允 许 每 个 教师 可 以 有 若干 个 电话 号 
码 (包括 零 个 ) 与 之 相关 联 。 然 而 ， 也 可 以 简单 地 将 phone_number 定义 为 多 值 属性 ， 从 而 允许 每 个 教师 
有 多 个 电话 。 

那么 ， 主 要 的 差别 是 ,在 一 个 人 可 能 希望 保存 关于 电话 的 额外 信息 ， 如 它 的 位 置 ， 或 类 型 (移动 
的 、 视 频 的 或 普通 的 老式 电话 ) ， 或 共享 该 电话 的 所 有 的 人 时 ， 将 电话 看 作 一 个 实体 是 一 种 更 好 的 建 模 
方式 。 因 此 ， 把 电话 视 为 一 个 实体 比 把 它 视 为 一 个 属性 的 方式 更 具 通 用 性 ; 而 且 当 通用 性 可 能 有 用 的 
时 候 ， 这 种 定义 方式 就 更 为 适合 了 。 

相反 ， 将 (一 名 教师 的 ) name 属性 视 作 一 个 实体 就 不 太 合适 ; 将 name 说 成 是 一 个 实体 本 身 就 很 不 

具有 说 服 力 (与 电话 相反 )。 因 此 ， 恰当 的 做 法 是 将 name 视 作 instructor 实体 集 的 一 个 属性 。 

由 此 自然 就 产生 两 个 问题 : 什么 构成 属性 ? 什么 构成 实体 集 ? 很 遗憾 ， 对 这 两 个 问题 并 不 能 简单 
地 回答 。 区 分 它们 主要 依赖 于 被 建 模 的 现实 世界 的 企业 的 结构 ， 以 及 被 讨论 的 属性 的 相关 语义 。 

一 个 常见 的 错误 是 用 一 个 实体 集 的 主 码 作为 另 一 个 实体 集 的 属性 ， 而 不 是 用 联系 。 例 如 ， 即 使 每 
名 教师 只 指导 一 名 学 生 ， 将 student 的 ID (EX instructor 的 属性 也 是 不 正确 的 。 用 advisor 联系 代表 学 生 
和 教师 之 间 的 关联 才 是 正确 的 方法 ， 因 为 这 样 可 以 明确 地 表示 出 两 者 之 间 的 关系 而 不 是 将 这 种 关系 隐 
含 在 属性 中 。 

人 们 常 犯 的 与 此 相关 的 另 一 个 错误 是 将 相关 实体 集 的 主 码 属性 作为 联系 集 的 属性 。 例 如 ，1D 
(student 的 主 码 属性 ) 和 ID( instructor 的 主 码 ) 不 应 该 在 advisor 联系 中 作为 属性 出 现 。 这 样 做 是 不 对 的 ， 
因为 在 联系 集中 已 经 隐 含 了 这 些 主 码 属性 。 

7.7.2 用 实体 集 还 是 用 联系 集 

一 个 对 象 最 好 被 表述 为 实体 集 还 是 联系 集 并 不 总 是 显而易见 的 。 如 图 7-15 所 示 ， 我 们 用 takes 联 
系 集 对 学 生 选 择 课程 (的 某 一 次 开课 ) 建 模 。 另 一 种 方法 是 想像 对 于 每 个 学 生 选 的 每 门 课程 有 一 个 课程 
-注册 记录 。 那 么 ， 我 们 用 一 个 叫 作 registration 的 实体 集 代 表 课 程 - 注册 记录 。 每 个 registration 实体 恰 
好 与 一 个 学 生 和 一 次 开课 相关 联 ， 因 此 我 们 有 两 个 联系 集 ， 一 个 将 课程 - 注册 记录 和 学 生 关联 ， 另 一 
个 将 课程 - 注册 记录 和 课程 关联 。 如 图 7-18 所 示 ， 我 们 将 图 7-15 中 section 和 student 实体 集 之 间 的 
takes 联系 集 用 一 个 实体 集 和 两 个 联系 集 替代 : 

© registration, {CARE - 注册 记录 的 实体 集 。 

e section_reg, XHK registration 和 course 的 联系 集 。 

© student_reg， 关 联 registration 和 student 的 联系 集 。 

291 注意 ， 我 们 使 用 双 线 表示 registration 实体 全 部 参与 。 


< 人 > 


图 7-18 用 registration 和 两 个 联系 集 替 代 takes 


图 7-15 和 图 7-18 的 方法 都 准确 表达 了 大 学 的 信息 ， 但 是 使 用 takes 的 方法 更 紧凑 也 更 可 取 。 然 而 ， 
如 果 注 册 办 公 室 通过 课程 -注册 记录 与 其 他 信息 相关 联 ， 那 么 最 好 让 它 本 身 为 一 个 实体 。 

在 决定 用 实体 集 还 是 联系 集 时 可 采用 的 一 个 原则 是 ， 当 描述 发 生 在 实体 间 的 行为 时 采用 联系 集 。 
这 一 方法 在 决定 是 否 将 某 些 属性 表示 为 联系 可 能 更 适合 时 也 很 有 用 。 









O ”我 们 以 后 会 看 到 ， 当 从 E-R 模式 中 创建 关系 模式 时 ， 这 些 属性 可 能 会 出 现在 从 advisor 联系 集 创 建 出 的 模式 中 ， 
但 是 ， 它 们 并 不 应 该 出 现在 advisor 联系 集中 。 
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7.7.3 二 元 还 是 nn 元 联系 集 

数据 库 中 的 联系 通常 都 是 二 元 的 。 一 些 看 来 非 二 元 的 联系 实际 上 可 以 用 多 个 二 元 联系 更 好 地 表示 。 
例如 ， 可 以 创建 一 个 三 元 联系 parent， 将 一 个 孩子 与 他 /她 的 母亲 和 父亲 相关 联 。 然 而 ， 这 一 联系 也 可 
以 用 两 个 二 元 联系 分 别 来 表示 ， 即 mother 和 father， 分别 将 孩子 与 他 /她 的 母亲 和 父亲 相关 联 。 使 用 
mother 和 father 两 个 联系 使 我 们 可 以 记录 孩子 的 母亲 ， 即 使 我 们 不 知道 父亲 是 谁 ， 而 对 于 这 种 情况 三 元 
联系 parent 中 必须 有 一 个 空 值 。 所 以 在 这 个 例子 中 用 二 元 联系 更 好 。 

事实 上 , 一 个 非 二 元 的 (n 元 , n >2) 联 系 集 总 可 以 用 一 组 不 同 的 二 元 联系 集 来 替代 。 简 单 起 见 ， 
考虑 一 个 抽象 的 三 元 (n =3) 联 系 集 有 ， 它 将 实体 集 4、B 和 C 联系 起 来 。 用 实体 集 瑟 替代 联系 集 尺 ， 并 
创建 三 个 联系 集 ， 如 图 7-19 所 示 : 

e R,, XKE FIA, 

© R,, RE E AB, 
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a) b) 
图 7-19 三 元 联系 与 三 个 二 元 联系 


如 果 联 系 集 尺 有 属性 ， 那 么 将 这 些 属性 赋 给 实体 集 五 ; 进一步 ， 为 创建 一 个 特殊 的 标识 属性 ( 因 
为 它 必须 能 够 通过 其 属性 值 来 区 别 实体 集中 的 各 个 实体 )。 针 对 联系 集 R 中 的 每 个 联系 (a;，b,，c)， 
在 实体 集 E 中 创建 一 个 新 的 实体 e;,。 然 后 ， 在 三 个 新 联系 集中 ,分 别 插入 新 联系 如 下 : 
。 ÆR, PHA (e, a;)。 
。 ER, PHRA(e;, bi)o 
。 TER, PIRA (Ce, c;)。 
可 以 将 这 一 过 程 直接 推广 到 元 联系 集 的 情况 。 因 此 ， 在 概念 上 可 以 限制 E-R 模型 只 包含 二 元 联 
系 集 。 然 而 ， 这 种 限制 并 不 总 是 令 人 满意 的 。 
© 对 于 为 表示 联系 集 而 创建 的 实体 集 ， 我 们 可 能 不 得 不 为 其 创建 一 个 标识 属性 。 该 标识 属性 和 额 
外 所 需 的 那些 联系 集 增 加 了 设计 的 复杂 程度 以 及 对 总 的 存储 空间 的 需求 (我 们 将 在 7.6 节 看 到 
这 一 点 ji 
。 nn 元 联系 集 可 以 更 清晰 地 表示 几 个 实体 集 参 与 单个 联系 集 。 
© 有 可 能 无 法 将 三 元 联系 上 的 约束 转变 为 二 元 联系 上 的 约束 。 例 如 ， 考 虑 一 个 约束 ,表明 RR 是 从 
A4、B 到 C 多 对 一 的 ; 也 就 是 ,来自 4 和 B 的 每 一 对 实体 最 多 与 一 个 C 实体 关联 。 这 种 约束 就 
不 能 用 联系 集 R, Ry 和 Re 上 的 基数 约束 来 表示 。 
考虑 7.2.2 节 中 的 联系 集 proj_guide， 它 关联 instructor, student 和 project。 不 能 直接 将 proj_guide f 
分 为 instructor 和 project 之 间 的 二 元 联系 和 student 和 project 之 间 的 二 元 联系 。 如 果 这 么 做 ， 可 以 记录 教 [293 | 
师 Katz 同学 生 Shankar 和 Zhang 一 起 参与 项 目 4 AB; 然而 无 法 记录 Katz [E] Shankar 一 起 参与 项 目 4 并 
HF] Zhang 一 起 参与 项 目 B， 而 不 是 同 Zhang 一 起 参与 项 目 4 或 者 同 Shankar 一 起 参与 项 目 B。 
联系 集 proj_guide 可 以 通过 创建 一 个 如 上 所 述 的 新 实体 集 来 拆 分 为 二 元 联系 。 然 而 ， 这 么 做 却 不 是 
很 自然 。 
7.7.4 ”联系 属性 的 布局 
一 个 联系 的 映射 基数 比率 会 影响 联系 属性 的 布局 。 因 此 ， 一 对 一 或 一 对 多 联系 集 的 属性 可 以 放 到 
一 个 参与 该 联系 的 实体 集中 ， 而 不 是 放 到 联系 集中 。 例 如 ， 我 们 指明 advisor 是 一 个 一 对 多 的 联系 集 ， 
也 就 是 一 个 教师 可 以 指导 多 个 学 生 ， 但 每 个 学 生 只 能 有 一 个 导师 。 在 这 种 情况 下 ， 表 示 教 师 何 时 成 为 
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学 生 导 师 的 属性 date 可 以 与 student 实体 集 相 关联 ， 如 图 7-20 所 示 。( 为 了 保持 图 例 简单 ， 只 显示 了 两 
个 实体 集 的 部 分 属性 。) 由 于 每 个 student 实体 最 多 和 一 个 instructor 实例 相关 联 ， 因 此 将 属性 date 放 在 
student 实体 集中 和 将 属性 date 放 在 advisor 联系 集中 具有 相同 的 含义 。 一 对 多 联系 集 的 属性 仅 可 以 重 置 
到 参与 联系 的 “多 ” 方 的 实体 集中 。 而 对 于 一 对 一 的 联系 集 ， 联 系 的 属性 可 以 放 到 任意 一 个 参与 联系 的 
实体 中 。 





-一 一 一 一 - 
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FA 7-20 date 作为 student 实体 集 的 属性 


设计 时 将 描述 性 属性 作为 联系 集 的 属性 还 是 实体 集 的 属性 这 一 决定 应 该 反映 出 被 建 模 企 业 的 特点 
设计 者 可 以 选择 保留 date 作为 advisor 的 属性 ， 以 显 式 地 表明 指导 关系 的 日 期 ， 而 不 是 学 生 校 内 状态 的 
其 他 一 些 方面 (例如 ， 被 大 学 录取 的 日 期 ) 。 

属性 位 置 的 选择 在 多 对 多 联系 集中 体现 得 更 清楚 。 回 到 刚才 的 例子 ， 让 我 们 指出 可 能 更 符合 实际 
的 情况 ， 定 义 advisor 为 一 个 多 对 多 的 联系 集 ， 表 明 一 个 教师 可 以 指导 一 个 或 多 个 学 生 ， 而 一 个 学 生 可 
以 被 一 个 或 多 个 教师 指导 。 如 果 想 要 表示 一 个 特定 的 教师 成 为 一 个 特定 学 生 的 导师 的 日 期 , date 则 必 
须 作 为 联系 集 advisor 的 属性 ， 而 不 是 任何 一 个 参与 的 实体 集 的 属性 。 例 如， 如 果 将 date 作为 student 的 
属性 ， 则 我 们 无 法 知道 哪个 教师 在 该 特定 日 期 成 为 他 的 导师 。 当 一 个 属性 是 由 参与 的 实体 集 联合 确定 
而 不 是 由 单独 的 某 个 实体 集 确定 时 ， 该 属性 就 必须 放 到 多 对 多 联系 集中 。 图 7-3 给 出 了 作为 联系 属性 
时 date 的 位 置 。 为 了 图 例 的 简单 ， 只 显示 了 两 个 实体 集 的 部 分 属性 。 


7.8 扩展 的 E-R 特性 


虽然 基本 的 E-R 概念 已 足以 对 大 多 数 数据 库 特 征 建 模 ， 但 数据 库 的 某 些 方面 可 以 通过 对 基本 E-R 
模型 作 某 些 扩展 来 更 恰当 地 表述 。 这 一 节 将 讨论 以 下 扩展 E-R 特性 : 特 化 、 概 化 、 高 层 和 低层 实体 集 、 
属性 继承 和 聚集 。 

为 了 有 助 于 讨论 ， 我 们 将 用 一 个 稍微 更 复杂 的 大 学 数据 库 模 式 。 特 别 是 ， 我 们 将 通过 定义 具有 属 
性 ID, name 以 及 address 的 实体 集 person 来 对 学 校 中 不 同 的 人 建 模 。 


7.8.1 特 化 

实体 集 可 能 包含 一 些 子 集 ， 子 集中 的 实体 在 某 些 方面 区 别 于 实体 集中 的 其 他 实体 。 例 如 ， 实 体 集 
中 的 某 个 实体 子 集 可 能 具有 不 被 该 实体 集中 所 有 实体 所 共享 的 一 些 属 性 。E-R 模型 提供 了 表示 这 种 与 
众 不 同 的 实体 组 ( 子 集 ) 的 方法 。 

例如 ， 实 体 集 person 可 进一步 归 类 为 以 下 两 类 之 一 : 

è employee. 

è student, 
这 两 个 类 中 的 每 一 个 都 用 一 个 属性 集 来 描述 ， 包 括 实体 集 person 的 所 有 属性 加 上 可 能 的 附加 属性 。 例 
如 ，employee 实体 可 进一步 用 属性 salary 来 描述 ， 而 student 实体 可 进一步 用 tot_cred 属性 来 描述 。 在 实 
体 集 内 部 进行 分 组 的 过 程 称 为 特 化 (specialization ) 。person 的 特 化 使 得 我 们 可 以 根据 他 们 是 雇员 还 是 学 








m h e -aTa A 
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生来 区 分 人 : 一 般 来 说 ， 一 个 人 可 以 是 一 个 雇员 、 一 个 学 生 ， 都 是 ， 或 者 都 不 是 。 


另 一 个 例子 ， 假 设 大 学 希望 将 学 生 分 为 两 类 ， 研 究 生 和 本 科 生 。 给 研究 生 配备 办 公 室 ， 而 给 本 科 
生 安 排 宿舍 。 每 一 个 学 生 类 型 都 通过 属性 集 来 描述 ， 这 个 属性 集 包括 student 实体 集 的 所 有 属性 和 附加 
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的 属性 。 

大 学 可 以 创建 siudent 的 两 个 特 化 ，graduate 和 undergraduate。 如 我 们 此 前 所 看 到 的 ， 学 生 实 体 用 属 
性 ID. name, address 以 及 tot_cred 描述 。 实 体 集 graduate 将 具有 student 的 所 有 属性 以 及 一 个 附加 属性 
office_number。 实 体 集 undergraduate 将 具有 student 的 所 有 属性 以 及 一 个 附加 属性 residential_college。 

我 们 可 以 不 断 重复 地 使 用 特 化 来 完善 设计 。 例 如 ， 大 学 雇员 可 进一步 划分 为 以 下 两 类 之 一 : 

® instructor , 

@ secretary, 

每 类 雇员 都 用 包括 实体 集 employee 的 所 有 属性 以 及 附加 属性 的 属性 集 来 描述 。 例 如 ，instructor SE 
体 可 以 进一步 由 属性 rank 来 描述 ， 而 secretary 实体 可 以 由 属性 hours_per_week 来 描述 。 进 一 步 ，secretary 
实体 可 以 参与 实体 集 secretary 和 employee 之 间 的 secretary_for 联系 ， 它 标识 了 有 秘书 协助 的 雇员 。 

一 个 实体 集 可 以 根据 多 个 可 区 分 的 特征 进行 特 化 。 在 我 们 的 例子 中 ， 雇员 实体 间 的 可 区 分 特征 是 
雇员 所 从 事 的 工作 。 同 时 ， 男 一 个 特 化 可 以 基于 一 个 人 是 临时 (有 限 任期 ) 雇 员 还 是 长 期 雇员 ， 从 而 有 
实体 集 temporary_employee 和 permanent_employee。 当 一 个 实体 集 上 形成 了 多 于 一 种 特 化 时 ， 某 个 特定 实 
体 可 能 同时 属于 多 个 特 化 实体 集 。 例 如 ， 一 个 特定 的 雇员 可 以 既是 一 个 临时 的 雇员 ， 又 是 一 个 秘书 。 

在 E-R 图 中 ， 特 化 用 从 特 化 实体 指向 另 一 方 实体 的 空心 箭头 来 表示 (如 图 7-21 所 示 ) 。 我 们 称 这 种 
关系 为 ISA 关系 ， 它 代表 “is a” ， 表 示 “ 是 一 个 ”， 例如， 一 个 教师 “是 一 个 "雇员 。 

我 们 在 E-R 图 中 描述 特 化 的 方法 取决 于 一 个 实体 集 是 否 可 能 属于 多 个 特 化 实体 集 或 者 它 是 否 必须 
属于 至 多 一 个 特 化 实体 集 。 前 者 (人 允许 多 个 集 ) 称 为 重叠 特 化 (overlapping specialization) ， 后 者 ( 允许 至 
多 一 个 ) 称 为 不 相交 特 化 ( disjoint specialization) 。 对 于 一 个 重 释 特 化 (例如 student 和 employee 作为 person 
的 特 化 的 情况 ) ， 分 开 使 用 两 个 箭头 。 对 于 一 个 不 相交 特 化 (例如 instructor 和 secretary 作为 employee 的 
特 化 的 情况 ) ， 使 用 一 个 箭头 。 特 化 关系 还 可 能 形成 超 类 - 子 类 ( superclass-subclass ) 联系 。 高 层 和 低层 
实体 集 按 普通 实体 集 表 示 BN ALS SARS BR AE - 

7.8.2 概 化 

从 初始 实体 集 到 一 系列 不 同 层次 的 实体 子 集 的 细 化 代表 了 一 
个 自 顶 向 下 (top-down) 的 设计 过 程 ， 在 这 个 设计 过 程 中 ， 显 式 地 产 
生出 差别 。 设 计 过 程 也 可 以 自 底 向 上 (bottom-up ) 进行， 多 个 实体 























集 根据 共同 具有 的 特征 综合 成 一 个 较 高 层 的 实体 集 。 数 据 库 设 计 employee. student 
者 可 能 一 开始 就 标识 了 : salary 
© instructor 实体 集 ， 具 有 属性 instructor_id, instructor_name , 
instructor_salary 以 及 rank, 
wa y instructor secretary 
© secretary 实体 集 ， 具 有 属性 secretary_id, secretary _ name, Tk ae | 














secretary_salary 以 及 house_per_week . 

就 所 具有 的 属性 而 言 ， 在 instructor 实体 集 和 secretary 实体 集 间 图 7-21 特 化 和 概 化 
存在 共性 。 从 概念 上 来 说 ， 这 两 个 实体 集 包含 相同 的 属性 : 也 就 
是 标识 符 、 姓 名 和 工资 属性 。 这 种 共性 可 以 通过 概 化 ( generalization) 来 表达 ， 概 化 是 高 层 实体 集 与 一 个 
或 多 个 低层 实体 集 间 的 包含 关系 。 在 我 们 的 例子 中 ，employee 是 高 层 实体 集 ， 而 instructor 和 secretary 是 
低层 实体 集 。 在 这 种 情况 下 ， 在 两 个 低层 实体 和 集中， 概念 上 相同 的 属性 有 不 同 的 名 字 。 为 了 进行 概 化 ， 
这 些 属性 必须 赋予 相同 的 名 字 并 由 高 层 实体 person 表示 。 我 们 使 用 ID, name 和 address 作为 属性 名 称 ， 
正如 我 们 在 7. 8. 1 节 中 所 看 到 的 那样 。 

高 层 与 低层 实体 集 也 可 以 分 别称 作 超 类 ( superclass ) 和 子 类 (subclass), SESE person 是 子 类 
employee 和 student 的 超 类 。 

对 于 所 有 实际 应 用 来 说 ， 概 化 只 不 过 是 特 化 的 递 过 程 。 为 企业 设计 E-R 模型 时 ， 我 们 将 配合 使 用 
这 两 个 过 程 。 在 E-R 图 中 ， 我们 对 概 化 和 特 化 的 表示 不 作 区 分 。 为 了 使 设计 模式 完全 体现 数据 库 应 用 
和 数据 库 用 户 的 要 求 ， 我 们 会 通过 区 分 ( 特 化 ) 或 综合 ( 概 化 ) 来 产生 新 的 实体 层次 。 这 两 种 方式 的 区 别 
主要 在 于 它们 的 出 发 点 和 总 体 目标 。 
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特 化 从 单一 的 实体 集 出 发 ， 通 过 创建 不 同 的 低层 实体 集 来 强调 同一 实体 集中 不 同 实体 间 的 差异 。 
低层 实体 集 可 以 有 不 适用 于 高 层 实体 集中 所 有 实体 的 属性 ， 也 可 以 参与 到 不 适用 于 高 层 实体 集中 所 有 
实体 的 联系 中 。 设 计 者 采用 特 化 的 原因 正 是 为 了 表达 这 种 与 众 不 同 的 特征 。 如 果 student Fil employee 与 
person 实体 拥有 完全 相同 的 属性 ， 并 且 与 person 实体 参与 完全 相同 的 联系 ， 则 没有 必要 特 化 person K 
体 集 。 

概 化 的 进行 基于 这 样 的 认识 : 一 定数 量 的 实体 集 共享 一 些 共同 的 特征 ( 即 用 相同 的 属性 描述 它们 ， 
且 它 们 都 参与 到 相同 的 联系 集中 )。 概 化 是 在 这 些 实体 集 的 共性 的 基础 上 将 它们 综合 成 一 个 高 层 实体 
集 。 概 化 用 于 强调 低层 实体 集 间 的 相似 性 并 隐藏 它们 的 差异 ; 由 于 共享 属性 的 不 重复 出 现 ， 它 还 使 得 
表达 简洁 。 

7.8.3 属性 继承 

由 特 化 和 概 化 所 产生 的 高 层 和 低层 实体 的 一 个 重要 特性 是 属性 继承 ( attribute inheritance) 。 高 层 实 
体 集 的 属性 被 低层 实体 集 继承 (inherit) 。 例 如 ，student 和 employee 继承 了 person 的 属性 。 因 此 ，student 
用 属性 ID. name 和 address 以 及 附加 属性 tot_cred 来 描述 ; 而 employee 用 属性 ID, name 和 address 以 及 
附加 属性 salary 来 描述 。 属 性 继承 适用 于 所 有 低层 实体 集 ， 因 此 employee 的 子 类 instructor 和 secretary 从 
person 继承 了 属性 ID, name 和 address ， 另 外 又 从 employee 继承 了 salary. 

低层 实体 集 (或 子 类 ) 同 时 还 继承 地 参与 其 高 层 实体 (或 超 类 ) 所 参与 的 联系 集 。 和 属性 继承 类 似 ， 
参与 继承 适用 于 所 有 低层 实体 集 。 例 如 ， 假 设 实体 集 person 和 department 参与 person_dept KRÆ. H 
么 ， 实 体 集 person 的 子 类 实体 集 student, employee. instructor 和 secretary 也 都 和 department 隐 式 地 参与 到 
person_dept 联系 中 。 以 上 这 些 实体 集 可 以 参与 到 person 实体 参与 的 任何 联系 中 。 

对 E-R 图 的 一 个 给 定 的 部 分 来 说 ， 不 管 它 是 通过 特 化 还 是 通过 概 化 得 到 的 ， 其 结果 都 是 一 样 的 : 

。 高 层 实 体 集 所 关联 的 所 有 属性 和 联系 适用 于 它 的 所 有 低层 实体 集 。 

© 低层 实体 集 特 有 的 性 质 仅 适用 于 特定 的 低层 实体 集 。 

在 后 面 的 叙述 中 ， 虽 然 我 们 常常 只 说 概 化 ， 但 我 们 所 讨论 的 性 质 是 两 个 过 程 所 共有 的 。 

7-21 所 示 为 实体 集 的 层次 结构 (hierarchy ) 。 在 图 7-21 中 ，employee 是 person 的 低层 实体 集 ， 同 
时 又 是 instructor 和 secretary 实体 集 的 高 层 实体 集 。 在 层次 结构 中 ， 给 定 的 实体 集 作 为 低层 实体 集 只 参 
与 到 一 个 ISA 联系 中 ， 即 在 这 个 图 中 实体 集 只 具有 单 继承 ( single inheritance ) 。 如 果 一 个 实体 集 作 为 低 
层 实体 集 参与 到 多 个 ISA 联系 中 ， 则 称 这 个 实体 集 具有 多 继承 ( multiple inheritance) ， 且 产生 的 结构 被 
PRA (lattice) 。 

7. 8.4” 概 化 上 的 约束 

为 了 更 准确 地 对 企业 建 模 ， 数 据 库 设 计 者 可 能 选择 在 特定 概 化 上 设置 某 些 约束 。 一 类 约束 包含 判 
定 哪 些 实体 能 成 为 给 定 低层 实体 集 的 成 员 。 成 员 资格 可 以 是 下 列 中 的 一 种 : 

© 条 件 定义 的 (condition-defined) 。 在 条 件 定 义 的 低层 实体 集中 ,成 员 资 格 的 确定 基于 实体 是 否 满 

足 一 个 显 式 的 条 件 或 谓词 。 例 如 ， 假 设 高 层 实 体 集 studet 具有 属性 student_type。 所 有 student X 
体 都 根据 student_type 属性 进行 评估 。 只 有 满足 条 件 student_type =“ 研究 生 ” 的 实体 才 允 许 属于 
graduate_student 低层 实体 集 。 所 有 满足 条 件 student _type =“ 本 科 生 ”的 实体 都 包含 于 
undergraduate_student。 由 于 所 有 低层 实体 都 基于 同一 属性 (在 这 里 基于 student_type ) 进行 评估 ， 
因此 这 种 类 型 的 概 化 称 作 是 属性 定义 的 (attribute-defined) 。 

© 用 户 定义 的 (user-defined)。 用 户 定义 的 低层 实体 集 不 是 通过 成 员 资 格 条 件 来 限制 ， 而 是 由 数据 

库 用 户 将 实体 指派 给 某 个 实体 集 。 例 如 ， 如 果 我 们 假设 大 学 雇员 在 3 个 月 的 雇佣 期 后 被 分 配 到 
4 个 工作 组 中 的 一 个 。 因 此 我 们 用 高 层 实 体 集 employee 的 4 个 低层 实体 集 来 表示 工作 组 。 一 个 
给 定 的 员工 并 不 是 根据 某 个 明确 定义 的 条 件 自动 分 配 到 某 个 特定 工作 组 实体 中 。 反 而 是 负责 决 
策 的 用 户 根据 个 人 观点 进行 工作 组 的 分 配 。 该 分 派 是 通过 将 一 个 实体 加 入 某 个 实体 集 的 操作 而 
实现 的 。 
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另 一 类 约束 涉及 在 一 个 概 化 中 一 个 实体 是 否 可 以 属于 多 个 低层 实体 集 。 低 层 实 体 集 可 能 是 下 述 情 
况 之 一 ; 

© 不 相交 ( disjoint)。 不 相交 约束 要 求 一 个 实体 至 多 属于 一 个 低层 实体 集 。 在 我 们 的 例子 中 ， 

student 实体 在 student — type 属性 上 只 能 满足 一 个 条 件 ; 一 个 实体 可 以 是 研究 生 或 本 科 生 ， 但 不 
能 既是 研究 生 又 是 本 科 生 。 

© 重生 (overlapping) 。 在 重 春 概 化 中 ， 同 一 个 实体 可 以 同时 属于 同一 个 概 化 中 的 多 个 低层 实体 集 。 

我 们 再 来 看 员工 工作 组 的 例子 ， 并 假设 某 些 雇员 参加 到 多 个 工作 组 中 。 在 这 种 情况 下 给 定 雇员 
就 可 以 出 现在 employee 的 多 个 低层 工作 组 实体 集中 。 因 此 这 种 概 化 是 重 和 至 的 。 

在 图 7-21 中 ， 我 们 假定 一 个 人 可 以 既是 雇员 又 是 学 生 。 我 们 通过 分 开 的 箭头 表示 这 种 重 释 概 化 : 
一 个 箭头 从 employee 指向 person， 另 一 个 箭头 从 student 指向 person, SRM, instructor 和 secretary 的 概 化 
是 不 相交 的 ， 我 们 对 此 用 单个 箭头 表示 。 

最 后 一 类 约束 是 对 概 化 的 完全 性 约束 (completeness constraint) ， 定 义 高 层 实体 集中 的 一 个 实体 是 否 
必须 至 少 属于 该 概 化 / 特 化 的 一 个 低层 实体 集 。 这 种 约束 可 以 是 下 述 情况 之 一 : 

© 全 部 概 化 (total generalization) 或 特 化 (specialization) 。 每 个 高 层 实体 必须 属于 一 个 低层 实体 集 。 

o 部 分 概 化 (partial generalization ) 或 特 化 ( specialization ) 。 人 允许 一 些 高 层 实体 不 属于 任何 低层 实 

体 集 。 

部 分 概 化 是 默认 的 。 我 们 可 以 在 E-R 图 中 表示 全 部 概 化 ， 即 通过 在 图 中 加 入 关键 词 “total”， 并 画 
一 条 从 关键 词 到 相应 的 空心 箭头 (表示 不 相交 概 化 ) 的 虚线 ， 或 者 画 一 条 到 空心 箭头 集合 (表示 重 释 概 
化 ) 的 虚线 。 

student 的 概 化 是 全 部 的 : 所 有 的 学 生 实体 都 要 么 是 研究 生 要 么 本 科 生 。 由 于 通过 概 化 产生 的 高 层 
实体 集 通 常 只 包括 低层 实体 集中 的 实体 ， 因 此 由 概 化 产生 的 高 层 实体 集 的 完全 性 约束 通常 是 全 部 的 。 

如 果 概 化 是 部 分 的 ， 高 层 实体 就 可 以 不 限制 出 现在 任何 低层 实体 集中 。 工 作 组 实体 集 就 是 部 分 特 化 的 
例子 。 由 于 员工 在 工作 3 个 月 后 才 分 配 到 某 个 工作 组 中 ， 因 此 某 些 employee 实体 可 能 不 属于 任何 低层 
工作 组 实体 集 。 

我 们 可 以 通过 对 employee 的 部 分 的 、 重 和 至 的 特 化 过 程 来 更 完全 地 表示 出 工作 组 实体 集 的 特征 。 从 
graduate_student 和 undergraduate_student 到 student 的 概 化 是 全 部 的 、 不 相交 的 概 化 。 然 而 ， 完 全 性 约束 [300 
和 不 相交 约束 彼此 并 没有 依赖 关系 。 约 束 模式 也 可 以 是 部 分 -不 相交 或 全 部 - ERW 

我 们 可 以 看 到 ， 对 给 定 概 化 或 特 化 使 用 约束 带 来 某 些 插入 和 删除 需求 。 例 如 ， 当 存在 一 个 全 部 的 
完全 性 约束 时 ,插入 到 高 层 实体 集中 的 实体 还 必须 插入 到 至 少 一 个 低层 实体 集中 。 在 条 件 定义 的 约束 
中 ， 所 有 满足 条 件 的 高 层 实体 必须 插入 到 相应 的 低层 实体 集中 。 最 后 ， 从 高 层 实体 集 删 除 的 实体 也 必 
须 从 它 所 属于 的 所 有 相应 低层 实体 集中 删除 。 

7.8.5 BR [poet H 

E-R 模型 的 一 个 局 限 性 在 于 它 不 能 表达 联系 间 的 
联系 。 为 了 说 明 这 种 结构 的 必要 性 ， 考 虑 我 们 此 前 看 
到 的 instructor, student 和 project 之 间 的 三 元 联系 proj 
guide( 如 图 7-13 AAS) o 

现在 假设 每 位 在 项 目 上 指导 学 生 的 教师 需要 记录 
月 评 佑 报告 。 我们 将 评估 报告 建 模 为 一 个 主 码 为 
evaluation_id 的 实体 evaluation。 记 录 一 个 evaluation 对 
MERY (student, project, instructor ) 组 合 的 男 一 个 方法 是 
在 instructor, student, project 和 evaluation 之 间 建 立 一 个 
四 元 (四 路 ) 联系 集 eval _for, (四 元 的 联系 是 必需 
的 一 一 例如 ，student 和 evaluation 之 间 的 二 元 联系 无 法 图 7-22 ”包含 匈 余 联 系 的 E-R 图 
让 我 们 表示 某 个 evaluation 对 应 的 (project，instructor) 组 
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合 )。 通 过 使 用 基本 的 EE-R 模型 构建 ,我们 得 到 了 图 7-22 所 示 的 E-R 图 。( 为 了 简洁 ， 省 略 了 实体 集 
的 属性 。) 

看 上 去 联系 集 proj_guide 和 eval_for 可 以 合并 到 一 个 联系 集中 。 然 而 ， 我 们 不 应 该 将 它们 合并 到 一 
起 ， 因 为 一 些 instructor, student, project 组 合 可 能 没有 相关 联 的 evaluation, 

但 是 ， 按 照 这 种 方法 产生 的 图 存在 元 余 信息 ， 因 为 在 eval_for 中 的 每 个 instructor student, project 组 
合 肯定 也 在 proj_guide H, WÈ evaluation 是 一 个 值 而 不 是 一 个 实体 ， 我 们 可 以 将 evaluation 作为 联系 集 
proj_guide 的 一 个 多 值 属性 。 然 而 ， 当 某 个 evaluation 和 其 他 实体 相关 联 时 ， 这 种 方法 不 可 行 ; 例如 ， 
每 份 评估 报告 可 能 和 负责 评估 报告 的 后 续 处 理 以 发 放 奖学金 的 secretary 相关 联 。 

对 类 似 上 述 情况 建 模 的 最 好 办 法 是 使 用 聚 
集 。 聚 集 ( aggregation) 是 一 种 抽象 ， 通 过 这 种 抽 
象 ， 联 系 被 视 为 高 层 实体 。 这 样 ， 对 于 我 们 的 例 
子 , 我 们 将 联系 集 proj _ guide (关联 实体 集 - 
instructor, student 和 project) 看 成 一 个 名 为 proj_ 
guide 的 高 层 实体 集 。 这 种 实体 集 可 以 像 对 任何 EE 
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proj_ guide 




















其 他 实体 集 一 样 来 处 理 。 这 样 我 们 就 可 以 在 proj_ = 
guide 和 evaluation 之 间 创 建 一 个 二 元 联系 eval_for a Ae 
来 表示 某 个 evaluation Xt WZ BRS (student, projec, eval_for > 
instructor) 2A. B| 7-23 所 示 为 用 聚集 概念 来 表 
示 以 上 这 种 情况 。 evaluation 
7.8.6 转换 为 关系 模式 
我 们 现在 开始 介绍 扩展 的 E-R 特性 如 何 转换 图 7-23 ”包含 聚集 的 E-R 图 
为 关系 模式 。 


7.8.6.1 概 化 的 表示 
为 包含 概 化 的 E-R 图 进行 关系 模式 设计 有 两 种 不 同方 法 。 尽 管 我 们 在 下 面 的 讨论 中 考虑 图 7-21 的 
概 化 的 情况 , 但 为 了 简化 讨论 ， 我 们 谈 到 的 内 容 实际 上 只 包括 第 一 层 的 低层 实体 集 
student。 我 们 假定 ID 是 person 的 主 码 。 
© 为 高 层 实体 集 创建 一 个 模式 。 为 每 个 低层 实体 集 创建 一 个 模式 ,模式 中 的 属性 包括 对 应 于 低层 
实体 集 的 每 个 属性 ， 以 及 对 应 于 高 层 实体 集 主 码 的 每 个 属性 。 因 此 ， 对 于 图 7-21 的 E-R 图 ( 忽 
略 instructor 和 secretary 实体 集 ) ， 有 三 个 模式 : 


person(ID, name, street, city) 





employee 和 


employee( ID, salary) 
student( ID, tot_cred) 


高 层 实体 集 的 主 码 属性 变 成 既是 高 层 实体 集 的 主 码 属性 也 是 所 有 低层 实体 集 的 主 码 属 性 。 如 上 
例 中 下 划 线 标记 所 示 。 
另外 ， 我 们 在 低层 实体 集 上 建立 外 码 约束 ， 其 主 码 属 性 参照 创建 自 高 层 实体 集 的 关系 的 主 码 。 
在 上 面 的 例子 中 ，employee 的 属性 ID 会 参照 person 的 主 码 ， 对 于 student 类似。 

© 如 果 概 化 是 不 相交 且 完 全 的 一 一 如 果 不 存在 同时 属于 两 个 同 级 的 低层 实体 集 的 实体 ， 且 如 果 高 
层 实体 集 的 任何 实体 也 都 是 某 个 低层 实体 集 的 成 员 一 一 那么 可 以 采用 另 一 种 表示 方法 。 这 时 ， 
我 们 不 需要 为 高 层 实 体 集 创建 任何 模式 ， 只 需要 为 每 个 低层 实体 集 创建 一 个 模式 ， 模 式 中 的 属 
性 包括 对 应 于 低层 实体 集 的 每 个 属性 ， 以 及 对 应 于 高 层 实 体 集 的 每 个 属性 。 那 么 ， 对 于 图 7-21 
的 E-R 图 ， 有 两 个 模式 : 





employee(ID, name, street, city, salary) 
student(ID, name, street, city, tot_cred) 


301 这 两 个 模式 都 将 高 层 实体 集 person 的 主 码 属性 ID 作为 它们 的 主 码 。 
303 第 二 种 方法 的 一 个 缺点 在 于 定义 外 码 约 束 。 为 了 说 明 这 个 问题 ， 假 定 我 们 有 一 个 与 实体 集 person 
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相关 的 联系 集 Rs 用 第 一 种 方法 ， 当 从 该 联系 集 创建 一 个 关系 模式 R 时 ， 也 可 以 在 只 上 建立 参照 person 
模式 的 外 码 约束 。 遗 憾 的 是 ， 如 果 用 第 二 种 方法 ，R 上 的 外 码 约束 无 法 参照 单一 的 一 个 关系 。 为 了 避 
免 这 个 问题 ， 需 要 创建 一 个 关系 模式 person， 该 模式 至 少 包含 实体 person 的 主 码 属 性 。 

如 果 将 第 二 种 方法 用 于 重 又 概 化 ， 某 些 值 就 会 不 必要 地 存储 多 次 。 例 如 ， 如 果 一 个 人 既是 雇员 又 
EFE, street 和 city 的 值 就 会 存储 两 次 。 

如 果 概 化 是 不 相交 的 但 不 是 全 部 的 
模式 





有 的 人 既 不 是 雇员 又 不 是 学 生 一 一 则 将 需要 一 个 额外 的 


person(ID, name, street, city) 


来 表示 这 样 的 人 。 然 而 ， 上 述 外 码 约束 问题 仍然 存在 。 为 了 解决 这 个 问题 ， 假 定 在 person 关系 中 额外 
表示 了 雇员 和 学 生 ， 遗 憾 的 是 ， 姓 名 、 和 街道 以 及 城市 的 信息 就 要 在 person 关系 和 student 关系 中 宛 余地 
存储 ， 同 样 ， 雇 员 的 信息 在 person 关系 和 employee 关系 中 元 余地 存储 。 这 就 促使 将 姓名 、 街 道 和 城市 
信息 只 存储 在 person 关系 中 ， 而 把 这 些 信息 从 student 和 employee 中 移 除 。 如 果 我 们 这 么 做 的 话 ， 结 果 
就 跟 我 们 此 前 讲述 的 第 一 种 方法 完全 一 样 了 。 

7.8.6.2 聚集 的 表示 

为 包含 聚集 的 E-R 图 进行 模式 设计 是 很 直接 的 。 考 虑 图 7-23 中 的 E-R 图 。 表 示 聚 集 proj_guide 和 
实体 集 evaluation 之 间 联 系 的 联系 集 eval for 的 模式 包含 对 应 实体 集 evaluation 主 码 中 的 每 个 属性 以 及 联 
系 集 proj_guide 主 码 中 的 每 个 属性 。 它 还 包含 对 应 于 联系 集 eval_for 的 任意 描述 性 属性 ( 如 果 存 在 的 
话 ) 。 然 后 ， 根 据 我 们 已 经 定义 的 规则 ， 在 聚集 的 实体 集中 转换 联系 集 和 实体 集 。 

当 把 聚集 像 其 他 实体 集 一 样 看 待 时 ， 我 们 此 前 看 到 的 用 于 在 联系 集 上 创建 主 码 和 外 码 约束 的 规则 ， 
也 同样 可 以 应 用 于 与 聚集 相关 联 的 联系 集 。 聚 集 的 主 码 是 定义 该 聚集 的 联系 集 的 主 码 。 不 需要 单独 的 
关系 来 表示 聚集 ;而 使 用 从 定义 该 聚集 的 联系 创建 出 来 的 关系 就 可 以 了 。 
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一 个 应 用 的 数据 模型 的 图 形 表示 对 于 数据 库 模式 的 设计 至 关 重 要 。 数 据 库 模 式 的 构建 不 仅 需要 数 
据 建 模 专家 ， 而 且 还 需要 了 解 应 用 的 需求 但 可 能 并 不 熟悉 数据 建 模 的 领域 专家 。 一 个 直观 的 图 形 表 示 
使 两 类 专家 间 的 信息 沟通 变 得 简单 ， 因 而 尤其 重要 。 

目前 已 经 提出 了 许多 种 对 数据 建 模 的 表示 法 ， 其 中 E-R 图 和 UML 类 图 的 应 用 最 为 广泛 。 对 于 E-R 
表示 法 还 没有 一 个 统一 的 标准 ， 不 同 的 书籍 以 及 ER 图 软件 使 用 不 同 的 表示 法 。 我 们 在 本 书 第 6 版 中 
选择 了 一 种 特定 的 表示 法 ， 它 不 同 于 本 书 以 往 版 本 使 用 的 表示 法 ， 我 们 将 在 本 节 的 稍 后 解释 原因 。 

在 本 节 剩 下 的 部 分 中 ， 我 们 学 习 一 些 可 选择 的 E-R 图 表示 法 ， 以 及 UML 类 图 表示 法 。 为 了 将 我 们 
的 表示 法 与 其 他 表示 法 比较 ， 图 7-24 总 结 了 我 们 此 前 在 E-R 图 表示 法 中 用 到 的 符号 集 。 
7.9.1 E-R 图 的 其 他 表示 法 

图 7-25 列 出 一 部 分 广泛 使 用 的 可 选择 的 E-R 表示 法 。 表 示 实 体 的 属性 的 一 种 可 选 的 方法 是 将 它们 
放 入 与 代表 实体 的 方 框 所 连接 的 椭圆 形 中 。 主 码 属性 以 下 划 线 表明 。 在 图 7-25 的 最 上 部 展示 了 上 述 表 
示 法 。 联 系 的 属性 也 可 以 用 类 似 的 方式 表示 ， 即 将 包含 属性 的 椭圆 与 表示 联系 的 菱形 连接 起 来 。 

如 图 7-25 所 示 ， 联 系 上 的 基数 约束 可 以 用 多 种 不 同 的 方法 表示 。 在 图 7-25 的 左 部 展示 了 一 种 可 先 
择 的 方法 ， 即 在 联系 外 面 的 边 上 标记 * 和 1， 通常 用 来 表示 多 对 多 、 一 对 一 和 多 对 一 联系 。 一 对 多 的 
情况 与 多 对 一 的 情况 是 对 称 的 ， 在 此 没有 画 出 。 

在 图 7-25 的 右 部 展示 了 另 一 种 可 选择 的 表示 法 ， 联 系 集 是 用 实体 集 之 间 的 连 线 而 不 是 菱形 来 表 
示 ; 因此 只 有 二 元 联系 才 可 以 如 此 表示 。 如 图 7-25 所 示 ， 在 这 种 表示 法 中 基数 约束 用 “ 鸦 爪 形 ” 表 示 法 
表示 。 在 El WE 之 间 的 联系 中 ， 两 侧 的 鸦 扑 表示 El 到 E 的 多 对 多 的 关系 。 在 这 个 表示 法 中 ， 坚 
线 代表 全 部 参与 。 不 过 要 注意 ， 在 实体 El 和 E 间 的 联系 尺 中 ， 如 果 EL 对 尺 全 部 参与 ， 则 竖 线 放置 
在 对 面 ， 即 靠近 £2 的 位 置 ;类似 地 ， 在 对 面 画 一 个 圆圈 表示 部 分 参与 。 

图 7-25 的 底部 是 概 化 的 另 一 种 可 选择 的 表示 方法 ， 即 用 三 角形 替代 空心 箭头 。 
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属性 : 
简单 属性 (Al), 


派 性 属性 (A4) 











KEREDE 
简单 属性 41、 
复合 属性 42、 
多 值 属性 43、 
派 性 属性 44、 
以 及 主 码 41 


























图 7-25 ”其 他 可 选择 的 E-R 图 表示 法 
在 本 书 第 5 版 及 以 前 的 版 本 中 ， 我 们 用 椭圆 形 表示 属性 ， 用 三 角形 表示 概 化 ， 如 图 7-25 所 示 。 用 


第 7 章 ”数据 库 设计 和 E-R 模型 


椭圆 形 表示 属性 并 用 鞭 形 表示 联系 的 表示 法 接近 于 Chen 在 他 引入 E-R 模型 概念 的 论文 中 所 用 的 E-R 图 
的 原始 形式 ， 那 种 表示 法 目前 称 为 陈 氏 表示 法 。 

美国 国家 标准 和 技术 研究 院 于 1993 年 定义 了 一 个 称 为 IDEFIX 的 标准 ， 其 中 使 用 了 和 鸦 不 形 符号 并 
在 联系 的 边 上 加 上 坚 线 用 于 指明 全 部 参与 ， 加 上 空心 圆 表示 部 分 参与 ， 还 包括 了 其 他 没有 列 出 的 符号 。 

随 着 统一 标记 语言 ( Unified Markup Language, UML) (将 在 7.9.2 节 介 绍 ) 使 用 的 增多 ,我们 选择 更 
新 E-R 表示 法 ， 使 之 更 接近 UML 类 图 的 形式 ; 7.9.2 节 将 说 明 它们 之 间 的 联系 。 和 此 前 的 表示 法 相 
比 ， 新 的 表示 法 对 属性 的 表示 更 加 紧凑 ， 并 且 更 接近 许多 E-R 建 模 工具 所 支持 的 表示 法 ， 此 外 也 更 接 
近 UML 类 图 表示 法 。 

目前 有 多 种 用 于 构建 E-R 图 的 工具 ， 每 个 工具 都 有 它 自己 的 表示 法 变 体 。 其 中 的 一 些 工 具 甚至 提 
供 在 几 种 不 同 的 E-R 表示 法 变 体 间 的 选择 。 更 多 信息 请 参考 文献 注解 部 分 的 引用 文献 。 

在 E-R 图 中 的 实体 集 与 从 这 些 实体 集 创建 的 关系 模式 之 间 一 个 关键 的 不 同 点 在 于 ，E-R 联系 对 应 
的 关系 模式 中 的 属性 ， 比 如 instructor 的 属性 dept_name， 在 E-R 图 中 的 实体 集中 并 没有 表示 出 来 。 一 些 


数据 建 模 工具 允许 用 户 在 同一 个 实体 的 两 种 视图 间 选 择 ， 一 种 是 不 包含 这 些 属性 的 实体 视图 ， 而 男 一 [30 


种 是 包含 这 些 属性 的 关系 视图 。 
7.9.2 统一 建 模 语言 UML 

实体 -联系 图 有 助 于 对 软件 系统 的 数据 表示 部 分 建 模 。 然 而 ， 数 据 表 示 只 构成 整个 系统 设计 的 一 
部 分 。 其 他 部 分 包括 系统 用 户 界面 的 建 模 、 系 统 功 能 模块 的 规范 定义 以 及 它们 之 间 的 交互 等 。 统 一 建 
模 语言 (Unified Modeling Language , UML) 是 由 对 象 管 理 组 织 ( Object Management Group, OMG) 主持 开发 
的 一 个 标准 ， 它 是 为 了 建立 软件 系统 不 同 部 分 的 规范 定义 而 提出 的 。UML 的 一 些 组 成 部 分 为 : 

。 类 图 (class diagram), AIA E-R 图 相 类 似 。 本 节 将 说 明 类 图 的 一 些 特征 及 其 与 上-R 图 的 关系 。 

° 用 况 图 (use case diagram) 。 用 况 图 说 明了 用 户 和 系统 之 间 的 交互 ， 特 别 是 用 户 所 执行 的 任务 中 

的 每 一 步 操作 (如 取 钱 或 注册 课程 ) 。 

© 活动 图 (activity diagram) 。 活 动 图 说 明了 系统 不 同 部 分 之 间 的 任务 流 。 

。 实现 图 (implementation diagram) 。 实 现 图 在 软件 构件 层 和 硬件 构件 层 说 明了 系统 的 各 组 成 部 分 
以 及 它们 之 间 的 联系 。 

在 这 里 我 们 不 准备 提供 UML 各 部 分 的 细节 。 关 于 UML 的 参考 文献 请 参看 文献 注解 。 不 过 ， 我 们 
将 通过 一 些 例 子 来 说 明 UML 中 与 数据 建 模 有 关 的 部 分 的 一 些 特征 。 

图 7-26 显示 了 几 个 E-R 图 的 构造 和 与 它们 等 价 的 UML 类 图 的 构造 。 我 们 将 在 下 面 描述 这 些 构 造 。 
事实 上 UML 为 对 象 建 模 ， 而 E-R 为 实体 建 模 。 对 象 和 实体 很 像 ， 也 有 属性 ， 但 是 另外 还 提供 一 组 函数 
( 称 为 方法 ) ， 它 们 可 在 对 象 属性 的 基础 上 调用 以 计算 值 ， 或 更 新 对 象 本 身 。 类 图 除了 可 以 说 明 属 性 
外 ， 还 可 以 说 明 方 法 。 我 们 在 第 22 章 讨 论 对 象 。UML 不 支持 复合 或 多 值 属性 ， 派 生 属 性 与 不 带 参 数 
的 函数 等 价 。 由 于 类 支持 封装 ， 因 此 UML 允许 属性 和 函数 带 有 前 组 ”+ ”、“- "或 *“#" ， 这 分 别 表示 公 
共 、 私 有 以 及 受 保护 的 访问 。 私 有 属性 只 能 在 类 的 方法 中 使 用 ， 而 受 保护 的 属性 只 能 在 类 和 它 的 子 类 
的 方法 中 使 用 ; THe Java, C++ aR C# 的 人 应 该 对 此 很 熟悉 。 

在 UML 术语 中 ， 联 系 集 称 为 关联 (association) ; 为 了 与 E-R 术语 一 致 ， 我 们 将 仍 称 它们 为 联系 集 。 
在 UML 中 我 们 通过 划一 条 线段 连接 实体 集 来 表示 二 元 联系 集 。 我 们 将 联系 集 的 名 称 写 在 线段 的 附近 。 
我 们 还 可 以 通过 将 角色 的 名 称 写 在 靠近 实体 集 的 线段 上 ,来 说 明 联 系 集中 一 个 实体 集 的 角色 。 另 一 种 
方法 是 ,我 们 可 将 联系 集 的 名 字 写 在 方 框 里 ， 和 联系 集 的 属性 写 在 一 起 ， 并 用 虚线 把 这 个 方 框 连接 到 
表示 联系 集 的 连 线 上 。 这 个 方 框 可 以 看 作 一 个 实体 集 ， 如 同 E-R 图 中 的 聚集 一 样 ， 也 可 以 与 其 他 实体 
集 一 起 参与 联系 。 

从 UML 1.3 版 开始 ，UML 通过 使 用 与 E-R 图 中 使 用 的 一 样 的 菱形 表示 法 支持 非 三 元 联系 。 而 在 更 
早 版 本 的 UML 中 无 法 直接 表示 非 二 元 联系 一 一 非 二 元 联系 必须 用 我 们 在 7.7. 3 节 中 看 见 的 技术 转换 成 
二 元 联系 。 即 使 对 于 二 元 联系 ，UML 也 允许 使 用 菱形 表示 法 ， 但 是 大 部 分 设计 者 使 用 线段 表示 法 ， 

基数 约束 在 UML 中 和 E-R APH L. h 的 形式 表示 ， 其 中 i 表示 参与 联系 的 实体 的 最 小 个 数 ， 
h 则 表示 最 大 个 数 。 然 而 ， 如 图 7-26 所 示 ， 你 应 该 注意 到 约束 的 位 置 和 在 E-R 图 中 约束 的 位 置 正好 相 
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反 。E2 边 上 的 约束 0..* 和 El 边 上 的 0.. 1 表示 每 个 E2 实体 可 以 参与 至 多 一 个 联系 ， 而 每 个 El 实体 
可 以 参与 很 多 联系 ; 换 名 话说， 该 联系 是 从 E2 到 El 多 对 一 的 。 

像 1 或 * 这 样 的 单个 值 可 以 写 在 边 上 ; 边 上 的 单个 值 1 视 为 与 1..1 等 价 , 而 * 等 价 于 0.. *。 
UML 支持 概 化 ， 表 示 法 与 E-R 表示 法 基本 相同 ， 包 括 不 相交 概 化 和 重合 概 化 的 表示 方式 。 

UML 类 图 还 包含 一 些 其 他 的 表示 法 ， 与 我 们 见 过 的 E-R 表示 法 并 不 对 应 。 例 如 ， 连 接 两 个 实体 集 
的 一 条 线 的 一 端 有 一 个 小 菱形 ， 表 示 鞭 形 这 一 端的 实体 集 包 含 另 一 个 实体 集 ( 包 含 关 系 在 UML 术语 中 
称 为 “聚合 ” ， 不 要 将 聚合 的 这 种 用 法 同 E-R 模型 中 聚集 的 含义 混淆 ) 。 例 如 ， 一 个 车 辆 实体 可 能 包含 
一 个 发 动机 实体 。 

UML 类 图 还 提供 了 表示 面向 对 象 语 言 的 特征 的 表示 法 ， 例 如 接口 。 关 于 UML 类 图 的 更 多 信息 ， 
请 参看 文献 注解 中 的 引用 文献 。 
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7-26 UML 类 图 表示 法 中 使 用 的 符号 
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本 章 对 模式 设计 的 扩展 讨论 可 能 会 造成 模式 设计 是 数据 库 设 计 的 唯一 组 成 部 分 的 错误 印象 。 我 们 
将 在 后 续 章 节 中 更 完整 地 讲述 一 些 其 他 的 考虑 ， 而 在 此 ， 我 们 先 简要 地 概览 一 下 。 
7.10.1 数据 约束 和 关系 数据 库 设 计 

我 们 已 经 看 到 ， 使 用 SQL 可 以 表达 多 种 数据 约束 ， 包 括 主 码 约束 、 外 码 约束 、check 约束 、 断 言 
和 触发 器 。 约 束 用 于 多 种 目的 。 最 明显 的 一 个 目的 是 自动 的 一 致 性 保持 。 通 过 在 SQL 数据 定义 语言 中 
表达 约束 ， 设 计 者 能 够 确保 数据 库 系统 自己 执行 这 些 约束 。 这 比 让 每 个 应 用 程序 自己 独立 地 执行 约束 
要 可 靠 得 多 。 同 时 ， 这 种 机 制 也 为 更 新 和 添加 约束 提供 了 一 个 集中 的 位 置 。 

显 式 声明 约束 的 另 一 个 优点 是 一 些 约束 在 关系 数据 库 模式 的 设计 中 特别 有 用 。 例 如 ， 如 果 我 们 知 
道 社会 保障 号 唯一 地 标识 一 个 人 ， 那 么 我 们 就 可 以 使 用 一 个 人 的 社会 保障 号 来 关联 与 这 个 人 相关 的 数 
据 ， 即 使 这 些 数据 出 现在 多 个 关系 中 。 与 此 相反 ， 比 如 ， 眼 睛 的 颜色 不 是 唯一 标识 符 。 眼 睛 的 颜色 不 
能 用 于 关联 与 某 个 人 相关 的 多 个 关系 中 的 数据 ， 因 为 这 样 就 无 法 将 一 个 人 的 数据 同 其 他 具有 同样 眼睛 
颜色 的 人 的 相关 数据 区 分 开 来 。 
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在 7.6 节 中 ,通过 使 用 设计 中 指定 的 约束 ， 我 们 为 一 个 给 定 的 E-R 设计 生成 了 一 个 关系 模式 集合 。 
在 第 8 章 中 ,我 们 将 这 个 思想 及 其 相关 约束 形式 化 ， 并 展示 它 将 如 何 辅助 关系 数据 库 模 式 的 设计 。 关 
系数 据 库 设计 的 规范 化 方法 使 我 们 能 够 在 给 定 的 设计 是 好 的 设计 时 用 准确 的 方式 进行 表述 ， 并 且 能 够 
把 不 好 的 设计 转变 为 较 好 的 设计 。 我 们 将 看 到 ， 这 个 从 实体 - 联系 设计 开始 并 根据 该 设计 规则 地 生成 
关系 模式 的 过 程 给 整个 设计 过 程 提供 了 一 个 好 的 开始 。 

数据 约束 在 确定 数据 的 物理 结构 时 同样 有 用 ， 可 以 将 彼此 紧密 相关 的 数据 存储 在 磁盘 上 邻近 的 区 
域 ， 以 便 在 磁盘 访问 时 提高 效率 。 当 索引 建立 在 主 码 上 时 ， 索 引 结构 工 作 得 更 好 。 

每 次 数据 库 更 新 时 ， 执 行 约束 会 在 性 能 上 带 来 潜在 的 高 代价 。 对 于 每 次 更 新 ， 系 统 都 必须 检查 所 
有 的 约束 ， 然 后 要 么 拒绝 与 约束 冲突 的 更 新 ， 要 么 运行 相应 的 触发 器 。 性 能 损失 的 严重 性 不 仅仅 取决 
于 更 新 的 频率 ， 而 且 依 赖 于 数据 库 的 设计 方式 。 对 某 些 类 型 的 约束 进行 检测 的 真实 效率 ， 是 第 8 章 中 
对 关系 数据 库 模 式 设计 的 讨论 的 一 个 重要 方面 。 

7. 10.2 使 用 需求 : 查询 、 性 能 

数据 库 系 统 的 性 能 是 绝 大 多 数 企业 信息 系统 的 一 个 关键 因素 。 性 能 不 仅 与 计算 能 力 的 有 效 利用 以 
及 所 使 用 的 存储 硬件 有 关 ， 而 且 受 到 与 系统 交互 的 人 的 效率 以 及 依赖 数据 库 数据 的 处 理 的 效率 的 影响 。 

以 下 是 效率 的 两 个 主要 度量 方法 : 

© 吞吐 量 (throughput) 一 一 每 单位 时 间 里 能 够 处 理 的 查询 或 更 新 (通常 指 事务 ) 的 平均 数量 。 

© 响应 时 间 ( response time) 单个 事务 从 开始 到 结束 所 需 的 平均 时 间或 者 最 长 时 间 。 

以 批量 的 方式 处 理 大 量 事务 的 系统 关注 于 达到 高 吞吐 量 。 与 人 交互 或 者 时 间 苛 刻 的 系统 则 通常 关 
注 于 响应 时 间 。 这 两 个 度量 并 不 等 价 。 高 吞吐 量 的 目的 是 为 了 获得 系统 部 件 的 高 利用 率 。 这 样 做 的 时 
候 可 能 会 导致 某 些 事务 延 人 运 ， 直 到 它们 能 更 高 效 地 运行 的 时 候 才 人 处理。 所 以 这 些 延 迟 的 事务 的 响应 时 
间 就 很 差 。 

大 多 数 商 用 数据 库 系统 长 期 以 来 都 关注 于 吞吐 量 , 但是， 包括 基于 Web 的 应 用 和 电信 信息 系统 等 
在 内 的 许多 应 用 都 要 求 好 的 平均 响应 时 间 和 适当 限制 内 的 最 差 响 应 时 间 。 

了 解 预期 最 频繁 的 查询 的 类 型 有 助 于 设计 过 程 。 涉 及 连接 的 查询 比 不 涉及 连接 的 查询 需要 更 多 的 
资源 用 以 计算 。 在 需要 连接 的 情况 下 ， 数 据 库 管 理 员 可 以 选择 创建 一 个 索引 ， 加 快 连接 的 计算 。 对 于 
查询 一 一 不 论 是 否 涉及 连接 一 一 可 以 创建 索引 以 加 速 常 常 出 现在 查询 中 的 选择 谓词 (SQL 的 where 子 
句 ) 的 计算 。 查 询 中 另 一 个 影响 索引 选择 的 因素 是 更 新 和 读 操 作 的 混合 。 当 一 个 索引 可 能 加 速 查询 的 同 
时 ， 它 也 可 能 减缓 更 新 的 速度 ， 因 为 更 新 会 为 维护 索引 的 准确 性 而 强制 性 地 带 来 额外 的 工作 。 
7.10.3 授权 需求 

授权 约束 同样 会 影响 数据 库 的 设计 ， 因 为 SQL 允许 在 数据 库 逻 辑 设计 组 件 的 基础 上 将 访问 权限 授 
予 用 户 。 一 个 关系 模式 可 能 需要 分 解 为 两 个 或 多 个 模式 ， 以 便于 在 SQL 中 授予 访问 权限 。 比 如 ， 一 个 
雇员 记录 可 以 包括 与 工资 单 、 工 作 职 责 和 医疗 保险 相关 的 数据 。 由 于 企业 的 不 同 管理 部 门 分 别管 理 该 
数据 的 不 同 部 分 ， 有 些 用 户 需 要 访问 工资 数据 ， 但 却 不 能 访问 工作 数据 和 医疗 数据 等 。 如 果 这 些 数 据 
在 一 个 表 中 ， 希望 得 到 的 访问 划分 通过 使 用 视图 尽管 依然 可 行 ， 但 更 加 麻烦 。 当 数据 在 一 个 计算 机 网 
络 中 的 多 个 系统 中 分 散 存 放 时 ， 这 种 方式 的 数据 划分 则 是 必 不 可 少 的 ， 这 个 问题 将 在 第 19 章 讨论 . 

7. 10.4 数据 流 、 工 作 流 

数据 库 应 用 通常 是 大 型 企业 应 用 的 一 部 分 ， 这 样 的 应 用 不 仅 与 数据 库 系 统 交 互 ， 而 且 会 同 各 种 专 
门 的 应 用 交互 。 例 如 ， 在 一 个 制造 公司 中 ， 计 算 机 辅助 设计 (CAD ) 系 统 会 用 于 辅助 新 产品 的 设计 。 
CAD 系统 可 以 通过 SQL 语句 从 数据 库 中 抽取 数据 ， 在 其 内 部 处 理 这 些 数 据 ， 也 许 同 时 和 产品 设计 人 员 
进行 交互 ， 然 后 再 更 新 数据 库 。 在 这 个 过 程 中 ， 数 据 的 控制 权 会 在 几 个 产品 设计 人 员 和 其 他 人 之 间 传 
递 。 再 看 一 个 例子 ， 考 虑 一 个 差旅费 报告 。 它 由 一 个 出 差 归来 的 雇员 写成 (可 能 利用 某 个 专门 的 软件 
包 ) ， 然 后 依次 交 给 该 雇员 的 经 理 ， 可 能 的 其 他 高 层 经 理 ， 最 后 交 到 了 财务 部 门 以 报销 费用 (在 此 处 它 
将 与 该 企业 的 财务 信息 系统 交互 ) 。 

术语 工作 流 表示 一 个 流程 中 的 数据 和 任务 的 组 合 ， 前 面 给 出 了 这 种 流程 的 两 个 例子 。 当 工作 流 在 
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用 户 间 移 动 以 及 用 户 执 行 他 们 在 工作 流 中 的 任务 时 ， 工 作 流 会 与 数据 库 系统 交互 。 除 了 工作 流 操作 的 
数据 之 外 ,数据库 还 可 以 存储 工作 流 自身 的 数据 ,包括 构成 工作 流 的 任务 以 及 它们 在 用 户 之 间 移 动 的 
路 径 。 因 此 工作 流 可 以 列 出 一 系列 对 数据 库 的 查询 和 更 新 ， 而 这 些 可 能 会 作为 数据 库 设计 过 程 的 一 个 
部 分 考虑 进来 。 换 句 话 说 ,对 企业 建 模 要 求 我 们 不 仅 要 理解 数据 的 语义 ,还 要 理解 使 用 这 些 数 据 的 业 


务 流程 。 
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7. 10.5 数据 库 设计 的 其 他 问题 

数据 库 设 计 通 常 不 是 一 个 一 践 而 就 的 工作 。 一 个 组 织 的 需求 不 断 发 展 ， 它 所 需要 存储 的 数据 也 会 
相应 地 发 展 。 在 最 初 的 数据 库 设计 阶段 ， 或 者 在 应 用 的 开发 中 ， 数 据 库 设 计 者 都 有 可 能 意识 到 在 概念 、 
逻辑 和 物理 模式 层次 上 要 有 所 改变 。 模 式 上 的 改变 会 影响 到 数据 库 应 用 的 方方面面 。 一 个 好 的 数据 库 
设计 会 预先 估计 一 个 组 织 将 来 的 需要 ， 设 计 出 的 模式 在 需求 发 展 时 只 需要 做 最 少 的 改动 即 可 满足 要 求 。 

区 分 预期 持久 的 基本 约束 和 预期 要 改变 的 约束 非常 重要 。 例 如 ， 教 师 编 号 能 唯一 地 标识 一 名 教师 
的 约束 是 基本 的 。 另 一 方面 ， 大 学 可 能 有 一 项 规定 ， 一 名 教师 只 能 属于 一 个 系 ， 这 条 规定 也 许 会 在 将 
来 改变 ， 如 果 人 允许 联合 任命 的 话 。 只 允许 每 个 教师 属于 一 个 系 的 数据 库 设 计 在 允许 联合 任命 时 会 需要 
较 大 的 改动 。 只 要 每 个 教师 只 有 一 个 主 系 ， 这 种 联合 任命 就 可 以 通过 新 添 一 个 关系 来 表示 ， 而 不 需要 
修改 instructor 关系 。 而 如 果 规 定 改 成 允许 一 个 教师 有 多 个 主 系 时 ， 则 数据 库 设 计 就 需要 进行 较 大 的 改 
动 。 一 个 好 的 设计 应 该 不 止 考虑 当前 的 规定 ， 还 应 该 避免 或 者 最 小 化 由 预计 或 有 可 能 发 生 的 改变 而 带 
来 的 改动 。 

进一步 说 ， 数 据 库 所 服务 的 企业 很 可 能 会 与 其 他 企业 交互 ， 因 此 ， 多 个 数据 库 可 能 需要 进行 交互 。 
不 同 模式 之 间 的 数据 转换 在 现实 世界 的 应 用 中 是 一 个 重要 的 问题 。 对 于 这 个 问题 提出 了 很 多 解决 方案 。 
我 们 将 在 第 23 章 学 习 的 XML 数据 模型 ， 在 不 同 应 用 间 交 换 数 据 时 ， 广 泛 用 于 表示 数据 。 

最 后 ， 不 言 而 喻 ， 数 据 库 设计 在 两 个 意义 上 是 面向 人 的 工作 : 系统 的 最 终 用 户 是 人 (即使 有 应 用 程 
序 位 于 数据 库 和 最 终 用 户 之 间 ) ;数据 库 设 计 者 需要 与 应 用 领域 的 专家 进行 广泛 交互 以 理解 应 用 的 数 
据 需求 。 所 有 涉及 数据 的 人 都 有 需要 和 偏好 ， 为 了 数据 库 设计 和 部 署 在 企业 中 获得 成 功 ， 这 些 都 应 当 
考虑 到 。 


7.11 总 结 


。 数据 库 设计 主要 涉及 数据 库 模式 的 设计 。 实 体 - 联系 ( Entity-Relationship ，E-R) 数据 模型 是 一 个 广泛 
用 于 数据 库 设 计 的 数据 模型 。 它 提供 了 一 个 方便 的 图 形 化 表示 方法 以 查看 数据 、 联 系 和 约束 。 

。 E-R 模型 主要 用 于 数据 库 设 计 过 程 。 它 的 发 展 是 为 了 帮助 数据 库 设 计 ， 这 是 通过 人 允许 定义 企业 模式 

(enterprise schema) 实现 的 。 这 种 企业 模式 代表 数据 库 的 全 局 逻辑 结构 ， 该 全 局 结构 可 以 用 E-R 图 

(E-R diagram) 图 形 化 地 表示 。 

实体 (entity ) 是 在 现实 世界 中 存在 并 且 区 别 于 其 他 对 象 的 对 象 。 我 们 通过 把 每 个 实体 同 描述 该 实体 的 

一 组 属性 相关 联 来 表示 区 别 。 

。 联系 (relationship) 是 多 个 实体 间 的 关联 。 相 同类 型 的 联系 的 集合 为 联系 集 ( relationship set) ， 相 同类 
型 的 实体 的 集合 为 实体 集 ( entity set) 。 

o 术语 超 码 ( superkey) 、 候 选 码 ( candidate key) 以 及 主 码 ( primary key) 同 适 用 于 关系 模式 一 样 适用 于 实 
体 和 联系 集 。 在 确定 一 个 联系 集 的 主 码 时 需要 小 心 ， 因 为 它 由 来 自 一 个 或 多 个 相关 的 实体 集 的 属性 
组 成 。 

© 映射 的 基数 ( mapping cardinality ) 表示 通过 联系 集 可 以 和 男 一 实体 相关 联 的 实体 的 个 数 。 

不 具有 足够 属性 构成 主 码 的 实体 集 称 为 弱 实 体 集 ( weak entity set), AA EMH LARK HRA 

(strong entity set) 。 

E-R 模型 的 各 种 性 质 为 数据 库 设 计 者 提供 了 大 量 的 选择 ， 使 设计 人 员 可 以 最 好 地 表示 被 建 模 的 企业 。 

在 某 些 情况 中 ， 概 念 和 对 象 可 以 用 实体 、 联 系 或 属性 来 表示 。 企 业 总 体 结构 的 各 方面 可 以 用 弱 实 体 

集 、 概 化 、 特 化 或 聚集 很 好 地 描述 。 设 计 者 通常 需要 在 简单 的 、 紧 凑 的 模型 与 更 精确 但 也 更 复杂 的 

模型 之 间 进 行 权衡 。 
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。 用 E-R 图 定义 的 数据 库 设 计 可 以 用 关系 模式 的 集合 来 表示 。 数 据 库 的 每 个 实体 集 和 联系 集 都 有 唯一 
的 关系 模式 与 之 对 应 ， 其 名 称 即 为 相应 的 实体 集 或 联系 集 的 名 称 。 这 是 从 E-R 图 转换 为 关系 数据 库 
设计 的 基础 。 


© 特 化 (specialization) 和 概 化 ( generalization) 定 义 了 一 个 高 层 实 体 集 和 一 个 或 多 个 低层 实体 集 之 间 的 包 


含 关系 。 特 化 是 取出 高 层 实体 集 的 一 个 子 集 来 形成 一 个 低层 实体 集 。 概 化 是 用 两 个 或 多 个 不 相交 的 
(低层 ) 实 体 集 的 并 集 形成 一 个 高 层 实体 集 。 高 层 实体 集 的 属性 被 低层 实体 集 继承 。 

© RW (aggregation) 是 一 种 抽象 ， 其 中 联系 集 ( 和 跟 它 们 相关 的 实体 集 一 起 ) 被 看 作 高 层 实体 集 ， 并 且 
可 以 参与 联系 。 

。 UML 是 一 种 常用 的 建 模 语言 。UML 类 图 广泛 用 于 对 类 建 模 以 及 一 般 的 数据 建 模 。 




























































































术语 回顾 
。 实体 -联系 数据 模型 超 码 、 候 选 码 以 及 主 码 O 分 辩 符 属性 
© 实体 和 实体 集 角色 标识 联系 
口 属性 自 环 联系 集 o 特 化 和 概 化 
口 域 e E-R 图 O 超 类 和 子 类 
简单 和 复合 属性 。 映射 基数 O 属性 继承 
O 单 值 和 多 值 属 性 D 一 对 一 联系 口 单 和 多 继承 
口 空 值 口 一 对 多 联系 O 条 件 定义 的 和 用 户 定义 
口 派生 属性 口 多 对 一 联系 的 成 员 资 格 
。 超 码 、 候 选 码 以 及 主 码 多 对 多 联系 O 不 相交 概 化 和 重 秋 概 化 
。 联系 和 联系 集 。 参与 全 部 概 化 和 部 分 概 化 
口 二 元 联系 集 口 全 部 参与 。 RE 
O 联系 集 的 度 口 部 分 参与 e UML 
口 描述 性 属性 © 弱 实 体 集 和 强 实 体 集 。 UML 类 图 
实践 习题 
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为 车 辆 保险 公司 构建 一 个 E-R 图 ， 它 的 每 个 客户 有 一 辆 或 多 辆 车 。 每 辆 车 关联 零 次 或 任意 次 事故 的 记 

录 。 每 张 保险 单 为 一 辆 或 多 辆 车 保险 ， 并 与 一 个 或 多 个 保费 支付 相关 联 。 每 次 支付 只 针对 特定 的 一 段 

时 间 ， 具 有 关联 的 到 期 日 和 缴费 日 。 

考虑 一 个 用 于 记录 学 生 在 不 同 开课 (section ) 的 不 同 考试 中 所 得 成 绩 的 数据 库 。 

。 为 数据 库 构 造 一 个 E-R 图 ， 其 中 ， 将 考试 建 模 为 实体 并 使 用 一 个 三 元 联系 。 

e 构造 另 一 个 上 E-R 图 ， 其 中 ， 只 用 students 和 section 间 的 二 元 联系 。 保 证 在 特定 student 和 section 对 之 
间 只 存在 一 个 联系 ; 而 且 你 可 以 表示 出 学 生 在 不 同 考试 中 所 得 成 绩 。 

设计 一 个 E-R 图 用 于 跟踪 记录 你 最 喜欢 的 球 队 的 成 绩 。 你 应 该 保存 打 过 的 比赛 ， 每 场 比赛 的 比分 ， 每 

场 比赛 的 上 场 队员 以 及 每 个 队员 在 每 场 比赛 中 的 统计 数据 。 总 的 统计 数据 应 该 被 建 模 成 派生 属性 。 


考虑 一 个 E-R 图 ， 其 中 相同 实体 集 出 现 数 次 ， 且 它 的 属性 重复 出 现 多 次 。 为 什么 这 样 的 元 余 是 应 尽量 
避免 的 不 良 设 计 ? 

E-R 图 可 视 为 一 个 图 。 下 面 这 些 术 语 对 于 一 个 企业 模式 的 结构 意味 着 什么 ? 

a. 图 是 非 连通 的 。 

b. 图 是 有 环 的 。 

如 7.7.3 节 描 述 及 图 7-27b 所 示 ( 属 性 没有 列 出 ) ， 考 虑 用 多 个 二 元 联系 来 表示 一 个 三 元 联系 。 


a. HE, A, BY Cy Ri, Ry 和 Rc 的 一 个 简单 实例 ， 这 个 实例 不 能 对 应 于 4、B、C 入 的 任何 实例 。 

b. 修改 图 7-27b 的 E-R 图 ， 引 入 约束 , HRE, A, BL C, Ri, Ry 和 Re 的 任意 满足 约束 的 实例 将 对 
应 于 4、B8、C 和 的 一 个 实例 。 

c. 修改 以 上 的 转换 以 处 理 该 三 元 联系 上 的 全 部 参与 约束 。 

d 以 上 表示 方式 需要 我 们 为 创建 一 个 主 码 属性 。 试 问 如 何 将 E 看 成 弱 实 体 集 从 而 不 需要 主 码 属性 ? 
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图 7-27 实践 习题 7.6 和 习题 7.24 HERA 


7.7 一 个 弱 实 体 集 总 可 以 通过 往 自己 的 属性 中 加 入 其 标识 实体 集 的 主 码 属性 而 变 成 一 个 强 实体 集 。 概 括 一 
下 如 果 我 们 这 么 做 会 产生 什么 样 的 元 余 。 
7.8 考虑 一 个 关系 ,例如 sec_course， 产 生 于 多 对 一 的 联系 sec_course。 在 这 个 关系 上 创建 的 主 码 约 束 和 外 码 
约束 是 否 强制 实施 多 对 一 的 基数 约束 ? 解释 为 什么 。 
7.9 假设 advisor 联系 是 一 对 一 的 。 为 了 确保 执行 一 对 一 基数 约束 ， 在 关系 advisor 上 需要 哪些 额外 的 约束 ? 
7.10 考虑 实体 集 4 和 8B 之 间 多 对 一 的 联系 尺 。 假 设 从 尺 生 成 的 关系 和 4 生成 的 关系 合并 了 。 在 SQL 中 ， 
参与 外 码 约束 的 属性 可 以 为 空 。 解 释 如 何 使 用 SQL 上 的 not null 约束 来 强制 实施 4 在 R 中 的 全 部 参 
SAR. 
7.11 在 SQL 中 ， 外 码 约束 只 能 参照 被 参照 关系 的 主 码 属性 ,或 者 其 他 用 unique 约束 声明 为 超 码 的 属性 。 
这 导致 多 对 多 联系 (或 者 一 对 多 联系 的 “一 ” 方 ) 上 的 全 部 参与 约束 在 从 该 联系 创建 的 关系 上 无 法 用 关 
系 上 的 主 码 、 外 码 以 及 非 空 约束 强制 实施 。 


a. 解释 为 什么 。 
b. 解释 如 何 使 用 复杂 的 check 约束 或 断言 ( 见 4.4.7 节 ) 强 制 实施 全 部 参与 约束 。( 遗憾 的 是 ， 在 目前 
广泛 使 用 的 数据 库 中 并 不 支持 这 些 特 性 。) 
7.12 图 7-28 所 示 为 概 化 和 特 化 的 一 个 格 结构 (属性 没有 给 出 )。 针 对 
实体 集 4、B 和 C， 说 明 如 何 从 高 层 实体 集 忒 和 了 继承 属性 。 讨 
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论 X 的 一 个 属性 和 了 的 某 个 属性 同名 时 应 如 何 处 理 。 一 
3 ”时 间 变 化 (temporal change): E-R 图 通常 对 一 个 企业 在 某 个 时 |B | Lc | 
间 点 的 状态 建 模 。 假 设 我 们 希望 追踪 时 间 变 化 ， 即 数据 随时 
间 的 变化 。 例 如 ， 张 可 能 在 2005 年 9 月 1 日 至 2009 年 5 月 
31 日 之 间 是 一 名 学 生 ， 而 Shankar 在 2008 年 5 月 31 日 至 2008 年 12 月 5 日 以 及 2009 年 6 月 1 日 
至 2010 年 1 月 5 日 期 间 的 导师 是 Einstein。 类 似 地 ， 一 个 实体 或 联系 的 属性 值 会 随时 间 发 生变 
化 ， 例 如 course 的 title 和 credits, instructor 的 salary 甚至 name， 以 及 student 的 tot_cred。 
对 时 间 变 化 建 模 的 一 种 方法 如 下 。 我 们 定义 一 个 新 的 数据 类 型 有 效 时 间 (valid_time) ， 它 是 
一 个 时 间 段 或 者 时 间 段 的 集合 。 然 后 我 们 将 每 一 个 实体 和 联系 都 与 一 个 valid_time 属性 关联 起 
来 ， 记 录 实 体 或 联系 有 效 的 时 间 段 。 一 个 时 间 段 的 结束 时 间 可 以 是 无 穷 ， 例 如 ， 如 果 Shankar 在 
2008 年 9 月 2 日 成 为 学 生 ， 并 且 目 前 仍 为 学 生 ， 我 们 可 以 将 Shankar 实体 valid_time 时 间 段 的 结 
束 时 间 表 示 为 无 穷 。 类 似 地 ， 我 们 将 值 随时 间 变 化 的 属性 建 模 为 值 的 集合 ， 每 一 个 值 具有 自己 
的 valid_time , 
a. 画 一 个 包含 student 和 instructor 实体 以 及 advisor 联系 并 具有 上 述 扩展 以 追踪 时 间 变 化 的 E-R 图 . 
b. 将 上 面 的 E-R 图 转换 为 一 个 关系 集合 。 
很 明显 ， 上 面 产生 的 关系 集 非 常 复 杂 ， 使 得 像 写 SQL 语句 这 样 的 任务 比较 难 完成 。 另 一 种 使 用 得 


Th 
= 





图 7-28 实践 习题 7. 12 的 E-R 图 


比较 多 的 方法 是 在 设计 E-R 模型 的 时 候 忽略 时 间 变 化 (尤其 是 属性 值 随时 间 变 化 ) ， 然 后 修改 由 E-R 模 


型 生成 的 关系 以 追踪 时 间 变 化 ，8. 9 节 将 对 此 进行 讨论 。 


2 
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解释 主 码 、 候 选 码 和 超 码 这 些 术语 之 间 的 区 别 。 
为 医院 构建 一 个 包含 一 组 病人 和 一 组 医生 的 E-R 图 。 为 每 个 病人 关联 一 组 不 同 的 检查 和 化 验 记录 。 
为 实践 习题 7. 1 ~7. 3 中 的 每 个 E-R 图 构建 适当 的 关系 模式 。 
扩展 实践 习题 7. 3 中 的 E-R 图 ， 以 追踪 整个 联赛 中 所 有 队伍 的 相同 信息 。 
解释 弱 实 体 集 和 强 实体 集 之 间 的 区 别 。 


我 们 可 以 通过 简单 地 增加 一 些 适 当 的 属性 ， 将 任意 弱 实 体 集 转变 成 强 实体 集 。 那 么 ， 我 们 为 什么 还 要 


弱 实体 集 呢 ? 


考虑 图 7-29 中 的 E-R 图 ， 它 对 一 家 网 上 书店 建 模 。 


a. 列 出 实体 集 及 其 主 码 。 


b. 假设 书店 向 其 展览 的 商品 中 增加 了 蓝光 光盘 和 可 下 载 视 频 。 相 同 的 商品 可 能 在 一 种 格式 中 存在 ， 
或 在 两 种 格式 中 都 存在 且 具 有 不 同 的 价格 。 扩 展 E-R 图 来 为 这 个 新 增 需求 建 模 ， 忽 略 对 购物 篮 的 


影响 。 


。 现在 用 概 化 来 扩展 E-R 图 ， 从 而 对 包含 书 、 蓝 光 光 盘 或 可 下 载 视频 的 任意 组 合 的 购物 篮 进行 建 模 。 
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员 订 购车 辆 。 


每 辆 车 由 车 辆 编号 ( Vehicle Identification Number, VIN) 唯一 标识 ， 每 辆 单独 的 车 都 是 公司 提供 的 
特定 品牌 的 特定 模型 (例如 ，XF 是 塔 塔 汽车 捷豹 品牌 的 模型 ) 。 每 个 模型 都 可 以 有 不 同 的 选项 ， 但 是 
一 辆 车 可 能 只 有 一 些 (或 没有 ) 可 用 的 选项 。 数 据 库 需要 保存 关于 模型 、 品 牌 、 选 项 的 信息 ， 


个 经 销 商 、 顾 客 和 车 的 信息 。 
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图 7-29 习题 7.20 AY E-R 图 
为 一 个 汽车 公司 设计 一 个 数据 库 ， 用 于 协助 它 的 经 销 商 维护 客户 记录 以 及 经 销 商 库存 ， 并 协助 销售 人 
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customer 





你 的 设计 应 该 包括 E-R 图 、 关 系 模式 的 集合 ， 以 及 包括 主 码 约束 和 外 码 约束 的 一 组 约束 。 


为 全 球 性 的 快递 公司 (例如 DHL 或 者 Fed EX ) 设 计 一 个 数据 库 。 数 据 库 必须 能 够 追踪 ( 寄 件 的 ) 客户 和 


以 及 每 
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318 








319 








( 收 件 的 ) 客 户 ; 有 些 客户 可 能 两 者 都 是 。 由 于 每 个 包 于 必须 是 可 标识 且 可 追踪 的 ， 因 此 数据 库 必须 
能 够 存储 包 庄 的 位 置信 息 以 及 它 的 历史 位 置 。 位 置 包括 卡车 、 飞 机 、 机 场 和 仓库 。 
你 的 设计 应 该 包括 E-R 图 、 关 系 模式 的 集合 ， 以 及 包括 主 码 约 束 和 外 码 约 束 的 一 组 约束 。 
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320 




















7.23 ”为 航空 公司 设计 一 个 数据 库 。 数 据 库 必须 追踪 客户 和 他 们 的 预订 、 航 班 、 他 们 在 航班 上 的 状态 、 座 位 
分 配 ， 以 及 未 来 航班 的 时 刻 表 和 飞行 路 线 。 
你 的 设计 应 该 包括 E-R 图 、 关 系 模式 的 集合 ， 以 及 包括 主 码 约束 和 外 码 约束 的 一 组 约束 。 

7.24 在 7.7.3 节 ， 我们 用 多 个 二 元 联系 (如 图 7-27b 所 示 ) 来 表示 一 个 三 元 联系 ( 见 图 7-27a) 。 考 虑 图 7- 
27c 中 的 另 一 种 方式 。 讨 论 这 两 种 用 多 个 二 元 联系 来 表示 一 个 三 元 联系 的 方式 的 相对 优点 。 

7.25 考虑 7.6 节 中 所 示 从 图 7-15 的 E-R 图 转化 而 来 的 关系 模式 。 对 于 每 个 模式 ， 指 出 应 该 创建 的 外 码 约 
束 (如 果 有 的 话 ) 。 

7.26 为 机 动车 辆 销售 公司 设计 一 个 概 化 一 特 化 层次 结构 。 该 公司 出 售 摩托 车 、 小 客车 、 货 车 和 大 巴 。 论 述 
你 在 层次 结构 的 各 层 设 定 属性 位 置 的 合理 性 。 说 明 为 什么 它们 不 应 放 在 较 高 的 层次 或 较 低 的 层次 。 

.27 ”说明 条 件 定义 的 和 用 户 定义 的 约束 的 差别 。 系 统 能 自动 检查 哪 种 约束 ? 解释 你 的 答案 。 

.28 ”说明 不 相交 约束 和 重 伙 约束 之 间 的 区 别 。 

-29 解释 全 部 约束 和 部 分 约束 之 间 的 区 别 。 


工具 


许多 数据 库 系统 提供 支持 E-R 图 的 数据 库 设 计 工 具 。 这 些 工 具有 助 于 设计 者 创建 E-R 图 ， 并且 它们 可 
在 数据 库 中 自动 创建 相应 的 表 。 可 参看 第 1 章 文 献 注 解 中 给 出 的 数据 库 系统 厂商 的 网 址 。 

还 存在 一 些 独 立 于 数据 库 并 且 支 持 E-R 图 和 UML 类 图 的 数据 建 模 工具 。 画 图 工具 Dia 是 一 款 免 费 软件 ， 
支持 E-R 图 和 UML 类 图 。 商 用 工具 包括 IBM Rational Rose( www. ibm. com/software/rational ) 、Microsoft Visio 
(UL www. microsoft. com/office/ visio), CA 的 ERwin ( www. ca. com/us/datamodeling. aspx ) Poseidon for UML 


sa NN 


( www. gentleware. com) 和 SmartDraw( www. smartdraw. com) 。 


文献 注解 


E-R 数据 模型 由 Chen[ 1976] 提出。 使 用 扩展 E-R 模型 的 关系 数据 库 的 逻辑 设计 方法 学 由 Teorey 等 
[1986] 给 出 。 由 美国 国家 标准 与 技术 研究 院 (NIST) 所 发 布 的 信息 建 模 综 合 定义 (IDEFIX ) 标准 IDEF1X 
[1993] EXT E-R 图 标准 。 然 而 ， 目 前 使 用 的 E-R 表示 法 有 很 多 种 。 

Thalheim| 2000 ] 提供 了 关于 E-R 建 模 研究 的 一 本 详尽 的 教科 书 。Batini 等 [1992 ] 以 及 ElMasri 和 Navathe 
[ 2006 ] 给 出 了 与 此 相关 的 基本 教材 。Davis 等 [1983 ] 提供 了 关于 E-R 模型 的 论文 集 。 

到 2009 年 为 止 ，UML 的 版 本 已 经 升 至 2.2， 而 UML 2. 3 版 本 也 接近 最 终 版 。 关 于 UML 标准 及 工具 的 更 
多 信息 ， 请 参看 www. uml. org。 
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关系 数据 库 设 计 


在 本 章 中 ， 我 们 考虑 为 关系 数据 库 设计 模式 的 问题 。 其 中 的 许多 问题 和 我 们 在 第 7 章 中 使 用 E-R 
模型 时 所 考虑 的 设计 问题 相似 。 

一 般 而 言 ， 关 系数 据 库 设计 的 目标 是 生成 一 组 关系 模式 ， 使 我 们 存储 信息 时 避免 不 必要 的 元 余 ， 
并 且 让 我 们 可 以 方便 地 获取 信息 。 这 是 通过 设计 满足 适当 范式 (normal form) 的 模式 来 实现 的 。 要 确定 
一 个 关系 模式 是 否 属于 期 望 的 范式 ,我 们 需要 数据 库 所 建 模 的 真实 企业 的 信息 。 其 中 的 一 部 分 信息 存 
在 于 设计 良好 的 E-R 图 中 ,但 是 可 能 还 需要 关于 该 企业 的 额外 信息 。 

本 章 介绍 基于 函数 依赖 概念 的 关系 数据 库 设计 的 规范 方法 。 然 后 根据 函数 依赖 及 其 他 类 型 的 数据 
依赖 来 定义 范式 。 不 过 ,我 们 首先 从 给 定 实体 -联系 设计 转换 得 到 的 模式 的 角度 ， 考 察 关系 设计 的 
问题 。 


8.1 好 的 关系 设计 的 特点 


第 7 章 对 实体 - 联系 设计 的 研究 为 创建 关系 数据 库 设计 提供 了 一 个 很 好 的 起 点 。 我 们 在 7. 6 节 中 
看 到 ， 可 以 直接 从 E-R 设计 生成 一 组 关系 模式 。 显 然 ， 生 成 的 模式 集 的 好 (或 差 ) 首 先 取决 于 E-R 设计 
的 质量 。 本 章 后 面 将 研究 评价 一 组 关系 模式 的 满意 度 的 精确 方法 。 不 过 ， 通 过 利用 我 们 已 学 过 的 概念 ， 
我 们 可 以 向 好 的 设计 迈 一 大 步 。 

为 了 易于 参照 ， 我 们 在 图 8-1 中 重复 大 学 数据 库 的 模式 。 323 


classroom(building, roomnumber, capacity) 
department(dept_name, building, budget) 
course(course.id, title, dept name, credits) 














instructor(ID, name, dept_name, salary) 

section(course_id, secid, semester, year, building, room_number, time_slot_id) 
teaches(ID, course id, sec.id, semester, 1 year) 

student(ID, name, dept_name, tot.cred) 

takes(ID, course_id, sec_id, semester, year, grade) 

advisor(s_ID, iID) a 

time_slot(time_slot_id, day, start_time, end_time) 


prereq(course_id, prereq_id) 


图 8-1 大 学 数据 库 模式 














8.1.1 设计 选择 : 更 大 的 模式 

现在 ， 让 我 们 探究 一 下 这 个 关系 数据 库 设 计 的 特点 ， 以 及 一 些 其 他 的 选择 方案 。 假 定 我 们 用 以 下 
这 个 模式 代替 instructor 模式 和 department 模式 : 

inst_dept (ID, name, salary, dept_name, building, budget ) 

这 表示 在 instructor 和 department 对 应 的 关系 上 进行 自然 连接 的 结果 。 这 似乎 是 个 好 主意 ， 因 为 某 些 查 
询 可 以 用 更 少 的 连接 来 表达 ， 除 非 我 们 仔细 考虑 产生 我 们 的 E-R 设计 的 大 学 的 实际 状况 。 

让 我 们 考虑 图 8-2 中 inst_dept 关系 的 实例 。 注 意 ， 我 们 对 系 里 的 每 个 教师 都 不 得 不 重复 一 遍 系 信 
息 (“ building” 和 “budget”)。 例 如 ， 关 于 计算 机 科学 系 的 信息 是 (Taylor，100000)， 教 师 Katz, 
Srinivasan 和 Brandt 的 元 组 中 均 包 含 该 信息 。 
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所 有 这 些 元 组 的 预算 数额 统一 这 一 点 很 重要 ， 否 则 我 们 的 数据 库 将 会 不 一 致 。 在 使 用 instructor 和 
department 的 原始 设计 中 ， 对 每 个 预算 数额 存储 一 次 。 这 说 明 使 用 inst_dept 是 一 个 坏 主意 ， 因 为 它 重复 
存储 预算 数额 ， 且 要 承担 某 些 用 户 可 能 更 新 一 条 元 组 而 不 是 所 有 元 组 中 的 预算 数额 ， 并 因此 产生 不 一 
致 的 风险 。 

即使 我 们 决定 容许 元 余 的 问题 ，inst_dept 模式 仍 存在 其 他 问题 。 假 设 我 们 在 大 学 里 创立 一 个 新 系 
在 上 面 的 设计 选择 中 ,我 们 无 法 直接 表示 关于 一 个 系 的 信息 (dept_name，building，budget) ， 除 非 该 系 
在 学 校 中 有 至 少 一 位 教师 。 这 是 因为 inst_dept 表 中 的 元 组 需要 ID. name 和 salary 的 值 。 这 意味 着 我 们 
不 能 记录 新 成 立 的 系 的 信息 ， 直 到 该 新 系 录用 了 第 一 位 教师 为 止 。 在 旧 的 设计 中 ， 模 式 department 可 
以 处 理 这 个 情况 ， 但 是 在 修改 的 设计 中 ， 我 们 将 不 得 不 创建 一 条 building 和 budget 为 空 值 的 元 组 。 在 
一 些 情况 下 ， 空 值 会 带 来 麻烦 ， 正 如 我 们 在 SQL 的 学 习 中 所 看 到 的 。 然 而 ， 如 果 我 们 认为 这 种 情况 对 
于 我 们 不 是 问题 的 话 ， 那 么 我 们 可 以 继续 使 用 该 修改 的 设计 。 


























ID name salary | dept-name | building budget 
22222 | Einstein 95000 | Physics Watson | 70000 
12121 | Wu 90000 | Finance Painter | 120000 
32343 | El Said 60000 | History Painter | 50000 
45565 | Katz 75000 | Comp. Sci. | Taylor 100000 
98345 | Kim 80000 | Elec. Eng. Taylor 85000 
76766 | Crick 72000 | Biology Watson 90000 
10101 | Srinivasan | 65000 | Comp.Sci. | Taylor | 100000 
58583 | Califieri 62000 | History Painter | 50000 
83821 | Brandt 92000 | Comp. Sci. | Taylor | 100000 
15151 | Mozart 40000 | Music Packard 80000 
33456 | Gold 87000 | Physics Watson 70000 
76543 | Singh | 80000 | Finance Painter 120000 











图 8-2  inst_dept # 


8.1.2 设计 选择 : 更 小 的 模式 

再 假定 我 们 从 inst_dept 模式 开始 。 我 们 将 如 何 发 现 它 需要 信息 重复 ， 且 应 该 分 成 instructor 和 
department 两 个 模式 呢 ? 

通过 观察 模式 inst_dept 上 实际 关系 的 内 容 ， 我 们 能 够 注意 到 为 每 位 与 系 关 联 的 教师 都 要 列 一 遍 办 
公 楼 和 预算 所 导致 的 信息 重复 。 但 是 ， 这 是 一 个 不 可 靠 的 处 理 方式 。 一 个 真实 的 数据 库 拥有 大 量 模 式 
以 及 数量 甚至 更 多 的 属性 。 元 组 的 数量 可 以 为 数 百 万 或 更 多 。 探 查 重 复 将 代价 高 昂 。 这 个 方法 还 存在 
一 个 甚至 更 根本 的 问题 。 它 使 我 们 无 法 确定 没有 重复 是 否 仅仅 是 一 个 “幸运 的 "特别 情况 ,或 者 它 是 否 
为 一 般 规则 的 表现 。 在 我 们 的 例子 中 ， 我 们 将 如 何 知 道 在 我 们 的 大 学 中 每 个 系 (由 系 名 唯一 标识 ) 必须 
位 于 单个 办 公 楼 中 并 且 必 须 具 有 单个 预算 数额 呢 ? 计算 机 科学 系 的 预算 数额 出 现 三 次 且 完 全 相同 的 情 
况 仅 是 一 个 巧合 吗 ? 如 果 不 回 到 企业 本 身 并 了 解 它 的 规则 ， 我 们 就 无 法 回答 这 些 问题 。 特 别 是 ， 我 们 
将 需要 发 现 大 学 要 求 每 个 系 (由 系 名 唯一 标识 ) 必须 只 有 一 个 办 公 楼 和 一 个 预算 值 。 

在 inst_dept 的 例子 中 ， 我 们 创建 E-R 设计 的 过 程 成 功 避 免 了 这 种 模式 的 产生 。 但 是 ， 这 个 幸运 的 
情况 并 不 总 出 现 。 因 此 ， 我 们 需要 让 数据 库 设 计 者 即使 在 dept_name 不 是 所 讨论 模式 的 主 码 的 情况 下 ， 
也 能 定义 如 “dept_name 的 每 个 特定 的 值 对 应 至 多 一 个 budget” 这样 的 规则 。 换 句 话说 ,我 们 需要 写 这 样 
一 条 规则 “如 果 存 在 模式 ( dept_name，budget) Wi) dept_name 可 以 作为 主 码 ”。 这 条 规则 被 定义 为 函数 依 
赖 (functional dependency) 

dept_name — budget 


给 定 这 样 一 条 规则 ， 我 们 现在 就 有 足够 的 信息 来 发 现 inst_dept 模式 的 问题 了 。 由 于 dept_name 不 能 是 
inst_dept 的 主 码 (因为 一 个 系 可 能 在 模式 inst_dept 上 的 关系 中 需要 多 条 元 组 ) ， 因 此 预算 数额 可 能 会 
重复 。 

类 似 于 这 些 的 观察 及 由 它们 导出 的 规则 ( 在 此 为 隐 数 依赖 ) 让 数据 库 设计 者 可 以 发 现 一 个 模式 应 拆 
分 或 分 解 成 两 个 或 多 个 模式 的 情况 。 不 难 发 现 ， 分 解 inst_dept 的 正确 方法 是 同 原始 设计 一 样 分 解 成 模 
式 instructor 和 department。 对 于 具有 大 量 属 性 和 多 个 函数 依赖 的 模式 ， 找 到 正确 的 分 解 要 难得 多 。 为 了 


处 理 这 种 情况 ， 我 们 将 依靠 本 章 后 面 所 介绍 的 规范 方法 。 


并 不 是 所 有 的 模式 分 解 都 是 有 益 的 。 考 虑 我 们 拥有 的 所 有 模式 都 由 一 个 属性 构成 这 样 一 个 极端 的 
情况 。 任 何 类 型 的 有 意义 的 联系 都 无 法 表示 。 现 在 考虑 一 个 不 那么 极端 的 情况 ,我 们 把 employee 模式 


( 见 7.8 节 ): 


employee (ID, name, street, city, salary) 


分 解 为 以 下 两 个 模式 : 


这 个 分 解 的 缺陷 在 于 企业 可 能 拥有 两 个 同名 的 雇员 。 在 实际 中 这 不 是 不 可 能 的 ， 因 为 许多 文化 中 都 有 
某 些 非常 流行 的 名 字 。 当 然 ， 每 个 人 都 要 有 一 个 唯一 的 雇员 号 ， 这 就 是 D 能 够 作为 主 码 的 原因 。 举 例 


来 说 ， 在 该 大 学 工作 ， 并 且 在 原始 设计 中 的 employee 模式 上 的 关 


employeel (ID, name) 


employee2 (name, street, city, salary) 


让 我 们 假定 两 个 雇员 ， 均 名 为 Kim ， 


系 中 有 以 下 元 组 : 


图 8-3 所 示 为 这 些 元 组 、 利 用 分 解 产 生 的 模式 所 生成 的 元 组 ， 以 及 我 们 试图 用 自然 连接 重新 生成 原始 
元 组 所 得 到 的 结果 。 如 我 们 在 图 8-3 中 看 到 的 ， 那 两 个 原始 元 组 伴随 着 两 个 新 的 元 组 出 现 于 结果 中 ， 
这 两 个 新 的 元 组 将 属于 这 两 个 名 为 Kim 的 职员 的 数据 值 错误 地 混合 在 一 起 。 虽 然 我 们 拥有 较 多 的 元 组 ， 
但 是 实际 上 从 以 下 意义 来 看 我 们 拥有 较 少 的 信息 。 我 们 能 够 指出 某 个 街道 、 城 市 和 工资 信息 属于 一 个 
BA Kim 的 人 ， 但 是 我 们 无 法 区 分 是 哪 一 个 Kim。 因 此 ， 我 们 的 分 解 无 法 表达 关于 大 学 雇员 的 某 些 重 
要 的 事实 。 显 然 ， 我 们 想 要 避免 这 样 的 分 解 。 我 们 将 这 样 的 分 解 称 为 有 损 分 解 (lossy decomposition ) , 
反之 则 称 为 无 损 分 解 (lossless decomposition) 。 


8. 2 


E-R 模型 允许 实体 集 和 联系 集 的 属性 具有 某 些 程度 的 子 结构 。 特 别 地 ， 它 允许 像 图 7-11 中 的 
phone_number 这 样 的 多 值 属性 以 及 组 合 属性 (诸如 具有 子 属 性 street, city, state 以 及 zip 的 属性 address) 。 


(57766, Kim, Main, Perryridge, 75000) 
(98776, Kim, North, Hampton, 67000) 
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| ID | name | street | city salary 
57766 | Kim Main | Perryridge | 75000 
98776 | Kim North | Hampton 67000 
雇员 
Y 
name name | street city salary 
57766 Kim Kim Main | Perryridge | 75000 
987 76 | Kim Kim North | Hampton 67000 
Pa 
| name [D | name | street | city | salary | salary 









Main 
North 
Main 
North 





Hampton 
Perryridge 









75000 
67000 
75000 
67000 


Perryridge 






Hampton 








图 8-3 由 不 好 的 分 解 导致 的 信息 丢失 


原子 域 和 第 一 范式 
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当 从 包含 这 些 类 型 的 属性 的 E-R 设计 创建 表 时 ， 要 消除 这 种 子 结构 。 对 于 组 合 属性 ， 让 每 个 子 属性 本 
身 成 为 一 个 属性 。 对 于 多 值 属 性 ， 为 多 值 集 合 中 的 每 个 项 创建 一 条 元 组 。 
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在 关系 模型 中 ， 我 们 将 属性 不 具有 任何 子 结构 这 个 思想 形式 化 。 一 个 域 是 原子 的 (atomic) ， 如 果 
该 域 的 元 素 被 认为 是 不 可 分 的 单元 。 我 们 称 一 个 关系 模式 R 属于 第 一 范式 (First Normal Form, 1NF), 
如 果 尺 的 所 有 属性 的 域 都 是 原子 的 。 

名 字 的 集合 是 一 个 非 原 子 值 的 例子 。 例 如 ， 如 果 关 系 employee 的 模式 包含 一 个 属性 children, C KI 
域 元 素 是 名 字 的 集合 ， 该 模式 就 不 属于 第 一 范式 。 

组 合 属 性 ， 比 如 包含 子 属 性 street, city, state 和 zip 的 属性 address， 也 具有 非 原子 域 。 

假定 整数 是 原子 的 ， 那 么 整数 的 集合 是 一 个 原子 域 ; 然而 ， 所 有 整数 集 的 集合 是 一 个 非 原子 域 。 
区 别 在 于 ， 我 们 一 般 不 认为 整数 具有 子 部 分 但 是 我 们 认为 整数 的 集合 具有 子 部 分 一 一 构成 该 集合 的 
那些 整数 。 不 过 ， 重 要 的 问题 不 是 域 本 身 是 什么 ， 而 是 在 数据 库 中 如 何 使 用 域 元 素 。 如 果 我 们 认为 每 
个 整数 是 一 列 有 序 的 数字 ,那么 全 部 整数 的 域 就 是 非 原 子 的 。 

作为 上 述 观 点 的 实际 例证 ， 考 虑 一 个 机 构 ， 它 给 雇员 分 配 下 述 样 式 的 标识 号 : 前 两 个 字母 表示 系 ， 
剩 下 的 四 位 数字 是 雇员 在 该 系 内 的 唯一 号 码 。 例 如 这 样 的 号 码 可 以 是 “CS0012” 和 “EE1127”。 这 样 的 标 
识 号 可 以 分 成 更 小 的 单元 ， 因 此 是 非 原子 的 。 如 果 一 个 关系 模式 的 一 个 属性 的 域 是 由 如 上 编码 的 标识 
号 所 组 成 ， 则 该 模式 不 属于 第 一 范式 。 

当 采 用 这 种 标识 号 时 ， 雇 员 所 属 的 系 可 以 通过 编写 解析 标识 号 结构 的 代码 得 到 。 这 么 做 需要 额外 
的 编程 ， 而 且 信 息 是 在 应 用 程序 中 而 不 是 在 数据 库 中 编码 。 如 果 这 种 标识 号 用 作 主 码 ， 还 会 产生 进 一 
步 的 问题 : 当 一 个 雇员 换 了 系 时 ， 该 雇员 的 标识 号 在 它 所 出 现 的 每 个 地 方 都 必须 修改 (这 会 是 一 个 困难 
的 任务 ) ， 和 否则 解释 该 号 码 的 代码 将 会 给 出 错误 的 结果 。 

根据 以 上 讨论 ,我们 可 能 会 使 用 形 如 “CS-101” 的 课程 标识 号 ， 其 中 “ CS” 表示 计算 机 科学 系 ， 这 意 
味 着 课程 标识 号 的 域 不 是 原子 的 。 使 用 该 系统 的 人 认为 这 样 的 域 不 是 原子 的 。 然 而 ， 只 要 数据 库 应 用 
没有 将 标识 号 拆 开 并 将 标识 号 的 一 部 分 解析 为 系 的 缩写 ， 它 仍然 将 该 域 视 为 原子 的 。course 模式 将 系 名 

作为 一 个 单独 的 属性 存储 ， 数 据 库 应 用 就 可 以 根据 这 个 属性 值 找到 课程 所 属 系 ， 而 不 需要 解析 课程 标 
识 号 中 特定 的 字母 。 因 此 ， 我 们 的 大 学 模式 可 以 被 认为 属于 第 一 范式 。 

使 用 以 集合 为 值 的 属性 会 导致 元 余 存储 数据 的 设计 ， 进 而 会 导致 不 一 致 。 比 如 ， 数 据 库 设计 者 可 
能 不 将 教师 和 课程 安排 之 间 的 联系 表示 为 一 个 单独 的 关系 leaches， 而 是 尝试 为 每 一 个 教师 存储 一 个 课 
程 段 标识 号 的 集合 ， 并 为 每 一 个 课程 段 存储 一 个 教师 标识 号 的 集合 。( section 和 instructor 的 主 码 用 作 标 
识 号 。) 每 当 关 于 哪 位 教师 讲授 哪个 课程 段 的 数据 变化 时 ， 必 须 在 两 个 地 方 执行 更 新 : 课程 段 的 教师 集 
合 ， 以 及 教师 的 课程 段 集 合 。 对 两 个 更 新 的 执行 失败 ， 会 导致 数据 库 处 于 不 一 致 的 状态 。 只 保留 其 中 
一 个 集合 ， 即 要 么 课程 段 的 教师 集合 ， 要 么 教师 的 课程 段 集合 ， 将 避免 重复 的 信息 ; 然而 ， 只 保留 其 
中 一 个 集合 将 使 某 些 查询 变 得 复杂 ， 并 且 也 不 好 确定 保留 哪 一 个 。 

有 些 类 型 的 非 原 子 值 使 用 的 时 候 要 小 心 ， 但 是 它们 可 能 很 有 用 。 例 如 ， 组 合 值 属 性 常常 很 有 用 ， 
而 且 很 多 情况 下 以 集合 为 值 的 属性 也 是 有 用 的 ， 所 以 在 E-R 模型 里 这 两 种 值 都 是 支持 的 。 在 许多 含有 
复杂 结构 的 实体 域 中 ， 强 制 使 用 第 一 范式 会 给 应 用 程序 员 造 成 不 必要 的 负担 ， 他 必须 编写 代码 把 数据 
转换 成 原子 形式 。 从 原子 形态 来 回转 换 数据 也 会 有 运行 时 的 额外 开销 。 所 以 在 这 样 的 域 里 支持 非 原 子 
的 值 是 很 有 用 的 。 事 实 上 ， 如 我 们 将 在 第 22 章 看 到 的 ， 现 代数 据 库 系 统 确实 支持 很 多 类 型 的 非 原 子 
值 。 然 而 ， 本 章 我 们 限定 只 讨论 属于 第 一 范式 的 关系 ， 因 此 ， 所 有 的 域 都 是 原子 的 。 


8.3 使 用 函数 依赖 进行 分 解 


在 8.1 节 中 ， 我 们 知道 存在 一 个 规范 方法 判断 一 个 关系 模式 是 否 应 该 分 解 。 这 个 方法 基于 码 和 函 
数 依赖 的 概念 。 
在 讨论 关系 数据 库 设计 的 算法 时 ， 我 们 需要 针对 任意 的 关系 及 其 模式 讨论 ， 而 不 只 是 讨论 例子 。 
回想 第 2 章 对 关系 模型 的 介绍 ， 我 们 在 这 里 对 我 们 的 表示 法 进行 概述 。 
。 一 般 情况 下 ， 我们 用 希腊 字母 表示 属性 集 (例如 a) 。 我 们 用 一 个 小 写 的 罗马 字母 后 面 跟 一 个 用 
一 对 圆 括号 括 住 的 大 写字 母 来 指 关 系 模式 (例如 r(R) ) 。 我 们 用 表示 法 r(R) 表 示 该 模式 是 关系 
rÉ, RR 表示 属性 集 ， 不 过 当 我 们 不 关心 关系 的 名 字 时 经 常 简化 我 们 的 表示 法 而 只 用 Ro 
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当然 ， 一 个 关系 模式 是 一 个 属性 集 ， 但 是 并 非 所 有 的 属性 集 都 是 模式 。 当 使 用 一 个 小 写 的 
希腊 字母 时 ， 我 们 是 指 一 个 有 可 能 是 模式 也 可 能 不 是 模式 的 属性 集 。 当 我 们 希望 指明 属性 集 一 
定 为 一 个 模式 时 ， 就 使 用 罗马 字母 。 
。 当 属 性 集 是 一 个 超 码 时 ， 我 们 用 表示 它 。 超 码 属 于 特殊 的 关系 模式 ， 因 此 我 们 使 用 术语 “K 
是 r(R) 的 超 码 ”。 
。 我 们 对 关系 使 用 小 写 的 名 字 。 在 我 们 的 例子 中 ， 这些 名 字 是 企图 有 实际 含义 的 (例如 
instructor) ， 而 在 我 们 的 定义 和 算法 中 ， 我 们 使 用 单个 字母 ， 比 如 7。 
。 当然 ， 一 个 关系 在 任意 给 定时 间 都 有 特定 的 值 ; 我 们 将 那 看 作 一 个 实例 并 使 用 术语 “r 的 实例 ”。 
当 我 们 明显 在 讨论 一 个 实例 时 ,我 们 可 以 仅 用 关系 的 名 字 ( 例 如 7) 。 
8.3.1 码 和 函数 依赖 
一 个 数据 库 对 现实 世界 中 的 一 组 实体 和 联系 建 模 。 在 现实 世界 中 ， 数据 上 通常 存在 各 种 约束 ( 规 
则 )。 例 如 ， 在 一 个 大 学 数据 库 中 预计 要 保证 的 一 些 约束 有 : 
o 学 生 和 教师 通过 他 们 的 ID 唯一 标识 。 
。 每 个 学 生 和 教师 只 有 一 个 名 字 。 
。 每 个 教师 和 学 生 只 ( 主要) 关联 一 个 系 。° 
。 每 个 系 只 有 一 个 预算 值 ， 且 只 有 一 个 关联 的 办 公 楼 。 
一 个 关系 的 满足 所 有 这 种 现实 世界 约束 的 实例 ， 称 为 关系 的 合法 实例 (legal instance) ; 在 一 个 数据 
库 的 合法 实例 中 所 有 关系 实例 都 是 合法 实例 。 
几 种 最 常用 的 现实 世界 约束 可 以 形式 化 地 表示 为 码 ( 超 码 、 候 选 码 以 及 主 码 ) ， 或 者 下 面 所 定义 的 
函数 依赖 。 
在 2.3 节 中 ， 曾 定义 超 码 的 概念 为 可 以 唯一 标识 关系 中 一 条 元 组 的 一 个 或 多 个 属性 的 集合 。 在 这 
里 重新 表述 该 定义 如 下 : 令 r(R) 是 一 个 关系 模式 。R 的 子 集 天 是 r(R) 的 超 码 (superkey ) 的 条 件 是 : 在 
关系 r(R) 的 任意 合法 实例 中 ， 对 于 7 的 实例 中 的 所 有 元 组 对 t 和 i, A, aA t, Welk) + 
[KK]。 也 就 是 说 ， 在 关系 r(R) 的 任意 合法 实例 中 没有 两 条 元 组 在 属性 集 K 上 可 能 具有 相同 的 值 。 显 
然 ， 如果 r 中 没有 两 条 元 组 在 开 上 具有 相同 的 值 ， 那 么 在 中 一 个 天 值 唯 一 标识 一 条 元 组 。 
鉴于 超 码 是 能 够 唯一 标识 整 条 元 组 的 属性 集 ， 枯 数 依赖 让 我 们 可 以 表达 唯一 标识 某 些 属性 的 值 的 
约束 。 考 虑 一 个 关系 模式 r(R), 令 a C R 有 BC R。 
© 给 定 r(R) 的 一 个 实例 ， 我 们 说 这 个 实例 满足 (satisfy ) 函数 依赖 a 一 B 的 条 件 是 : 对 实例 中 所 有 
元 组 对 二 和 亡 ， 若 三 [a] =t[la], 则 #1[B] =4[B]. 
© 如 果 在 r(R) 的 每 个 合法 实例 中 都 满足 函数 依赖 a 一 B， 则 我 们 说 该 函数 依赖 在 模式 r(R) 上 成 
立 (hold) 。 
使 用 函数 依赖 这 一 概念 ， 我 们 说 如 果 函 数 依赖 K 一 RR 在 r(R) 上 成 立 ， 则 是 r(R) 的 一 个 超 码 。 
也 就 是 说 ， 如 果 对 于 r (R 的 每 个 合法 实例 ， 对 于 实例 中 每 个 元 组 对 4 M, MÆ lK] =t,[K]， 总 有 
t,(R] =4[R]( 即 4 =t)， 则 KK 是 一 个 超 码 。 
函数 依赖 使 我 们 可 以 表示 不 能 用 超 码 表示 的 约束 。 在 8. 1. 2 节 中 我 们 曾 考 虑 模式 : 


inst_dept ( ID, name, salary, dept_name, building, budget) 


在 该 模式 中 函数 依赖 dept_name 一 budget 成 立 ， 因 为 对 于 每 个 系 ( 由 dept_name 唯一 标识 ) 都 存在 唯一 的 
预算 数额 。 
属性 对 (1D，dept_name) 构 成 inst_dept 的 一 个 超 码 ， 我 们 将 这 一 事实 记 做 : 





名“ 一 个 教师 或 一 个 学 生 可 以 和 多 个 系 相 关联 ， 例 如 兼职 教师 或 者 辅修 系 。 我 们 简化 的 大 学 模式 只 对 每 个 教师 或 学 
生 所 关联 的 主 系 建 模 。 一 个 实际 的 大 学 模式 会 在 另外 的 关系 中 表示 次 要 的 关联 。 

© 注意 , 我们 在 这 里 假设 关系 为 集合 。SQL 处 理 多 集 ， 并 且 SQL 中 声明 一 个 属性 集 k 为 主 码 不 仅 需要 当 
1[K] =5(K] Bt = 如 ,还 需要 没有 重复 的 元 组 。SQL 还 要 求 K 集 中 的 属性 不 能 赋予 空 值 。 
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ID, dept_name — name, salary, building, budget 


我 们 将 以 两 种 方式 使 用 函数 依赖 : 
。 判定 关系 的 实例 是 否 满足 给 定 函 数 依赖 集 F。 
© 说 明 合法 关系 集 上 的 约束 。 因 此 ， 我 们 将 只 关心 满足 给 定 函 数 依赖 集 的 那些 关系 实例 。 如 果 我 
们 希望 只 考虑 模式 R 上 满足 函数 依赖 集 下 的 关系 ,我 们 说 五 在 r(R) 上 成 立 。 
让 我 们 考虑 图 8-4 中 的 关系 7 的 实例 ， 看 看 它 满足 什么 函数 依赖 。 注 意 到 4 一 C 是 满足 的 。 存 在 








两 条 元 组 的 A 值 为 a,。 这 些 元 组 具有 相同 的 C 值 , c,。 类 似 地 , AM [Aa [CTD] 
为 a, 的 两 条 元 组 具有 相同 的 C 值 ，c,。 没 有 其 他 元 组 对 具有 相同 的 4 ala le [la | 
值 。 但 是 ， 函 数 依赖 C 一 4 是 不 满足 的 。 为 了 说 明 这 一 点 ， 考 虑 元 (oje a | 中 | 

2 2 | #2 | 











#1 t, =(a,, b3, ¢,, di) MITCH t, = (a, b3, c2, ds)。 这 两 条 元 组 具有 
相同 的 C 值 ，c ， 但 它们 具有 不 同 的 A 值 , 分别 为 a, Ma Ast, 
我 们 找到 一 对 元 组 二 Mt, 使 得 au[C] =1,[C], fat [A] #4[A], 图 8-4 关系 r 的 实例 的 例子 

有 些 函 数 依赖 称 为 平凡 的 (trivial) ， 因 为 它们 在 所 有 关系 中 都 满 
足 。 例 如 ,4 一 4 在 所 有 包含 属性 4 的 关系 中 满足 。 从 字面 上 看 函数 依赖 的 定义 ， 我 们 知道 ， 对 所 有 
WE [A] =t,[4] 的 元 组 ti Me, At [A] nl]. A, AB 一 4 也 在 所 有 包含 属性 4 的 关系 中 满 
足 。 一 般 地 ， 如 果 B S a， 则 形 如 a 一 p 的 函数 依赖 是 平凡 的 。 

重要 的 是 ， 要 认识 到 一 个 关系 实例 可 能 满足 某 些 函数 依赖 ， 它 们 并 不 需要 在 关系 的 模式 上 成 立 。 


a2 b3 | C) 
as | bs |c | da | 


— 

















在 图 8-5 的 classroom 关系 的 实例 中 ， 我 们 发 现 room _number > | building | roomnumber | capacity ; 
capacity 是 满足 的 。 但 是 ， 我 们 相信 ， 在 现实 世界 中 ， 不 同 建筑 里 | Packard | 101 500 
的 两 个 教室 可 以 具有 相同 的 房间 号 , 但 具有 不 同 的 空间 大 小 。 因 a | 3 
此 ， 有 时 有 可 能 存在 一 个 classroom 关系 的 实例 , 不 满足 room_ | Watson | 100 30 
number 一 capacity。 所 以 ， 我 们 不 将 room_number — capacity 包含 于 Watson | 120 | 





classroom KA WT | ALI AE ATT, FRSA 8-5 classroom 关系 的 实例 
BAK building, room_number — capacity 在 classroom 模式 上 成 立 。 

给 定 关 系 r(R) ERKKA F, A BT BE Se HE HE H fib 99 OA E — E EARRA E R 
立 。 例 如 ， 给 定 模式 (A, B, C), WRAAK A — BAB C fer ERZ, AHER RAKE A 一 
C 也 一 定 在 > 上 成 立 。 这 是 因为 ， 给 定 4 的 任意 值 ， 仅 存在 号 的 一 个 对 应 值 ， 且 对 于 B 的 那个 值 ， 只 
能 存在 C 的 一 个 对 应 值 。 我 们 稍 后 将 在 8. 4. 1 节 学 习 如 何 进 行 这 种 推导 。 

我 们 将 使 用 天 "符号 来 表示 下 集合 的 闭 包 (closure) ， 也 就 是 能 够 从 给 定 下 集合 推导 出 的 所 有 函数 依 
赖 的 集合 。 显 然 ，F' 包含 下 中 所 有 的 函数 依赖 。 
8. 3.2 Boyce-Codd 范式 

我 们 能 达到 的 较 满意 的 范式 之 一 是 Boyce-Codd 范式 (Boyce-Codd Normal Form，BCNF ) 。 它 消除 所 
有 基于 函数 依赖 能 够 发 现 的 元 余 ， 虽 然 ， 如 我 们 将 在 8. 6 节 中 看 到 的 ， 可 能 有 其 他 类 型 的 元 余 还 保留 
着 。 具 有 函数 依赖 集 F 的 关系 模式 R 属于 BCNF AEE, UF 中 所 有 形 如 a 一 B 的 函数 依赖 ( 其 中 
aC REBER), 下面 至 少 有 一 项 成 立 : 

e a 一 BB 是 平凡 的 函数 依赖 ( 即 , 6Ca)。 

© a 是 模式 R 的 一 个 超 码 。 

一 个 数据 库 设计 属于 BCNF 的 条 件 是 ， 构 成 该 设计 的 关系 模式 集中 的 每 个 模式 都 属于 BCNF, 

我 们 已 经 在 8. 1 节 中 见 过 了 不 属于 BCNF 的 关系 模式 的 例子 : 


inst_dept (ID, name, salary, dept name, building, budget ) 


函数 依赖 dept_name — budget 在 inst_dept 上 成 立 ， 但 是 dept_name 并 不 是 超 码 (因为 一 个 系 可 以 有 多 个 
不 同 的 教师 ) 。 在 8. 1.2 节 中 ， 我 们 看 到 把 inst_dept 分 解 为 instructor 和 department 是 一 个 更 好 的 设计 。 
模式 instructor 属于 BCNF。 所 有 成 立 的 非 平 凡 的 郴 数 依赖 ， 例 如 : 


ID — name, dept_name, salary 
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在 箭头 的 左 侧 包含 ID, H. ID 是 instructor 的 一 个 超 码 (事实 上 ， 在 这 个 例子 中 ， 是 主 码 ) 。( 也 就 是 
说 ， 在 不 包含 ID 的 另 一 侧 上 ， 对 于 name, dept_name 和 salary 的 任意 组 合 不 存在 非 平凡 的 函数 依赖 ,) 
因此 ，insiructor 属于 BCNF, 

类 似 地 ，department 模式 属于 BCNF， 因 为 所 有 成 立 的 非 平凡 函数 依赖 ， 例 如 : 

dept_name — building, budget 333 

在 箭头 的 左 侧 包含 dept_name, H. dept_name 是 department 的 一 个 超 码 ( 和 主 码 )。 因 此 ，department 属于 
BCNF 。 

我 们 现在 讲述 分 解 不 属于 BCNF 的 模式 的 一 般 规 则 。 设 R 为 不 属于 BCNF 的 一 个 模式 。 则 存在 至 
少 一 个 非 平 凡 的 函数 依赖 a 一 8， 其 中 a 不 是 RR 的 超 码 。 我 们 在 设计 中 用 以 下 两 个 模式 取代 R: 

e (a UB) 

e (R - (B - a)) 

在 上 面 的 inst_dept 例子 中 ,a = dept_name, B= | building, budget! , H inst_dept 被 取代 为 : 

e (a U B) = (dept_name, building, budget) 

e (R - (B - a))=(ID, name, dept_name, salary) 

在 这 个 例子 中 ， 结 果 是 6 -w=B8。 我 们 需要 像 上 述 那样 的 表述 规则 ， 从 而 正确 处 理 箭头 两 边 都 出 
现 的 属性 的 函数 依赖 。 技 术 上 的 原因 我 们 会 在 8. 5. 1 节 介 绍 。 

当 我 们 分 解 不 属于 BCNF 的 模式 时 ， 产 生 的 模式 中 可 能 有 一 个 或 多 个 不 属于 BCNF。 在 这 种 情况 
中 ， 需 要 进一步 分 解 ， 其 最 终结 果 是 一 个 BCNF 模式 集合 。 
8. 3.3 BCNF 和 保持 依赖 


我 们 已 经 看 到 多 种 表达 数据 库 一 致 性 约束 的 方式 : EBAR, RAUKE, check 约束 、 断 言 和 触发 
器 。 在 每 次 数据 库 更 新 时 检查 这 些 约 束 的 开销 很 大 ， 因 此 ， 将 数据 库 设 计 成 能 够 高 效 地 检查 约束 是 很 
有 用 的 。 特 别 地 ， 如 果 函 数 依赖 的 检验 仅 需要 考虑 一 个 关系 就 可 以 完成 ， 那 么 检查 这 种 约束 的 开销 就 
很 低 。 我 们 将 看 到 ， 在 有 些 情况 下 ， 到 BCNF 的 分 解 会 妨碍 对 某 些 函数 依赖 的 高 效 检查 。 

对 此 举例 ， 假 定 我 们 对 我 们 的 大 学 机 构 做 一 个 小 的 改动 。 在 图 7-15 的 设计 中 ， 一 位 学 生 只 能 有 一 
位 导师 。 这 是 由 从 student 到 advisor 的 联系 集 advisor 为 多 对 一 而 推断 出 的 。 我 们 要 做 的 "小 "改动 是 一 个 
教师 只 能 和 单个 系 关 联 ， 且 一 个 学 生 可 以 有 多 个 导师 ， 但 是 一 个 给 定 的 系 中 至 多 一 位 。 © 

利用 E-R 设计 实现 这 个 改动 的 一 种 方法 是 ， 把 联系 集 advisor FR AW REA instructor, student 
和 department 的 三 元 联系 集 dept_advisor， 它 是 从 | instructor, student | 对 到 department 多 对 一 的 ， 如 图 8-6 
所 示 。 该 E-R 图 指明 了 “一 个 学 生 可 以 有 多 位 导师 ,但 是 对 应 于 一 个 给 定 的 系 最 多 只 有 一 个 ”的 约束 。 
department 


dept name 
building 
budget 


student 
dept_advisor ID 
name 


tot_cred 








ID 


name 
salary 








图 8-6 HRA dept_advisor 


对 应 于 新 的 E-R Al, instructor, department 和 student 的 模式 没有 变 。 然 而 ， 从 dept_advisor 导出 的 模 
式 现 在 为 : 


dept_advisor (s_ID, i_ID, dept_name) 


虽然 没有 在 E-R 图 中 指明 ， 不 过 假定 我 们 有 附加 的 约束 “一 位 教师 只 能 在 一 个 系 担任 导师 。 





O 这 样 的 安排 对 于 双 专 业 的 学 生 是 有 意义 的 。 
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那么 ， 下 面 的 函数 依赖 在 dept_advisor 上 成 立 : 


i_ID 一 dept_name 
s_ID, dept_name — i_ID 


第 一 个 函数 依赖 产生 于 我 们 的 需求 “一 位 教师 只 能 在 一 个 系 担任 导师 ”。 第 二 个 函数 依赖 产生 于 我 们 的 
需求 “对 于 一 个 给 定 的 系 ， 一 个 学 生 可 以 有 至 多 一 位 导师 ”。 

注意 ， 在 这 种 设计 中 ， 每 次 一 名 教师 参与 一 个 dept_advisor 联系 的 时 候 ， 我 们 都 不 得 不 重复 一 次 系 
的 名 称 。 我 们 看 到 dept_advisor 不 属于 BCNF, AX i ID 不 是 超 码 。 根 据 BCNF 分 解 规 则 ， 得 到 : 

(s_ID, iID) 

(i_ID, dept_name) 
上 面 的 两 个 模式 都 属于 BCNF。( 事 实 上 ， 你 可 以 验证 ， 按 照 定义 任何 只 包含 两 个 属性 的 模式 都 属于 
BCNF。) 然 而 注意 ,在 BCNF 设计 中 ,没有 一 个 模式 包含 函数 依赖 s_ID，dept_name 一 i_ID 中 出 现 的 所 
有 属性 。 

由 于 我 们 的 设计 使 得 该 函数 依赖 的 强制 实施 在 计算 上 很 困难 ， 因 此 我 们 称 我 们 的 设计 不 是 保持 依 
赖 的 (dependency preserving), “由 于 常常 希望 保持 依赖 ， 因 此 我 们 考虑 另外 一 种 比 BCNF 弱 的 范式 ， 
它 允 许 我 们 保持 依赖 。 该 范式 称 为 第 三 范式 。° 
8.3.4 第 三 范式 

BCNF 要 求 所 有 非 平凡 函数 依赖 都 形 如 a 一 p, EF a 为 一 个 超 码 。 第 三 范式 (3NF ) 稍微 放宽 了 这 
个 约束 ， 它 允许 左 侧 不 是 超 码 的 某 些 非 平凡 函数 依赖 。 在 定义 3NF 之 前 ， 我 们 回想 到 候选 码 是 最 小 的 
超 码 一 一 任何 真子 集 都 不 是 超 码 的 超 码 。 

具有 函数 依赖 集 下 的 关系 模式 RR 属于 第 三 范式 (third normal form) 的 条 件 是 : 对 于 F PHA UM 
a 一 B 的 函数 依赖 (其 中 aC R 且 BC R)， 以 下 至 少 一 项 成 立 : 

。 a 一 BB 是 一 个 平凡 的 函数 依赖 。 

。 wa 是 尺 的 一 个 超 码 。 

。 B- a 中 的 每 个 属性 4 都 包含 于 RR 的 一 个 候选 码 中 。 
注意 上 面 的 第 三 个 条 件 并 没有 说 单个 候选 码 必须 包含 8 - a 中 的 所 有 属性 ; 6 - a 中 的 每 个 属性 4 可 
能 包含 于 不 同 的 候选 码 中 。 

前 两 个 条 件 与 BCNF 定义 中 的 两 个 条 件 相同 。3NF 定义 中 的 第 三 个 条 件 看 起 来 很 不 直观 ， 并 且 它 
的 用 途 也 不 是 显而易见 的 。 在 某 种 意义 上 ， 它 代表 BCNF 条 件 的 最 小 放宽 ， 以 确保 每 一 个 模式 都 有 保 
持 依赖 的 3NF 分 解 。 它 的 用 途 在 后 面 介绍 3NF 分 解 时 会 变 得 更 清楚 。 

注意 任何 满足 BCNF 的 模式 也 满足 3NF， 因 为 它 的 每 个 函数 依赖 都 将 满足 前 两 个 条 件 中 的 一 条 。 
所 以 BCNF 是 比 3NF 更 严格 的 范式 。 

3NF 的 定义 允许 某 些 BCNF 中 不 允许 的 函数 依赖 。 只 满足 3NF 定义 中 第 三 个 条 件 的 依赖 a 一 B 在 
BCNF 中 是 不 允许 的 ， 但 在 3NF 中 是 允许 的 。® 

现在 我 们 再 次 考虑 联系 集 dept_adwisor， 它 具有 以 下 函数 依赖 : 


i_ID 一 dept_name 
s_ID, dept_name — i_ID 


在 8.3.3 节 中 我 们 说 函数 依赖 “万 一 > dept_name” 34 dept _advisor 模式 不 属于 BCNF。 注 意 这 里 
a=i_ID, B= dept_name, FH B -a= dept_name, AF PR RK Hi s_ID, dept_name — i_ID 在 dept_ 
advisor 上 成 立 ， 于 是 属性 dept_name 包含 于 一 个 候选 码 中 ， 因 此 dept_advisor 属于 3NF。 





日 ”从 技术 上 来 说 ， 由 于 存在 逻辑 上 蕴涵 该 依赖 的 其 他 依赖 ， 因 此 属性 在 任何 一 个 模式 中 都 不 完全 出 现 的 依赖 也 隐 
含 地 强制 实施 了 。 稍 后 我 们 将 在 8. 4. 5 节 讨 论 这 个 问题 。 

你 可 能 注意 到 我 们 跳 过 了 第 二 范式 。 第 二 范式 只 有 历史 意义 ， 已 经 不 在 实际 中 使 用 了 。 

这 些 依 赖 是 传递 依赖 ( transitive dependency ) 的 例子 (参见 实践 习题 8. 16 ) 。 3NF 的 原始 定义 就 是 由 传递 依赖 而 来 
的 ， 我 们 所 使 用 的 定义 与 之 等 价 但 更 容易 理解 。 


© 
© 
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我 们 已 经 看 到 ， 当 不 存在 保持 依赖 的 BCNF 设计 时 ， 必 须 在 BCNF 和 3NF 之 间 进 行 权衡 。 这 些 权 
衡 将 在 8.5.4 节 详 细 讨 论 。 
8. 3.5 更 高 的 范式 
在 某 些 情况 中 ， 使 用 函数 依赖 分 解 模式 可 能 不 足以 避免 不 必要 的 信息 重复 。 考 虑 在 instructor 实体 
集 定义 中 的 小 变化 ， 我 们 为 每 个 教师 记录 一 组 孩子 名 字 以 及 一 组 电话 号 码 。 电 话 号 码 可 以 被 多 个 人 共 
享 。 因 此 ，phone_number 和 child_name 将 是 多 值 属性 ， 并 且 根 据 我 们 从 E-R 设计 生成 模式 的 规则 ， 我 
们 会 有 两 个 模式 ， 多 值 属性 phone_number 和 child_name 中 每 个 属性 对 应 一 个 模式 : 
(ID, child_name) 
(ID, phone_number ) 
如 果 我 们 合并 这 些 模式 而 得 到 
(ID, child_name, phone_number ) 


我 们 会 发 现 该 结果 属于 BCNF， 因 为 只 有 平凡 的 函数 依赖 成 立 。 因 此 我 们 可 能 认为 这 样 的 合并 是 个 好 主 
意 。 然 而 ， 通 过 考虑 有 两 个 孩子 和 两 个 电话 号 码 的 教师 的 例子 ， 我 们 会 发 现 这 样 的 合并 是 一 个 坏 主意 。 
例如 ， 令 ID 为 99999 的 教师 有 两 个 孩子 ， 叫 作 “David” 和 “William”， 以 及 有 两 个 电话 号 码 ，512 - 555 - 
1234 和 512 -555 - 4321, 在 合并 的 模式 中 ， 我 们 必须 为 每 个 家 属 重复 一 次 电话 号 码 : 
(99999, David, 512 -555 - 1234) 
(99999, David, 512 -555 -4321 ) 
(99999, William, 512 -555 - 1234) 
(99999, William, 512 -555 -4321 ) 
如 果 我 们 不 重复 电话 号 码 ， 且 只 存储 第 一 条 和 最 后 一 条 元 组 ， 我 们 就 记录 了 家 属 名 字 和 电话 号 码 ， 
但 是 结果 元 组 将 暗 指 David 对 应 于 512 -555 - 1234， 而 William 对 应 于 512 -555 - 4321。 我 们 知道 ， 这 [337 ， 
是 不 正确 的 。 
由 于 基于 函数 依赖 的 范式 并 不 足以 处 理 这 样 的 情况 ， 因 此 定义 了 另外 的 依赖 和 范式 。 我 们 在 8. 6 
和 8.7 节 对 此 进行 讲述 。 


8.4 函数 依赖 理论 


在 例子 中 我 们 已 经 看 到 ， 作 为 检查 模式 是 否 属于 BCNF 或 3NF 这 一 过 程 的 一 部 分 ， 能 够 对 函数 依 
赖 进行 系统 地 推理 是 很 有 用 的 。 
8.4.1 函数 依赖 集 的 闭 包 

我 们 将 会 看 到 ， 给 定 模式 上 的 函数 依赖 集 ,我 们 可 以 证 明 某 些 其 他 的 函数 依赖 在 模式 上 也 成 立 。 
我 们 称 这 些 函 数 依赖 被 "逻辑 蕴涵 "。 当 检验 范式 时 ， 只 考虑 给 定 的 函数 依赖 集 是 不 够 的 ; 除 此 以 外 ， 
还 需要 考虑 模式 上 成 立 的 所 有 函数 依赖 。 

更 正式 地 ， 给 定 关系 模式 r(R) ， 如 果 r(R) 的 每 一 个 满足 的 实例 也 满足 f， 则 R 上 的 函数 依赖 
被 + 上 的 函数 依赖 集 下 逻辑 蕴涵 (logically imply) 。 

假设 我 们 给 定 关 系 模式 (A, B, C, G, H, 1) 及 函数 依赖 集 : 


A—B 
A—C 
CC — H 
CG— 1 
B—H 





那么 函数 依赖 

A— H 
被 逻辑 蕴涵 。 也 就 是 说 ， 我 们 可 以 证 明 ， 一 个 关系 只 要 满足 给 定 的 函数 依赖 集 ， 这 个 关系 也 一 定 满足 
4 一 HH。 假设 元 组 1 Rt, 满足 


190 ”第 二 部 分 ”数据库 设计 




















339 








t,[A] =t,[A] 


由 于 已 知 4 一 B， 因 此 由 函数 依赖 的 定义 推出 
[B] =1,[B 


那么 ， 又 由 于 已 知 BB 一 ,因此 由 函数 依赖 的 定义 推出 

t,(H] =t,[H 
因此 ， 我们 证 明了 ， 对 任意 两 个 元 组 t 及 it,， 只 要 4[4] =A], WEA nH] =t,[H]。 而 这 正 是 
A> HWE. 

S FAT RRA. F 的 闭 包 是 被 逻辑 蕴涵 的 所 有 函数 依赖 的 集合 ， 记 作 PF o AEF, a 
以 由 函数 依赖 的 形式 化 定义 直接 计算 出 严 。 如 果 丰 很 大 ， 则 这 个 过 程 将 会 很 长 而 且 很 难 。 这 一 Faz 
算 需 要 论证 ， 就 像 刚 才 用 于 证 明 4 一 五 在 依赖 集 例子 的 闭 包 中 的 那 种 论证 。 

公理 (axiom) ， 或 推理 规则 ， 提 供 了 一 种 用 于 推理 函数 依赖 的 更 为 简单 的 技术 。 在 下 面 的 规则 中 ， 
我 们 用 希腊 字母 (a, 6，y，…) 表 示 属 性 集 ， 用 字母 表 中 从 开头 起 的 大 写 罗马 字母 表示 单个 属性 。 我 
们 用 aB 表示 a U Bo 

我 们 可 以 使 用 以 下 三 条 规则 去 寻找 逻辑 蕴涵 的 函数 依赖 。 通 过 反复 应 用 这 些 规则 ， 可 以 找 出 给 定 
的 全 部 。 这 组 规则 称 为 Armstrong 公理 ( Armstrong's axiom) ， 以 纪念 首次 提出 这 一 公理 的 人 。 

。 自 反 律 (reflexivity rule), Ga 为 一 属性 集 且 BCGa,， 则 a 一 B 成 立 。 

© 增补 律 (augmentation rule), # a 一 B MIA y 为 一 属性 集 ， 则 ya 一 yB 成 立 。 

o 传递 律 (transitivity rule), Æ a > 8 FB — y Ki, Wa 一 y 成 立 。 

Armstrong 公理 是 正确 有 效 的 (sound) ， 因 为 它们 不 产生 任何 错误 的 函数 依赖 。 这 些 规则 是 完备 的 
(complete) ， 因 为 ， 对 于 给 定 函 数 依赖 集 下 ， 它 们 能 产生 全 部 OF* 。 文 献 注解 提供 了 对 正确 有 效 性 和 完 
备 性 的 证 明 的 参考 。 

虽然 Armstrong 公理 是 完备 的 ， 但 是 直接 用 它们 计算 FF 会 很 麻烦 。 为 进一步 简化 ， 我 们 列 出 另外 
的 一 些 规则 。 可 以 用 Armstrong 公理 证 明 这 些 规 则 是 正确 有 效 的 (参见 实践 习题 8.4、8.5 及 习题 8. 26)。 

。 合并 律 (union rule), Æ a >p Aa —> yR, 则 a 一 By 成立。 

© 分 解 律 (decomposition)。 若 a 一 By 成 立 W) a — g8 F a —> y 成立 。 

o 伪 传 递 律 (pseudotransitivity rule), # a —> B Fl yB > 6 HI, Way 一 5 成 立 。 

让 我 们 将 规则 应 用 于 模式 R= (A, B, C, G, H, 1) 及 函数 依赖 集 F 14 一 B, 4 一 C, CG +H, CC 一 
I, BH}, BAM Fo 中 的 几 个 依赖 : 

e 4 一 且 。 由 于 4 一 B 和 B 一 成立 ， 因 此 使 用 传递 律 。 可 以 看 到 使 用 Armstrong 公理 证 明 4 一 

及 成 立 比 本 节 前 面 直接 使 用 定义 论证 要 简单 得 多 。 
e CG 一 HI。 由 于 CG 一 五 和 CG 一 1 成 立 ， 因 此 由 合并 律 推出 CG 一 HI, 

















e 4 一刀 由 于 有 4 一 C 且 CC 一 1， 因 此 由 伪 [pp 
传递 律 推出 AG 一 了 成立。 repent 
AG 一 了 的 另 一 种 推理 方法 如 下 : 我 们 在 4 一 C 上 for F* dimiy " 
F x Ef EW 24 曾 补 律 

使 用 增补 律 从 而 推出 AG 一 CG。 在 这 个 依赖 和 CG 一 I aa 
上 使 用 传递 率 ， 我 们 推出 AG 一 IL for each F+ 中 的 一 对 函数 依赖 f 入 

图 8-7 给 出 形式 化 地 示范 如 何 使 用 Armstrong 公理 证 记 和 卢 可 以 使 用 传递 律 结合 起 来 
HE F 的 过 程 。 在 这 个 过 程 中 ， 当 一 个 函数 依赖 加 入 ” ”将 结果 加 入 到 FY 中 
F* 时 ， 它 可 能 已 经 存在 了 ， 这 时 F 没有 变化 。 我 们 WE ARERR 
将 在 8. 4. 2 节 看 到 另 一 种 计算 F 的 算法 。 图 8-7 计算 F* 的 过 程 


函数 依赖 的 左边 和 右边 都 是 R 的 子 集 。 由 于 包含 个 元 素 的 集合 有 2" 个 子 集 ， 因 此 共有 2" x 2" = 
2” 个 可 能 的 函数 依赖 ， 其 中 是 及 中 的 属性 个 数 。 除 最 后 一 次 迁 代 外 ， 每 一 次 执行 repeat 循环 都 至 少 
往 FF 里 加 入 一 个 函数 依赖 。 因 此 ， 该 过 程 保证 可 以 终止 。 
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8.4.2 属性 集 的 闭 包 
如 果 a 一 B， 我 们 称 属性 B 被 a 函数 确定 (functionally determine) 。 要 判断 集合 a 是 否 为 超 码 ， 我 们 必 
须 设计 一 个 算法 ， 用 于 计算 被 a 函数 确定 的 属性 集 。 一 种 方法 是 计算 Rh ， 找 出 所 有 左 半 部 为 a 的 函数 
依赖 ， 并 合并 这 些 函 数 依赖 的 右 半 部 。 但 是 这 么 做 开销 很 大 ， 因 为 六 可 能 很 大 。 

在 本 节 后 面 我 们 将 看 到 ， 一 个 用 于 计算 被 a 函数 确定 的 属性 集 的 高 效 算法 不 仅 可 以 用 来 判断 a 是 
否 为 超 码 ， 还 可 以 用 于 其 他 的 一 些 任务 。 

令 a 为 一 个 属性 集 。 我 们 将 函数 依赖 集 下 被 a 函数 确定 的 所 有 属性 的 集合 称 为 下 a WAE, 


记 为 a 。 图 8-8 是 以 伪 码 写 的 计算 a 的 算法 。 输 入 是 函数 依赖 集 和 属性 集 w。 输 出 存储 在 变量 
result 中 。 





result:= Qi 
t 
for each 函数 依赖 Br in F do 
begin 
if BC result then result := result U y; 


end 
until (result 不 变 ) 


图 8-8 HBF Pah a’ 的 算法 


为 解释 该 算法 如 何 进行 ,我们 将 用 它 计算 8. 4. 1 节 中 定义 的 函数 依赖 集 下 的 (4C) ” 。 开 始 时 result = 
AG, 在 第 一 次 执行 repeat 循环 测试 各 个 函数 依赖 时 ， 我们 发 现 
e 由 4 一 B， 于 是 将 BB 加 入 result。 这 是 因为 ,我们 观察 到 4 — BIRT F, A Cresult( BAG), 所 
以 resui:= result U B, 
e HA—C, result ZH ABCC, 
e H CG — H, result 变 为 ABCGH, 
e 由 CG — 1, result 变 为 ABCGHI, 
我 们 第 二 次 执行 repeat 循环 时 ， 没 有 新 属性 加 入 result, 算法 终止 。 
让 我 们 看 看 图 8-8 的 算法 为 什么 正确 。 第 一 步 正 确 ， 因 为 a 一 a 总 是 成 立 ( 由 自 反 律 ) 。 我 们 说 ， 
对 result 的 任意 子 集 6， 有 a 一 B。 由 于 开始 repeat 循环 时 a 一 > result 为 真 ， 因 此 只 要 BCresult 且 B 一 
y, WPH y 加 入 result 中 。 而 由 自 反 律 得 到 result — B， 故 由 传递 律 得 到 a 一 B。 再 应 用 传递 律 就 得 到 
a 一 y( 由 a 一 B 及 B 一 y)。 由 合并 律 可 推出 a result U y, HA a 函数 确定 repeat 循环 中 产生 的 任 
意 新 结果 。 也 就 是 说 ,该 算法 所 返回 的 任意 属性 都 属于 a. 
容易 证 明 ， 该 算法 找 出 a 的 全 部 属性 。 在 执行 当中 ， 如 果 存 在 属性 属于 a 却 还 不 属于 result, W 
必定 存在 函数 依赖 8 一 y( 其 中 BCresult) 并 且 y 中 至 少 有 一 个 属性 不 在 result 中 。 当 该 算法 结束 时 ， 所 
有 的 函数 依赖 都 已 经 处 理 过 ，y 中 的 属性 都 已 经 加 到 result 中 ; 因此 我 们 可 以 确定 w 中 的 所 有 属性 都 340 
在 result 中 。 1 
经 证 明 ， 在 最 坏 情况 下 ， 该 算法 的 执行 时 间 为 集合 规模 的 二 次 方 。 有 一 个 更 快 的 算法 (但 略微 
复杂 一 点 儿 ) ， 执 行 时 间 与 的 规模 呈 线 性 关系 ; 这 个 算法 作为 实践 习题 8. 8 的 一 部 分 进行 介绍 。 
属性 闭 包 算法 有 多 种 用 途 : 
。 为 了 判断 a 是否 为 超 码 ， 我 们 计算 w”， 检 查 a 是否 包含 尺 中 的 所 有 属性 。 
。 通过 检查 是 否 BCa' ,我 们 可 以 检查 函数 依赖 a — B 是 否 成 立 (或 换 句 话说 ， 是 否 属于 F' )。 也 就 
是 说 ， 我 们 用 属性 闭 包 计算 a* ， 看 它 是 否 包含 B。 本 章 后 面 我 们 将 会 看 到 这 种 检查 非常 有 用 。 
© 该 算法 给 了 我 们 另 一 种 计算 F 的 方法 : 对 任意 的 yYCR， 我 们 找 出 闭 包 y*; 对 任意 的 SCy”， 
我 们 输出 一 个 函数 依赖 y 一 5。 
8.4.3 正则 有 覆盖 
假设 我 们 在 一 个 关系 模式 上 有 一 个 函数 依赖 集 。 每 当 用 户 在 该 关系 上 执行 更 新 时 ,数据库 系统 
必须 确保 此 更 新 不 破坏 任何 函数 依赖 ， 也 就 是 说 ， 尺 中 的 所 有 函数 依赖 在 新 数据 库 状 态 下 仍然 满足 。 
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如 果 更 新 操作 破坏 了 下 上 的 任 一 个 函数 依赖 ， 系 统 必 须 回 滚 该 更 新 操作 。 

我 们 可 以 通过 测试 与 给 定 函 数 依赖 集 具 有 相同 闭 包 的 简化 集 的 方式 来 减 小 检测 冲突 的 开销 。 因 为 
简化 集 和 原 集 具 有 相同 的 闭 包 ， 所 以 满足 函数 依赖 简化 集 的 数据 库 也 一 定 满足 原 集 ， 反 之 亦 然 。 但 是 ， 
简化 集 更 便于 检测 。 稍 后 我 们 将 看 到 简化 集 是 如 何 构造 的 。 首 先 ， 我 们 需要 一 些 定义 。 

如 果 去 除 函 数 依赖 中 的 一 个 属性 不 改变 该 函数 依赖 集 的 财 包 ， 则 称 该 属性 是 无 关 的 (extraneous ) 。 
无 关 属 性 (extraneous attribute) 的 形式 化 定义 如 下 : 考虑 函数 依赖 集 正 及 下 中 的 函数 依赖 a 一 Bo 

。 MRA saw 并且 下 逻辑 蕴含 (PR - a 一 Bl) U l(a - 4) 一 BI， 则 属性 4 在 a 中 是 无 关 的 。 

。 如 果 4 eB 并 且 函 数 依赖 集 (F - {a 一 Bl1) U la 一 (B-A) PRBASF, 则 属性 4 在 B 中 是 

无 关 的 。 

例如 ， 假 定 我 们 在 中 有 函数 依赖 4B 一 C 和 4 一 C， 那么 B 在 4B 一 C 中 是 无 关 的 。 再 比如 ， 假 
ERIE F 中 有 函数 依赖 4B 一 CD 和 4 一 C， 那么 C 在 4B 一 CD 的 右 半 部 中 是 无 关 的 。 

使 用 无 关 属 性 的 定义 时 注意 蕴涵 的 方向 :如果 将 左 半 部 与 右 半 部 交换 ， 蕴 含 关 系 将 总 是 成 立 的 。 
也 就 是 说 , (F - la 一 B1) U |(a - A) 一 B1 总 是 逻辑 蕴涵 AN FP hee RAMP - 
lampBl)U la (B - A)}。 

下 面 介 绍 如 何 有 效 检验 一 个 属性 是 否 无 关 。 令 R 为 一 关系 模式 ， 且 矿 是 在 RR 上 成 立 的 给 定 函 数 依 
赖 集 。 考 虑 依赖 a 一 B 中 的 一 个 属性 4。 

。 如 果 4 e B, 为 了 检验 4 是 否 是 无 关 的 ， 考 虑 集合 

F' = (F - {a—B}) U {a> (B - A)} 
并 检验 acA EBDE FHH. Ak, HAF Fi a (a 的 闭 包 ); MRa AAA, 则 4 在 B 
中 是 无 关 的 。 
e WRA e aw， 为 了 检验 4 是否 是 无 关 的 ,， 令 y=a=- 14|}|， 并 且 检 查 y 一 B 是 否 可 以 由 下 推出 。 
为 此 ,计算 在 下 的 y'(y 的 闭 包 ); Ry AA BPA, WA 在 a 中 是 无 关 的 。 
例如 ,假定 下 包含 48 一 CD、4 一 已 和 天 一 C。 为 检验 C EAB 一 CD 中 是 否 是 无 关 的 ， 我 们 计算 F = 
14B — D, A — E, E — C} F AB 的 属性 闭 包 。 闭 包 为 4BCDE， 包含 CD， 所 以 我 们 推断 出 C 是 无 关 的 . 

F 的 正则 覆盖 ( canonical cover) F, 是 一 个 依赖 集 ， 使 得 下 逻辑 蕴含 F PMA, IFA F, 逻辑 
蕴涵 中 的 所 有 依赖 。 此 外 ，F, 必须 具有 如 下 性 质 : 

o F, 中 任何 函数 依赖 都 不 含 无 关 属 性 。 

© 环 .中 函数 依赖 的 左 半 部 都 是 唯一 的 。 即 ，F, 中 不 存在 两 个 依赖 w 一 B 和 a, 一 B,， 满 足 

al = Qo 

函数 依赖 集 下 的 正则 覆盖 可 以 按 图 8-9 中 描述 的 那样 计算 。 需 要 重视 的 一 点 是 ， 当 检验 一 个 属性 
是 否 无 关 时 ,检验 时 用 的 是 F. 当前 值 中 的 函数 依赖 ， 而 不 是 正中 的 依赖 。 如 果 一 个 函数 依赖 的 右 半 部 
只 包含 一 个 属性 ， 例 如 4 一 C， 并 且 这 个 属性 是 无 关 的 ， 那 么 我 们 将 得 到 一 个 右 半 部 为 空 的 函数 依赖 。 
这 样 的 函数 依赖 应 该 删除 。 











FP =F 
repeat 
使 用 合并 律 将 F. 中 所 有 形 如 a,— Bı 和 a,— B, 的 依赖 
蔡 换 为 w 一 BB, 
E F, 中 寻找 一 个 函数 依赖 a > p, CE a 或 在 8 中 
具有 一 个 无 关 属 性 
/* 注意， 使 用 F, 而 非 检 验 无 关 属性 * / 
如 果 找 到 一 个 无 关 属 性 ， 则 将 它 从 F, 中 的 a 一 B 中 删除 
until (F, 不 变 ) 





图 8-9 ”计算 正则 覆盖 


可 以 证 明 玉 的 正则 覆盖 F 与 具有 相同 的 闭 包 ; 因此 ， 验 证 是 否 满足 ,等 价 于 验证 是 否 满足 Fo 
但 是 ， 从 某 种 意义 上 说 ，F. 是 最 小 的 一 一 它 不 含 无 关 属性 ， 并 且 它 合并 了 具有 相同 左 半 部 的 函数 依 
赖 。 所 以 验证 F, 比 验 证 下 本 身 更 容易 。 
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考虑 模式 (4, B，C) 上 的 如 下 函数 依赖 集 F: 


A— BC 
BC 
A — B 
AB —C 
让 我 们 来 计算 的 正则 覆盖 。 
。 存在 两 个 函数 依赖 在 箭头 左边 具有 相同 的 属性 集 : 
4 一 BC 
A—B 
我 们 将 这 些 函 数 依赖 合并 成 4 一 BC, 
e 4A 在 4B 一 C 中 是 无 关 的 ， 因 为 逻辑 蕴涵 (Ff - |4B 一 C|) U 18 一 Cl。 这 个 断言 为 真 ， 因 
为 B 一 C 已 经 在 函数 依赖 集中 。 
。C 在 4 一 BC HELEN, 因为 4 一 BC 被 4 一 B 和 B 一 C 逻辑 蕴涵 。 
Fez, TENA: 
4 一 卫 
BC 


给 定 函 数 依赖 集 ， 可 能 集合 中 有 一 整 条 函数 依赖 都 是 无 关 的 ， 也 就 是 说 删 掉 它 不 改变 下 的 闭 包 。 
我 们 可 以 证 明 的 正则 覆盖 F, 不 包含 这 种 无 关 的 函数 依赖 。 利 用 反 证 法 ,假设 已 中 存在 这 种 无 关 函 
数 依赖 ， 则 依赖 的 右 半 部 分 属性 将 是 无 关 的 ， 这 与 正则 覆盖 的 定义 矛盾 。 
正则 覆盖 未 必 是 唯一 的 。 例 如 ， 考 虑 函数 依赖 集 玉 = 14 一 BC, B— AC, C 一 4B| 。 如 果 我 们 对 [342 
A 一 BC 进行 无 关 性 检验 ， 会 发 现在 F 下 B 和 C 都 是 无 关 的 。 然 而 ， 两 个 都 删 掉 是 不 对 的 ! 计算 正则 覆 |344 
盖 的 算法 选择 其 中 一 个 删除 。 那 么 ， es 
1. 如 果 删 除 C， 我 们 得 到 集合 F' = | 4 一 B, BAC, C 一 4B |, WE, EFF, A> BAY 
部 B 就 不 是 无 关 的 了 。 继 续 执 行 算法 ,我 们 发 现 C 4B 右 半 部 的 4 和 8B 都 是 无 关 的 ， 这 导致 两 种 正 
则 覆盖 








P =J= B, B+ 6, C+ A) 
F.={A—B,B—-AC, C — B} 
2. 如 果 删 除 ， 我 们 得 到 集合 14 — C, B 一 4C, C 一 4B|。 这 种 情况 与 前 面 的 情况 是 对 称 的 ， 将 
导致 两 种 正则 覆盖 
F.=jA—>0, C42, B>A} 
Feli, B40, C AB) 
作为 练习 ， 你 能 再 找到 一 个 下 上 的 正则 覆盖 吗 ? 
8. 4.4 无 损 分 解 
令 r(R) 为 一 个 关系 模式 , FF 为 r(R) 上 的 函数 依赖 集 。 令 R AR, 为 R 的 分 解 。 如 果 用 两 个 关系 模 
式 7(R) 和 7,(R,) 替 代 r(R) 时 没有 信息 损失 ， 则 我 们 称 该 分 解 是 无 损 分 解 (lossless decomposition ) 。 更 
精确 地 说 ， 我 们 称 分 解 是 无 损 的 ， 如 果 对 于 所 有 的 合法 数据 库 实 例 ( 即 满足 指定 的 函数 依赖 和 其 他 约束 
的 数据 库 实例 ) ， 关 系 + 包含 与 下 述 SQL 查询 结果 相同 的 元 组 集 : 


select * 

from (select R, from r) 
natural join 
(select R, from r) 





这 用 关系 代数 可 以 更 简洁 地 表示 为 : 
OXI =， 
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换 句 话说 ， 如 果 我 们 把 7 投影 至 R AR, 上 ， 然 后 计算 投影 结果 的 自然 连接 ， 我 们 仍然 得 到 一 模 一 样 
的 r。 不 是 无 损 分 解 的 分 解 称 为 有 损 分 解 ( lossy decomposition ) 。 无 损 连 接 分 解 (lossless-join decom- 
position) 和 有 损 连 接 分 解 (lossy-join decomposition ) 这 两 个 术语 有 时 用 来 代替 无 损 分 解 和 有 损 分 解 。 

作为 有 损 连 接 的 一 个 例子 ， 回 想 8. 1. 2 节 中 employee 模式 的 分 解 : 


employee! (ID, name) 
employee2 (name, street, city, salary) 


如 图 8-3 所 示 ，employeel M employee2 的 结果 是 原 关 系 employee 的 一 个 超 集 ， 但 是 分 解 是 有 损 的 ， 因 为 
当 有 两 个 或 多 个 雇员 具有 相同 的 名 字 时 ， 连 接 的 结果 丢失 了 关于 哪个 雇员 标识 和 哪个 地 址 及 工资 相关 
联 的 信息 。 

我 们 可 以 用 函数 依赖 来 说 明 什 么 情况 下 分 解 是 无 损 的 。 令 R、R,、R, AF ME. R AR, BRAN 
无 损 分 解 ， 如 果 以 下 函数 依赖 中 至 少 有 一 个 属于 F: 

eR ARR, 

eR ORR, 
换 句 话说 ， 如 果 R, OR, ER, 或 R, 的 超 码 ，R 上 的 分 解 就 是 无 损 分 解 。 正 如 我 们 前 面 看 到 的 ， 我们 可 
以 用 属性 闭 包 的 方法 来 高 效 地 检验 超 码 。 

为 举例 说 明 ， 考 虑 模式 

inst_dept (ID, name, salary, dept_name, building, budget ) 

我 们 在 8. 1. 2 节 中 将 其 分 解 为 instructor 和 department 模式 : 


instructor (ID, name, dept_name, salary) 
department (dept_name, building, budget ) 


考虑 这 两 个 模式 的 交集 ， 即 dept_name。 我 们 发 现 ， 由 于 dept_name 一 dept_name, building, budget, Alt, 
满足 无 损 分 解 条 件 。 

对 于 一 个 模式 一 次 性 分 解 成 多 个 模式 的 情况 ， 判 定 无 损 分 解 就 更 复杂 了 。 参 看 文献 注解 的 相关 
主题 。 

虽然 对 二 元 分 解 的 测试 显然 是 无 损 连 接 的 一 个 充分 条 件 ， 但 只 有 当 所 有 约束 都 是 函数 依赖 时 它 才 
是 必要 条 件 。 后 面 我 们 将 看 到 几 种 其 他 类 型 的 约束 (特别 是 8. 6. 1 节 讨 论 的 称 为 多 值 依赖 的 一 种 约束 类 
型 ) ， 它 们 即使 在 不 存在 函数 依赖 的 情况 下 仍 可 保证 一 个 分 解 是 无 损 连 接 的 。 

8.4.5 保持 依赖 

使 用 函数 依赖 理论 描述 保持 依赖 ， 要 比 我 们 在 8. 3. 3 节 中 采用 的 即席 方法 容易 得 多 。 

S FHRA R 上 的 一 个 函数 依赖 集 ，R, ，R,，…，R, 为 R 的 一 个 分 解 。F 在 R; 上 的 限定 
(restriction) 是 中 所 有 只 包含 R, 中 属性 的 函数 依赖 的 集合 严 。 由 于 一 个 限定 中 的 所 有 函数 依赖 只 涉 
及 一 个 关系 模式 的 属性 ， 因 此 判定 这 种 依赖 是 否 满足 可 以 只 检查 一 个 关系 。 

注意 定义 限定 时 用 到 的 是 中 的 所 有 函数 依赖 ， 而 不 仅仅 是 中 的 。 例 如 ,假设 f= 14 一 B， 
BC| ， 且 我 们 有 一 个 到 4C A AB 的 分 解 。F EAC 上 的 限定 则 包含 4 一 C， 因 为 4 一 C 属 于 F”， 
尽管 它 并 没有 在 下 中 。 

REF, Fy, +. F, 的 集合 是 能 高 效 检 查 的 依赖 集 。 我 们 现在 必须 要 问 是 否 只 检查 这 些 限 定 就 够 
To $ F'=F U FUU 忆 。 严 是 模式 六 上 的 一 个 函数 依赖 集 ， 不 过 通常 严 x F 但 是 ， BE F = 
F， 也 有 可 能 Fr”=F* 。 如 果 后 者 为 真 ， 则 下 中 的 所 有 依赖 都 被 Fr" 逻辑 蕴涵 ， 并且， 如 果 我 们 证 明 OF’ 
是 满足 的 ， 则 我 们 就 证 明了 F 也 满足 。 我 们 称 具 有 人 性质 FO = 六 的 分 解 为 保持 依赖 的 分 解 
( dependency-preserving decomposition ) 。 

图 8-10 给 出 了 判定 保持 依赖 性 的 算法 。 输 入 是 分 解 的 关系 模式 集 D = |R, R, 0, R i 和 函数 依 
赖 集 下。 因为 要 计算 F* ， 所 以 这 个 算法 的 开销 很 大 。 我 们 将 考虑 另外 两 个 方法 来 替代 图 8-10 中 的 
算法 。 
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首先 ， 请 注意 如 果 F 中 的 每 一 个 函数 依赖 都 可 以 在 分 解 得 到 的 某 一 个 关系 上 验证 ， 那 么 这 个 分 解 
就 是 保持 依赖 的 。 这 是 一 种 简单 的 验证 保持 依赖 














性 的 方法 ; 但 是 ， 它 并 不 总 是 有 效 。 有 些 情况 下 ， TT for cach D 中 的 模式 Rao 
尽管 这 个 分 解 是 保持 依赖 的 ， 但 是 在 正中 存在 一 begin 
个 依赖 ， 它 无 法 在 分 解 后 的 任意 一 个 关系 上 验证 。 
所 以 这 个 验证 方法 只 能 用 作 一 个 易于 检查 的 充分 "=Ø 
条 件 ， 如 果 验 证 失败 我 们 也 不 能 断定 该 分 解 就 不 for each HRE F, do 
是 保持 依赖 的 ， 而 是 将 不 得 不 采用 一 般 化 的 验证 sae ee 
方法 。 end 

我 们 现在 给 出 第 二 种 避免 计算 严 - 的 验证 保持 HEP; 
依赖 的 方法 。 我 们 会 在 列 出 验证 方法 之 后 解释 该 I ee at. 
方法 的 思想 。 该 验证 方法 对 中 的 每 一 个 a 一 B . 
使 用 下 面 的 过 程 : 图 8-10 保持 依赖 性 的 验证 


for each 分 解 后 的 民 
t= (result R,)* NR, 
result = result U t 


until (result 没有 变化 ) 
这 里 的 属性 闭 包 是 函数 依赖 集 下 下 的 。 如 果 result 包含 B 中 的 所 有 属性 ， 则 函数 依赖 a 一 B 保持。 分解 
是 保持 依赖 的 当 且 仅 当 上 述 过 程 中 下 的 所 有 依赖 都 保持 。 
上 述 验证 方法 背后 的 两 个 关键 的 思想 如 下 : 
。 第 一 个 思想 是 验证 中 的 每 个 函数 依赖 a 一 B， 看 它 是 否 在 Fr' 中 保持 (F' 的 定义 如 图 8-10 所 
W) HE, RIE F' 下 a 的 闭 包 ; 当 该 闭 包 包含 6 时 ， 该 依赖 得 以 保持 。 该 分 解 是 保持 依 
赖 的 当 ( 且 仅 当 )F 中 的 所 有 函数 依赖 都 保持 。 
。 第 二 个 思想 是 使 用 修改 后 的 属性 闭 包 算法 计算 严 下 的 闭 包 ， 不 用 先 真正 计算 出 F. RITEAR 
免 严 的 计算 ， 因 为 计算 开销 很 大 。 注 意 到 严 是 不 的 并 集 , PEPER, 上 的 限定 。 该 算法 计 
Bik F bE (result N R) KEHEE, #5 R 的 闭 包 求 交 ， 然 后 将 结果 属性 集 加 入 result;， 这 一 系 
列 步 又 等 价 于 计算 F, 下 的 result 闭 包 。 在 while 循环 中 对 每 个 i 重复 该 步骤 就 得 到 了 F FW 
result 闭 包 。 
为 了 理解 这 个 修改 后 的 属性 闭 包 算法 运算 正确 的 原因 ， 我 们 注意 到 对 于 每 个 yG R, yoy 是 下" 
中 的 一 个 函数 依赖 ， 并且 7y —> y’ N R Æ FER, LORE F PERK Z, WMR y 一 8 出现 
EF P, Mey’ N R WFR. 
该 判定 方法 的 代价 是 多 项 式 时 间 ， 而 不 是 计算 F 所 需 的 指数 时 间 的 代价 。 


8.5 分 解 算法 


现实 世界 的 数据 库 模式 要 上 比 能 装 在 书页 中 的 例子 大 得 多 。 因 此 ， 我 们 需要 能 生成 属于 适当 范式 的 
设计 的 算法 。 本 节 给 出 BCNF 和 3NF 的 相应 算法 。 
8.5.1 BCNF 分 解 


BCNF 的 定义 可 以 直接 用 于 检查 一 个 关系 是 否 属于 BCNF。 但 是 ， 计 算 FP 是 一 个 繁重 的 任务 。 下 
面 首 先 描述 判定 一 个 关系 是 否 属于 BCNF 的 简化 检验 方法 。 如 果 一 个 关系 不 属于 BCNF ， 它 可 以 被 分 解 
以 创建 属于 BCNF 的 关系 。 本 节 后 面 将 描述 一 种 创建 关系 的 无 损 分 解 的 算法 ， 使 得 该 分 解 属 于 BCNF, 

8.5.1.1 BCNF 的 判定 方法 

在 某 些 情况 下 ， 判 定 一 个 关系 是 否 属于 BCNF 可 以 作 如 下 简化 : 
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。 为 了 检查 非 平凡 的 函数 依赖 a 一 B 是 否 违反 BCNF, 计算 a' (ea 的 属性 闭 包 ) ， 并 且 验 证 它 是 否 
包含 尺 中 的 所 有 属性 ， 即 验证 它 是 否 是 尺 的 超 码 。 
。 检查 关系 模式 R 是 否 属于 BCNF, AMEER EEA F 中 的 函数 依赖 是 否 违反 BCNF 就 足够 了 ， 
不 用 检查 F 中 的 所 有 函数 依赖 。 
我 们 可 以 证 明 如 果 中 没有 函数 依赖 违反 BCNF, IA F* 中 也 不 会 有 函数 依赖 违反 BCNF, 
遗憾 的 是 ， 当 一 个 关系 分 解 后 ， 后 一 步 过 程 就 不 再 适用 。 也 就 是 说 ， 当 我 们 判定 R 上 的 一 个 分 解 
R, 是 否 违反 BCNF if, RA F RNET. 例如， 考虑 关系 模式 RA, B, C, D, EF) ， 其 函数 依赖 集 正 包 
括 4 一 B 和 BC 一 D, (Rit R TRR (A, B)AIR,(A, C, D, E), RHE, AAP 中 没有 一 个 函数 依赖 
只 包含 来 自 (4, C, D, E) 的 属性 ， 所 以 我 们 也 许 会 误 认为 R 满足 BCNF。 实 际 上 ，F’ 中 有 一 个 函数 依 
HAC 一 D( 可 以 由 伪 传 递 律 从 下 中 的 两 个 依赖 推出 ) ， 这 表明 R, 不 属于 BCNF。 所 以 ,我 们 也 许 需 要 
一 个 属于 天 "但 不 属于 下 的 依赖 ,来 证 明 一 个 分 解 后 的 关系 不 属于 BCNF, 
BCNF 的 另 一 种 判定 方法 有 时 会 比 计算 F’ 上 的 所 有 函数 依赖 简单 。 为 了 检查 R 分 解 后 的 关系 R 是 
否 属于 BCNF ， 我 们 应 用 如 下 判定 : 
e HFR 中 属性 的 每 个 子 集 w， 确 保 w (下 a 的 属性 闭 包 ) 要 么 不 包含 R, - a 的 任何 属性 ， 要 
么 包含 R; 的 所 有 属性 。 
WRR, 上 有 某 个 属性 集 a 违反 该 条 件 ， 考 虑 如 下 的 函数 依赖 ， 可 以 证 明 它 出 现在 F p: 
aa ” -a)N R; 
上 面 这 个 晴 数 依赖 说 明 R; 违反 BCNF., 
8.5.1.2 BCNF 分 解 算法 
我 们 现在 能 给 出 一 个 关系 模式 分 解 的 一 般 方法 以 满足 BCNF。 图 8-11 所 示 为 实现 该 过 程 的 一 个 算 
法 。 若 尺 不 属于 BCNF， 则 可 用 这 个 算法 将 RR 分 解 成 一 组 BCNF 模式 RI/，R,，…，R,。 这 个 算法 利用 
违反 BCNF 的 依赖 进行 分 解 。 





result:= |R]; 
done: = false; 
WHF’; 
while (not done) do 
if (result 中 存在 模式 R, 不 属于 BCNF) 
then begin 
令 a 一 B 为 一 个 在 R, 上 成 立 的 非 平凡 函数 依赖 ， 满 足 a 一 R ARTF, HA aN B=D; 
result; = (result—R;) U (R,;-B) U (a, B); 
end 
else done: = true; 











图 8-11 BCNF 分 解 算法 


用 这 个 算法 产生 的 分 解 不 仅 是 一 个 BCNF 分 解 ， 而 且 是 一 个 无 损 分 解 。 来 看 一 下 为 什么 该 算法 只 
产生 无 损 分解 ， 我 们 注意 到 ， 当 我 们 用 (R; - B6) 和 (a, B) BARR R, 时 ,依赖 a 一 B 成立， 而 且 
(R,- B) N (a, B) =a. 

如 果 我 们 没有 要 求 Nn B= Ø, 那么 en B 中 的 那些 属性 就 不 会 出 现在 模式 (R, - B) 中 ， 而 依赖 
a 一 B 也 不 再 成 立 。 

容易 看 出 在 8. 3. 2 节 中 对 inst_dept 的 分 解 结果 可 以 通过 应 用 该 算法 获得 。 函 数 依赖 dept_name 一 
building , budget 满足 a N B = 条件， 因此 被 选择 用 来 分 解 该 模式 。 

BCNF 分 解 算 法 所 需 时 间 为 原始 模式 规模 的 指数 级 别 ， 因 为 该 算法 检查 分 解 中 的 一 个 关系 是 否 满 
足 BCNF 的 代价 可 以 达到 指数 级 。 文 献 注解 提供 了 一 个 算法 的 参考 文献 ， 该 算法 能 够 在 多 项 式 时 间 内 
计算 BCNF 分 解 。 但 是 ， 这 个 算法 可 能 “过 于 规范 化 ”， 即 ， 分 解 不 必要 分 解 的 关系 。 

举 一 个 更 长 的 使 用 BCNF 分 解 算法 的 例子 ,假定 我 们 有 一 个 数据 库 设计 使 用 了 以 下 的 class 模式 : 


class (course_id, title, dept_name, credits, sec_id, semester, year, building, room_number, capacity, time_slot_id) 
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我 们 要 求 在 class 上 成 立 的 函数 依赖 集合 为 


course_id — title, dept_name, credits 
building, room_number — capacity 
course_id, sec_id, semester, year — building, room_number , time_slot_id 


该 模式 的 一 个 候选 码 是 | course_id, sec_id, semester, year} 。 
我 们 可 以 按 如 下 方式 将 图 8-11 的 算法 用 于 class 例子 : 
© PRK 


course_id — title, dept_name , credits 


成 立 ， 但 course_id 不 是 超 码 。 因 此 ，class 不 属于 BCNF。 我 们 将 class 替换 为 : 


course (course_id, title, dept_name, credits) 
class 一 1 (course_id, sec_id, semester, year, building, room_number, capacity, time_slot_id) 


course 上 成 立 的 唯一 一 个 非 平凡 函数 依赖 的 箭头 左 侧 包含 course_id。 由 于 course_id 是 course 的 
人 码 ， 因 此 关系 course 属于 BCNF, 
© class -1 的 一 个 候选 码 为 | course_id, sec_id，semester，year| ， 函 数 依赖 : 
De, momaonber gapai 
在 class -1 上 成 立 , 但 | building, room_number| KÆ class -1 的 超 码 。 我 们 将 class -1 替换 为 : 


classroom ( building, room_number, capacity ) 
section (course_id, sec_id, semester, year, 
building, room_number , time_slot_id) 


classroom 和 section 属于 BCNF, 
FE, class 分 解 为 三 个 关系 模式 course, classroom 和 section， 它 们 都 属于 BCNF。 这 些 模式 对 应 于 
我 们 在 本 章 和 前 面 章节 使 用 的 模式 。 你 可 以 验证 该 分 解 既是 无 损 的 ， 又 是 保持 依赖 的 。 





8.5.2 3NF 分 解 令 忆 为 下 的 正则 覆盖 ; 
8-12 给 出 了 将 模式 转化 为 3NF 的 保持 依赖 | = Os 
且 无 损 的 分 解 的 算法 。 该 算法 中 使 用 的 依赖 集 严 | AAF galt 


i:=i+l; 
EF HEM. ER, GREG RHR R, R,:= of; 
WHA (G=1, 2, =, i); 初始 i=0 HZS if RR, j=1, 2,. . . ,i RAIA R 的 候选 码 


then 
为 空 。 i= i+ l; 


让 我 们 将 该 算法 用 于 8.3.4 节 中 的 例子 ， 我 
们 曾 证 明 
dept_advisor (s_ID, i_ID, dept_name) 
是 属于 3NF 的 ， 虽 然 它 不 属于 BCNF。 该 算法 使 用 
正中 以 下 的 函数 依赖 : 
fı: i ID — dept_name 
Jfa: sD, dept_name — i_ID 
在 下 的 任意 一 个 函数 依赖 中 都 不 存在 无 关 属 
性 ， 因 此 F, 包含 fh 和 所 。 该 算法 生成 模式 (i_1D， 


dept_name) 作 为 R， 以 及 模式 (s_ID,， dept_name, i_ID) 作 为 R,。 该 算法 随即 发 现 R, 包含 一 个 候选 码 ， 


因此 不 再 继续 创建 关系 模式 。 





R,:= R 的 任意 候选 码 ; 
/* (可 选 ) 移 除 元 余 关系 */ 
repeat 
if 模式 R 包含 于 另 一 个 模式 R, 中 
then 
/* 删除 R*/ 
R:= R;; 
Eu a Ty 
until 不 再 有 可 以 删除 的 R 
return(R,, R,, =, R;) 








图 8-12 到 3NF 的 保持 依赖 且 无 损 的 分 解 


生成 的 模式 集 可 能 会 包含 元 余 的 模式 ， 即 一 个 模式 R 包含 男 一 个 模式 R 所 有 的 属性 。 例 如 ， 上 [351 | 


面 的 R, 包含 R 所 有 的 属性 。 这 个 算法 会 删除 所 有 这 种 包含 于 其 他 模式 的 模式 。 在 删除 的 R 上 验证 的 


任意 一 个 依赖 在 相应 的 关系 尽 上 也 验证 ， 即 使 删除 了 尺 ， 分 解 仍旧 是 无 损 的 。 


现在 我 们 再 次 考虑 8. 5. 1. 2 节 中 的 class 模式 ， 并 运用 3NF 分 解 算法 。 我 们 所 列 出 的 函数 依赖 集 恰 
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好 是 正则 覆盖 。 因 此 ， 该 算法 给 出 同样 的 三 个 模式 course, classroom 和 section, 

上 例 说 明了 3NF 算法 的 一 个 有 趣 的 特性 。 有 时 ， 结 果 不 仅 属于 3NF， 而 且 也 属于 BCNF。 这 暗示 了 
生成 BCNF 设计 的 另 一 个 方法 。 首 先 使 用 3NF 算法 ,然后 对 于 3NF 设计 中 任何 一 个 不 属于 BCNF 的 模 
sk, FA BCNF 算法 分 解 。 如 果 结 果 不 是 保持 依赖 的 ， 则 还 原 到 3NF 设计 。 

8.5.3 3NF 算法 的 正确 性 

3NF 算法 通过 为 正则 履 盖 中 的 每 个 依赖 显 式 地 构造 一 个 模式 确保 依赖 的 保持 。 该 算法 通过 保证 至 
少 有 一 个 模式 包含 被 分 解 模 式 的 候选 码 ， 确 保 该 分 解 是 一 个 无 损 分 解 。 实 践 习 题 8. 14 深入 审视 这 种 算 
法 足以 保证 无 损 分 解 的 证 据 。 

这 个 算法 也 称 为 3NF 合成 算法 (3NF synthesis algorithm) ， 因 为 它 接受 一 个 依赖 集合 ， 每 次 添加 一 
个 模式 ， 而 不 是 对 初始 的 模式 反复 地 分 解 。 该 算法 的 结果 不 是 唯一 确定 的 ， 因 为 一 个 函数 依赖 集 有 不 
止 一 个 正则 覆盖 ， 而 且 ， 某 些 情 况 下 该 算法 的 结果 依赖 于 该 算法 考虑 F 中 的 依赖 的 顺序 。 该 算法 有 可 
能 分 解 一 个 已 经 属于 3NF 的 关系 ; 不 过 ， 仍 然 保 证 分 解 是 属于 3NF 的 。 

如 果 一 个 关系 R, 在 由 该 合成 算法 产生 的 分 解 中 ， 则 R 属于 3NF。 回 想 当 我 们 判定 3NF 时 ， 考 虑 
右 半 部 是 单个 属性 的 函数 依赖 就 足够 了 。 因 此 ， 要 看 R, 是 否 属于 3NF， 你 必须 确认 R, 上 的 任意 函数 依 
My B 满足 3NF 的 定义 。 假 定 该 合成 算法 中 产生 R, 的 函数 依赖 是 a 一 B。 现 在 ， 因 为 B 属 于 R,， 而 
且 a 一 BB 产生 R;， 所 以 B 一 定 属于 a 或 B。 让 我 们 考虑 以 下 三 种 可 能 情况 : 

。 B 既 属于 a 又 属于 B。 在 这 种 情况 下 ,依赖 a 一 B 将 不 可 能 属于 Ff,， 否则 B 在 B 中 将 是 无 关 的 。 

所 以 这 种 情况 不 成 立 。 
。B 属 于 6 但 不 属于 a。 考 虑 两 种 情况 : 

口 y 是 一 个 超 码 。 满 足 NF 的 第 二 个 条 件 。 

y 不 是 超 码 。 则 a 必定 包含 某 些 不 在 y 中 的 属性 。 现 在 ， 由 于 y 一 BEF 中 ， 因 此 它 一 定 
是 通过 使 用 y 上 的 属性 闭 包 算法 从 FF, 推导 出 来 的 。 该 推导 不 可 能 用 到 a 一:B， 否 则 a 一 定 包 
含 在 y 的 属性 闭 包 里 ， 而 这 是 不 可 能 的 ， 因 为 我 们 假定 y 不 是 超 码 。 现 在 ,使 用 a 一 (B - 
18| Aly 一 了 ,我 们 可 以 推导 出 a 一 B( 由 于 yCaB; 并 且 因 为 y 一 B 是 非 平凡 的 ， 因 此 y 
不 包含 B)。 这 表明 B 在 a 一 *B 的 右 半 部 是 无 关 的 ， 这 也 是 不 可 能 的 ， 因 为 a 一 B 属于 正则 
覆盖 Ff,。 所 以 ,如 果 B 属 于 B， 那 么 一 定 是 超 码 并 且 满 足 3NF 的 第 二 个 条 件 。 

e B 属于 a 但 不 属于 B。 

因为 a 是 候选 码 ， 所 以 满足 3NF 定义 中 的 第 三 个 条 件 。 

有 趣 的 是 ， 我 们 描述 的 3NF 分 解 算法 可 以 在 多 项 式 时 间 内 实现 ， 尽 管 判定 给 定 关系 是 否 属于 3NF 
是 NP -hard 的 (这 意味 着 设计 一 个 多 项 式 时 间 的 算法 来 解决 该 问题 是 不 太 可 能 的 )。 

8.5.4 BCNF 和 3NF 的 比较 

对 于 关系 数据 库 模式 的 两 种 范式 一 -3NF 和 BCNF, 3NF 的 一 个 优点 是 我 们 总 可 以 在 满足 无 损 并 保 
持 依赖 的 前 提 下 得 到 3NF 设计 。 然 而 3NF 也 有 一 个 缺点 : 我 们 可 能 不 得 不 用 空 值 表示 数据 项 间 的 某 些 
可 能 有 意义 的 联系 ， 并 且 存 在 信息 重复 的 问题 。 

我 们 对 应 用 函数 依赖 进行 数据 库 设 计 的 目标 是 : 

1. BCNF, 

2. 无 损 。 

3. 保持 依赖 。 

由 于 不 是 总 能 达到 所 有 这 三 个 目标 ， 因 此 我 们 也 许 不 得 不 在 BCNF 和 保持 依赖 的 3NF 中 做 出 选择 。 

值得 注意 的 是 ， 除 了 可 以 通过 用 主 码 或 者 唯一 约束 来 声明 超 码 的 特殊 情况 外 ，SQL 不 提供 指定 函 
数 依赖 的 途径 。 通 过 写 断 言 来 保证 函数 依赖 (参见 实践 习题 8. 9 ) RRA RI, (At ATE. it 
憾 的 是 ， 目 前 没有 数据 库 系 统 支持 强制 实施 函数 依赖 所 需 的 复杂 断言 ， 而 且 检 查 这 些 断 言 的 开销 很 大 。 
所 以 即使 我 们 有 一 个 保持 依赖 的 分 解 ， 但 如 果 我 们 使 用 标准 SQL， 我 们 只 能 对 那些 左 半 部 是 码 的 函数 
依赖 进行 高 效 的 检查 。 
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虽然 在 分 解 不 能 保持 依赖 时 ， 对 函数 依赖 的 检查 可 能 会 用 到 连接 ,但 倘若 数据 库 系统 支持 物化 视 
图 上 的 主 码 约束 ， 我 们 就 可 以 通过 使 用 物化 视图 的 方法 来 降低 开销 ， 这 是 许多 数据 库 系 统 都 支持 的 。 
给 定 一 个 非 保持 依赖 的 BCNF 分 解 ， 我 们 考虑 正则 覆盖 F. 里 每 一 个 在 分 解 中 未 保持 的 依赖 。 对 于 每 一 
个 这 样 的 依赖 a 一 B， 我 们 定义 一 个 物化 视图 对 分 解 中 所 有 的 关系 计算 连接 ， 并 且 将 结果 投影 到 a8 [354] 
上 。 利 用 一 个 约束 unique(a) 或 者 primary key(a)， 就 可 以 在 物化 视图 上 很 容易 地 检查 函数 依赖 。 

从 负面 来 看 ， 物 化 视图 会 带 来 一 些 时 间 和 空间 的 额外 开销 ; 但 是 从 正面 来 看 ， 应 用 程序 员 不 需要 
写 代码 来 保持 元 余数 据 在 更 新 上 的 一 致 性 。 维 护 物化 视图 是 数据 库 系统 的 工作 ， 即 在 数据 库 更 新 时 做 
出 相应 的 更 新 。( 本 书后 面 的 13. 5 节 对 数据 库 系统 如 何 高 效 地 进行 物化 视图 的 维护 进行 了 概述 。) 

遗憾 的 是 ， 目 前 绝 大 多 数 数据 库 系统 不 支持 物化 视图 上 的 约束 。 虽 然 Oracle 数据 库 支持 物化 视图 
上 的 约束 ， 但 它 默 认 当 访问 视图 时 进行 视图 维护 ， 而 不 是 更 新 底层 关系 时 ; “结果 是 ， 约 束 冲 突 有 可 
能 在 更 新 已 经 执行 之 后 才 检测 出 来 ， 这 使 得 该 检测 没有 用 。 

因此 ， 在 不 能 得 到 保持 依赖 的 BCNF 分 解 的 情况 下 ， 通 常 我 们 倾向 于 选择 BCNF， 因 为 在 SQL 中 检 
查 非 主 码 约 束 的 函数 依赖 很 困难 。 


8.6 使 用 多 值 依赖 的 分 解 


有 些 关 系 模式 虽然 属于 BCNF， 但 从 某 种 意义 上 说 仍 存在 信息 重复 的 问题 ， 所 以 看 起 来 没有 充分 规 
范 化 。 考 虑 大 学 的 例子 ， 一 个 教师 可 以 和 多 个 系 相关 联 。 
inst (ID, dept_name, name, street, city) 
敏锐 的 读者 将 发 现 这 个 模式 是 一 个 非 BCNF 模式 ， 因 为 有 函数 依赖 


ID — name, street, city 





并 且 ID 不 是 inst 的 码 。 
进一步 假设 一 个 教师 可 以 有 多 个 地 址 ( 比如 说 ， 一 个 冬天 的 家 和 一 个 夏天 的 家 ) WA, RIRE 
想 强 制 实施 函数 依赖 “1D 一 street, city”， 不 过 当然 ， 我 们 仍 想 强 制 实施 “1D 一 name” ( 即 大 学 不 处 理 有 
多 个 别名 的 教师 的 情况 ) 。 根 据 BCNF 分 解 算法 ， 得 到 两 个 模式 : (355 


r, (ID, name) 





r (ID, dept_name, street, city) 


这 两 个 模式 都 属于 BCNF( 回想 到 一 个 教师 可 以 和 多 个 系 关 联 ， 并 且 一 个 系 可 以 有 多 名 教师 ， 因 此 “ID 
一 dept_name” 和 “dept_name — ID” #878 RIT.) 。 

RE r, 属于 BCNF， 但 是 元 余 仍 然 存在 。 对 于 一 名 教师 所 关联 的 每 个 系 都 要 将 该 教师 的 每 一 个 居 

住地 址 信息 重复 一 次 。 为 了 解决 这 个 问题 ， 可 以 把 7, 进一步 分 解 为 : 
ra (dept_name, ID) 
ry, (ID, street, city) 

但 是 ， 并 不 存在 任何 约束 来 引导 我 们 进行 这 个 分 解 。 

为 处 理 这 个 问题 ,我 们 必须 定义 一 种 新 的 约束 形式 ， 称 为 多 值 依赖 。 正 如 我 们 对 函数 依赖 所 做 的 
一 样 ， 我 们 将 利用 多 值 依赖 定义 关系 模式 的 一 种 范式 。 这 种 范式 称 为 第 四 范式 (Fourth Normal Form, 
4NF) ， 它 比 BCNF 的 约束 更 严格 。 我 们 将 看 到 每 个 4NF 模式 也 都 属于 BCNF， 但 有 些 BCNF 模式 不 属 
于 4NF。 

8.6.1 多 值 依赖 

函数 依赖 规定 了 某 些 元 组 不 能 出 现在 关系 中 。 如 果 4 一 B 成 立 ,我 们 就 不 能 有 两 个 元 组 在 4 上 的 
值 相 同 而 在 B 上 的 值 不 同 。 从 另 一 个 角度 出 发 ， 多 值 依赖 并 不 排除 某 些 元 组 的 存在 ， 而 是 要 求 某 种 形 
式 的 其 他 元 组 存在 于 关系 中 。 由 于 这 个 原因 ， 函 数 依 赖 有 时 称 为 相等 产生 依赖 (equality-generating 
dependency) ， 而 多 值 依赖 称 为 元 组 产生 依赖 ( tuple-generating dependency) 。 
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令 r(R) 为 一 关系 模式 ,并 令 aC R 且 BC R。 多 值 依 赖 ( multivalued dependency) 
a> Bp 

在 R 上 成 立 的 条 件 是 ， 在 关系 r(R) 的 任意 合法 实例 中 ， 对 于 7 中 任意 一 对 满足 [aj] = 已 [aej] 的 元 组 对 
t 和 tt,,r 中 都 存在 元 组 ts 和 ts， 使 得 

ti[a] =t,[@] =t,[a] =t,[a] 

t,[B] =+ [8] 

t [R - B]=t,[R - B] 

[8] =t,[6] 

ulR -B] =¢,[R - B] 
这 个 定义 看 似 复杂 ， 实 则 不 然 。 图 8-13 HA. t. h Mi 的 表格 图 。 直 观 地 ， 多 值 依赖 a 一 一 B 
是 说 a 和 8B 之 间 的 联系 独立 于 a 和 R - B 之 间 的 联系 。 若 模式 尺 上 的 所 有 关系 都 满足 多 值 依赖 a 一 一 
B， 则 a 一 一 B 是 模式 R 上 平凡 的 多 值 依赖 。 因 此 ， 如 果 B C a 或 B U a =R, M a 一 一 B 是 平凡 的 。 




















为 说 明 函 数 依赖 和 多 值 依赖 的 区 别 ， 我 们 再 次 考虑 模式 n 及 Ry 
图 8-14 中 所 示 的 该 模式 上 的 一 个 关系 的 例子 。 我 们 必须 为 教师 的 TRARA re 
每 个 地 址 重复 一 遍 系 名 ， 并 且 必 须 为 教师 关联 的 每 个 系 重复 地 址 。 Baa | ma | Bal 
这 种 重复 是 不 必要 的 ， 因 为 教师 与 其 地 址 间 的 联系 独立 于 教师 与 系 Pw | bieb | Geta 








间 的 联系 。 如 果 一 个 ID 为 22222 的 教师 与 物理 系 关联 ， 我 们 希望 图 8-13 a 一 一 B 的 表格 表示 
这 个 系 与 该 教师 的 所 有 地 址 都 关联 。 因 此 ， 图 8- 15 的 关系 是 非法 

的 。 要 使 该 关系 合法 化 ， 需 要 向 图 8- 15 的 关系 中 加 入 元 组 (Physics，22222，Main，Manchester ) 及 
(Math, 22222, North, Rye). 





ID | deptname | street | city 

22222 | Physics North | Rye 

22222 | Physics Main Manchester 
12121 Finance Lake Horseneck | 


图 8-14 一 个 BCNF 模式 上 的 关系 中 有 宛 余 的 例子 




















DD | deptname | street | city 
22222 | Physics North | Rye 
22222 | Math Main Manchester 


图 8-15 ”一 个 非法 的 关系 
将 前 面 这 个 例子 与 多 值 依赖 的 定义 相 比较 ， 我 们 发 现 我 们 需要 多 值 依赖 


ID 一 一 street, city 


成 立 。( 多 值 依赖 ID 一 一 dept_name 也 可 以 。 我 们 不 久 将 会 看 到 它们 是 等 价 的 。) 

与 函数 依赖 相同 ， 我 们 将 以 两 种 方式 使 用 多 值 依赖 : 

1. 检验 关系 以 确定 它们 在 给 定 的 函数 依赖 集 和 多 值 依 赖 集 下 是 否 合法 。 

2. 在 合法 关系 集 上 指定 约束 ; 因此 我 们 将 只 考虑 满足 给 定 函 数 依赖 集 和 多 值 依赖 集 的 关系 。 

请 注意 ， 若 关系 不 满足 给 定 多 值 依赖 ,我们 可 以 通过 向 中 增加 元 组 构造 一 个 确实 满足 多 值 依赖 
的 关系 re 

A D 表示 函数 依赖 和 多 值 依赖 的 集合 。D 的 闭 包 D' 是 由 DD 逻辑 蕴涵 的 所 有 函数 依赖 和 多 值 依赖 
的 集合 。 与 函数 依赖 相同 ,我 们 可 以 用 函数 依赖 和 多 值 依赖 的 规范 定义 根据 D 计算 出 D* 。 我 们 可 以 
用 这 样 的 推理 处 理 非常 简单 的 多 值 依赖 。 幸 运 的 是 ， 实 际 问 题 中 遇 到 的 多 值 依 赖 都 很 简单 。 对 于 复杂 
的 依赖 ， 用 推理 规则 系统 来 推导 出 依赖 集会 更 好 。 

由 多 值 依赖 的 定义 ， 我 们 可 以 得 出 以 下 规则 ， 对 于 w，B ER: 

。 若 a 一 B， 则 a 一 一 B。 换 名 话说， 每 一 个 函数 依赖 也 是 一 个 多 值 依赖 。 

e 若 a 一 一 B, 则 a 一 一 R -a -B. 
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附录 C. 1. 1 列 出 了 多 值 依赖 的 一 个 推理 规则 系统 。 
8.6.2 第 四 范式 
再 次 考虑 BCNF 模式 的 例子 


r,(ID, dept_name, street, city) 


其 中 多 值 依 赖 “ID —— street, city” Ro RITE 8.6 节 的 开头 看 到 ， 尽 管 该 模式 属于 BCNF， 但 是 这 个 
设计 并 不 理想 ， 因 为 我 们 必须 为 每 个 系 重复 教师 的 地 址 信息 。 我 们 将 看 到 ， 我 们 可 以 用 给 定 的 多 值 依 
赖 改 进 数 据 库 的 设计 ， 将 该 模式 分 解 为 第 四 范式 。 

函数 依赖 和 多 值 依赖 集 为 D 的 关系 模式 r(R) 属 于 第 四 范式 (4NF) 的 条 件 是 ， 对 D 中 所 有 形 如 [357 | 
a 一 一 的 多 值 依赖 (其 中 aCRA BCR), 至少 有 以 下 之 一 成 立 : 

。 a 一 一 B 是 一 个 平凡 的 多 值 依赖 。 

ea 是 尺 的 一 个 超 码 。 
数据 库 设 计 属 于 4NF 的 条 件 是 构成 该 设计 的 关系 模式 集中 的 每 个 模式 都 属于 4NF。 

请 注意 ，4NF 定义 与 BCNF 定义 的 唯一 不 同 在 于 多 值 依赖 的 使 用 。4NF 模式 一 定 属于 BCNF。 为 了 
了 解 这 点 ,我们 注意 到 ， 如 果 模 式 r(R) 不 属于 BCNF， 则 R 上 存在 非 平凡 的 函数 依赖 a 一 B， 其 中 a 
不 是 超 码 。 由 于 a 一 B 就 意味 着 a 一 一 B， 因 此 r(R) 不 属于 4NF。 

& r(R) 为 关系 模式 ，r,(R,)，r,(R,)，…,r,(R,) 为 r(R) 的 分 解 。 要 检验 分 解 中 的 每 一 个 关系 模 
式 六 是 否 属于 4NF， 我 们 需要 找到 每 一 个 六 上 成 立 的 多 值 依 赖 。 回 想到 对 于 函数 依赖 集 f， PER, 上 
的 限定 FF PRA RS R 中 属性 的 函数 依赖 。 现 在 考虑 函数 依赖 和 多 值 依赖 的 集合 D。D 在 R, 上 
的 限定 是 集合 D, CUR 

1. D* PARA AS R, 中 属性 的 函数 依赖 。 

2. 所 有 形 如 : 


358 | 


a——>ß N R; 
的 多 值 依赖 ， 其 中 w C R, 且 a 一 一 B 属 于 D'， 
8. 6. 3 4NF 分 解 
我 们 可 以 将 4NF 与 BCNF 之 间 的 相似 之 处 应 用 到 4NF 模式 分 解 中 。 图 8-16 给 出 了 4NF 分 解 算法 。 
它 与 图 8-11 的 BCNF 分 解 算法 相同 ， 除 了 它 使 用 多 值 依 赖 以 及 D' ER, 上 的 限定 。 





result:= |R}; 
done: = false; 
计算 D*' ; AERAR, + D, 表示 D'ER, 上 的 限定 
while (not done) do 
if (result 中 存在 R, 不 属于 4NF) 
then begin 
令 a 一 一 B H R, 上 成 立 的 非 平 凡 多 值 依赖 
使 得 a 一 R 不 属于 D,, H#HaNB =O; 
result:= (result -R;) U (R,-B) U (a, B); 
end 
else done:= true; 


图 8-16 4NF 分 解 算法 


如 果 我 们 将 图 8-16 的 算法 应 用 于 (万 ,dept_name, street, city) ， 我 们 发 现 ID 一 一 dept_name 是 非 平 
凡 的 多 值 依赖 并且 1D 不 是 该 模式 的 超 码 。 按 照 访 算法， 我 们 将 它 替 换 为 两 个 模式 : 
ra (ID, dept_name) 
ra (ID, street, city) 
这 对 模式 属于 4NF， 它 消除 了 我 们 前 面 所 遇 到 的 元 余 。 
与 单独 考虑 函数 依赖 时 一 样 ， 我 们 希望 得 到 无 损 的 和 保持 依赖 的 分 解 。 从 下 面 关 于 多 值 依赖 和 无 [359 
损 性 的 性 质 可 以 看 出 图 8-16 的 算法 只 产生 无 损 分 解 ; 
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© 今 r(R) 为 一 关系 模式 , D 为 尺 上 的 函数 依赖 和 多 值 依赖 的 集合 。 令 六 (RN ) flr, (R,) AR 
个 分 解 。 该 分 解 是 R 的 无 损 分 解 ， 当 上 且 仅 当 下 面 的 多 值 依赖 中 至 少 有 一 个 属于 D”: 
R,N RB, R, 
RT Ry RB, 
回想 我 们 在 8. 4. 4 节 提 到 的 , Æ R NO R R ERN RR, Wr, (R,) Ar, ) NrCR) 的 无 损 
分 解 。 上 面 这 个 关于 多 值 依赖 的 性 质 是 对 无 损 性 更 一 般 化 的 表述 。 它 指明 ， 对 于 每 个 将 r(R) 分 解 
为 两 个 模式 r,(R) 和 7,(R,) 的 无 损 分 解 ， 两 个 依赖 RN R, 一 一 Ri 或 RIN R, 一 一 R, 中 至 少 有 一 
个 成 立 。 
当 我 们 对 存在 多 值 依赖 的 关系 模式 进行 分 解 时 ， 保 持 依 赖 的 问题 变 得 更 加 复杂 。 附 录 C. 1.2 将 
继续 讨论 这 个 问题 。 


8.7 更 多 的 范式 


第 四 范 绝 不 是 “最 终 ” 的 范式 。 正 如 我 们 前 面 看 到 的 ， 多 值 依 赖 有 助 于 我 们 理解 并 消除 某 些 形式 
的 信息 重复 ， 而 这 种 信息 重复 用 函数 依赖 是 无 法 理解 的 。 还 有 一 些 类 型 的 约束 称 作 连 接 依赖 (join 
dependency) ， 它 概 化 了 多 值 依 赖 ， 并 引出 了 另 一 种 范式 称 作 投影 - 连接 范式 ( Project-Join Normal 
Form，PJNF)(PJNF 在 某 些 书 中 称 为 第 五 范式 ，fifth normal form)。 还 有 一 类 更 一 般 化 的 约束 ， 它 引 
出 一 种 称 作 域 - 码 范 式 ( Domain-Key Normal Form，DKNF) 的 范式 。 

使 用 这 些 一 般 化 的 约束 的 一 个 实际 的 问题 是 ， 它 们 不 仅 难 以 推导 ， 而 且 也 还 没有 形成 一 套 具 有 
正确 有 效 性 和 完备 性 的 推理 规则 用 于 约束 的 推导 。 因 此 PJNF 和 DKNF 很 少 使 用 。 附 录 C 将 更 详细 地 
介绍 这 些 范式 。 

很 明显 ， 我 们 的 讨论 中 没有 第 二 范式 (Second Normal Form，2NF ) 。 因 为 它 只 具有 历史 的 意义 ， 
所 以 我 们 没有 对 它 进 行 讨论 。 在 实践 习题 8. 17 中 ， 我 们 对 它 简单 地 定义 ， 并 留 做 练习 


8.8 数据 库 设 计 过 程 


迄今 为 止 我 们 详细 讨论 了 范式 和 规范 化 的 问题 ， 本 节 将 研究 规范 化 是 如 何 迷 合 在 整体 数据 库 设 
计 过 程 中 的 。 

在 本 章 的 前 面 ， 从 8. 3 节 开 始 ， 我们 假定 给 定 关 系 模式 r(R) ， 并 对 之 进行 规范 化 。 我 们 可 以 采 
用 以 下 几 种 方法 得 到 模式 r(R): 

1.r(R) 可 以 是 由 E-R 图 向 关系 模式 集 进行 转换 时 生成 的 。 

2.7(R) 可 以 是 一 个 包含 所 有 有 意义 的 属性 的 单个 关系 。 然 后 规范 化 过 程 中 将 RR 分 解 成 一 些 更 小 
的 模式 。 

3.r(R) 可 以 是 关系 的 即席 设计 的 结果 ， 然 后 我 们 检验 它们 是 否 满足 一 个 期 望 的 范式 。 

在 本 节 的 剩余 的 部 分 ， 我 们 将 考察 这 些 方法 之 间 的 潜在 关系 。 我 们 也 将 考察 数据 库 设计 中 一 些 
实际 的 问题 ， 包 括 为 了 保证 性 能 的 去 规范 化 ， 以 及 规范 化 时 没 检 测 到 的 不 良 设 计 的 例子 。 
8.8.1 E-R 模型 和 规范 化 

当 我 们 小 心地 定义 E-R 图 ， 并 正确 地 识别 所 有 的 实体 时 ， 由 E-R 图 生成 的 关系 模式 应 该 就 不 需 
要 太 多 进一步 的 规范 化 。 然 而 ， 一 个 实体 的 属性 之 间 有 可 能 存在 函数 依赖 。 例 如 ， 假 设 instructor 实 
体 集 包 含 属性 dept_name 和 dept_address， 并 且 存 在 函数 依赖 dept_name 一 dept_address。 那 么 我 们 就 要 
规范 化 从 instructor 生成 的 关系 。 

大 多 数 这 种 依赖 的 例子 都 是 由 不 好 的 E-R 图 设计 引起 的 。 在 上 面 的 例子 中 ， 如 果 我 们 正确 设计 
E-R 图 ， 我 们 将 创建 一 个 包含 属性 dept_address 的 department 实体 集 以 及 instructor 与 department 之 间 的 
一 个 联系 集 。 同 样 ， 包 含 两 个 实体 集 以 上 的 联系 集 有 可 能 会 使 产生 的 模式 不 属于 所 期 望 的 范式 。 由 
于 大 部 分 的 联系 集 都 是 二 元 的 ， 因 此 这 样 的 情况 相对 稀少 。( 事 实 上 ， 某 些 变种 形式 的 E-R 图 实际 上 
很 难 或 者 不 可 能 指定 非 二 元 的 联系 集 。) 
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函数 依赖 有 助 于 我 们 检测 到 不 好 的 E-R 设计 。 如 果 生 成 的 关系 模式 不 属于 想 要 的 范式 ， 该 问题 
可 以 在 E-R 图 中 解决 。 也 就 是 说 ， 规 范 化 可 以 作为 数据 建 模 的 一 部 分 规范 地 进行 。 规 范 化 既 可 以 留 
给 数据 库 设计 者 在 E-R 建 模 时 靠 直 觉 实 现 ， 也 可 以 从 E-R 模型 生成 的 关系 模式 上 规范 地 进行 ， 二 者 
可 任 选 其 一 。 

细心 的 读者 可 能 注意 到 ， 为 了 解释 多 值 依赖 和 第 四 范式 的 必要 性 ， 我 们 不 得 不 从 一 个 不 是 由 E-R 
设计 导出 的 模式 出 发 。 事 实 上 ， 创 建 E-R 设计 的 过 程 倾 向 于 产生 4NF 设计 。 如 果 一 个 多 值 依赖 成 立 
且 不 是 被 相应 的 函数 依赖 所 隐 仿 的， 那么 它 通常 由 以 下 情况 引起 : 

。 一 个 多 对 多 的 联系 集 。 

。 实体 集 的 一 个 多 值 属性 。 

对 于 多 对 多 的 联系 集 ， 每 个 相关 的 实体 集 都 有 自己 的 模式 ,并 且 存 在 一 个 额外 的 模式 用 于 表示 
联系 集 。 对 于 多 值 属性 ,会 创建 一 个 单独 的 模式 ,包含 该 属性 以 及 实体 集 的 主 码 ( 正 如 在 实体 集 
instructor 中 的 phone_number 属性 的 例子 一 样 ) 。 

关系 数据 库 设 计 的 泛 关 系 方法 从 一 个 假设 开始 ， 它 假定 存在 单个 关系 模式 包含 所 有 有 意义 的 属 
性 。 这 单个 模式 定义 了 用 户 和 应 用 程序 如 何 与 数据 库 交互 。 

8. 8.2 属性 和 联系 的 命名 

数据 库 设计 的 一 个 期 望 的 特性 是 唯一 角色 假设 (unique-role assumption) ， 这 意味 着 每 个 属性 名 在 
数据 库 中 只 有 唯一 的 含义 。 这 使 得 我 们 不 能 使 用 同一 个 属性 在 不 同 的 模式 中 表示 不 同 的 东西 。 例 如 ， 
相反 地 ， 我 们 可 能 考虑 使 用 属性 number 在 模式 instructor 中 表示 电话 号 码 ， 而 在 模式 classroom 中 表示 
房间 号 。 对 模式 instructor 上 的 一 个 关系 和 模式 classroom 上 的 一 个 关系 进行 连接 是 毫 无 意义 的 。 用 户 
和 应 用 程序 开发 人 员 必 须 小 心 操 作 以 保证 在 每 个 场合 使 用 了 正确 的 number， 而 对 电话 号 码 和 房间 号 
分 别 使 用 不 同 的 属性 名 则 能 减少 用 户 的 错误 。 


虽然 对 不 兼容 的 属性 使 用 不 同 的 名 字 是 个 好 主意 ,但 是 如 果 不 同 关系 中 的 属性 有 相同 的 含义 ，- 


使 用 相同 的 名 字 可 能 就 是 个 好 主意 了 。 因 此 我 们 对 实体 集 instructor 和 student 使 用 相同 的 属性 名 
“name”。 如 果 不 这 样 ( 即 我 们 对 教师 和 学 生 的 名 字 用 不 同 的 命名 规范 ) ， 那 么 如 果 我 们 想 通过 创建 一 
个 实体 集 person 来 概 化 这 两 个 实体 集 ， 我 们 就 不 得 不 重 命 名 属性 。 因 此 ， 即 使 我 们 当前 没有 对 
instructor 和 student 的 概 化 ， 然 而 如 果 我 们 预见 到 这 种 可 能 性 ， 最 好 还 是 在 这 两 个 实体 集 ( 和 关系 ) 中 
使 用 同样 的 名 字 。 

尽管 从 技术 上 看 ， 一 个 模式 中 的 属性 名 的 顺序 无 关 紧 要 ， 然 而 习惯 上 把 主 码 属 性 列 在 前 面 。 这 
会 使 得 查看 默认 输出 (例如 select * 的 输出 ) 更 加 容易 。 

在 大 的 数据 库 模 式 中 ， 联 系 集 ( 及 其 导出 的 模式 ) 常 常 以 相关 实体 集 名 称 的 拼接 来 命名 ， 可 能 使 
用 连 字符 或 下 划 线 连接 。 我 们 已 经 使 用 了 几 个 这 样 的 名 字 ， 例 如 inst_sec 和 student_sec, 我 们 使 用 名 
字 teaches 和 takes 而 不 使 用 更 长 的 拼接 名 字 。 由 于 对 于 少数 几 个 联系 集 ， 想 起 它们 的 相关 实体 集 并 不 
难 ， 因 而 这 是 可 以 接受 的 。 我 们 无 法 一 直通 过 简单 的 拼接 创建 联系 集 的 名 字 ; 例如 ， 雇 员 之 间 的 管 
理 者 或 被 管理 联系 ， 如 果 我 们 称 之 为 employee_employee 就 没有 什么 意义 。 相 似 地 ， 如 果 一 对 实体 集 
间 可 能 有 多 个 联系 集 ， 联 系 集 的 名 字 就 必须 包含 额外 的 部 分 以 区 别 这 些 联系 集 。 

不 同 的 组 织 对 于 命名 实体 集 有 不 同 的 习惯 。 举 例 来 说 ， 我 们 可 能 称 一 个 学 生 的 实体 集 为 student 
或 者 students。 在 数据 库 设计 中 我 们 采用 了 单数 形式 。 使 用 单数 或 者 复数 形式 都 是 可 以 接受 的 ， 只 要 
所 有 实体 集 都 一 致 地 使 用 该 习惯 就 可 以 了 。 

随 着 模式 变 得 更 大 ， 联 系 集 的 数量 不 断 增加 ， 使 用 对 属性 、 联 系 和 实体 一 致 的 命名 方式 会 使 得 
数据 库 设 计 者 和 应 用 程序 员 更 加 轻松 。 

8. 8.3 为 了 性 能 去 规范 化 

有 时 候 数 据 库 设 计 者 会 选择 包含 元 余 信息 的 模式 ， 也 就 是 说 ,没有 规范 化 。 对 一 些 特定 的 应 用 ， 
他 们 使 用 元 余 来 提高 性 能 。 不 使 用 规范 化 模式 的 代价 是 用 来 保持 元 余数 据 一 致 性 的 额外 工作 ( 以 编码 
时 间 和 执行 时 间 计 算 )。 
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例如 ,假定 每 次 访问 一 门 课程 时 ， 所 有 的 先 修 课 都 必须 和 课程 信息 一 起 显示 。 在 规范 化 的 模式 
中 ， 需 要 连接 course 和 prereg。 

一 个 不 计算 连接 的 方法 是 保存 一 个 包含 course 和 prered 的 所 有 属性 的 关系 。 这 使 得 显示 “全 部 ” 课 
程 信息 更 快 。 然 而 ， 对 于 每 门 先 修 课 都 要 重复 课程 的 信息 ， 而 且 每 当 添 加 或 删除 先 修 课 时 应 用 程序 
就 必须 更 新 所 有 的 副本 。 把 一 个 规范 化 的 模式 变 成 非 规范 化 的 过 程 称 为 去 规范 化 ( denormalization ) , 
设计 者 用 它 调整 系统 的 性 能 以 支持 响应 时 间 苛 刻 的 操作 。 

现今 许多 数据 库 系 统 支持 一 种 更 好 的 方法 ， 即 使 用 规范 化 的 模式 ， 同 时 将 course 和 prereg 的 连接 
作为 物化 视图 额外 存储 。( 回 忆 一 下 ， 物 化 视图 是 将 结果 存储 在 数据 库 中 的 视图 ， 当 它 用 到 的 关系 更 


新 时 也 相应 更 新 。) 像 去 规范 化 一 样 ， 使 用 物化 视图 确实 会 有 空间 和 时 间 上 的 开销 ; 不 过 它 也 有 优点 ， 
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就 是 保持 视图 更 新 的 工作 是 由 数据 库 系 统 而 不 是 应 用 程序 员 完 成 的 。 
8.8.4 其 他 设计 问题 

数据 库 设计 中 有 一 些 方面 不 能 用 规范 化 描述 ， 而 它们 也 会 导致 不 好 的 数据 库 设 计 。 与 时 间或 时 
间 段 有 关 的 数据 就 存在 这 样 的 问题 。 这 里 我 们 给 出 一 些 例子 ; 显然 ， 这 样 的 设计 应 该 避免 。 

考虑 一 个 大 学 数据 库 ， 我 们 想 存储 不 同年 份 中 每 个 系 的 教师 总 数 。 可 以 用 关系 total_inst( dept_ 
name , year, size ) 来 存储 所 需要 的 信息 。 这 个 关系 上 的 唯一 的 函数 依赖 是 dept_name, year 一 size, XA 
关系 属于 BCNF。 

另 一 个 设计 是 使 用 多 个 关系 ， 每 个 关系 存储 一 个 年 份 的 系 规 模 信息 。 假 设 我 们 感 兴趣 的 年 份 为 
2007 2008 和 2009; 我 们 将 得 到 形 如 total_inst_2007, total_inst_2008, total_inst_2009 这 样 的 关系 ， 
它们 都 建立 在 模式 (dept_name, size) 之 上 。 因 为 每 一 个 关系 上 的 唯一 的 函数 依赖 是 dept_name — size, 
所 以 这 些 关 系 也 属于 BCNF, 

但 是 ， 这 个 设计 显然 是 一 个 不 好 的 主意 一 一 我 们 必须 每 年 都 创建 一 个 新 的 关系 ， 每 年 还 不 得 不 
写 新 的 查询 从 而 把 新 的 关系 考虑 进去 。 由 于 可 能 涉及 很 多 关系 ， 因 此 查询 也 将 更 加 复杂 。 

然而 还 有 一 种 方法 可 以 表示 同样 的 数据 ， 即 建立 一 个 单独 的 关系 dept_year(dept_name, total_inst_ 
2007 , total_inst_2008 , total_inst_2009) 。 这 里 唯一 的 函数 依赖 是 从 dept_name 指向 其 他 属性 的 依赖 ， 
该 关系 也 属于 BCNF。 这 种 设计 也 是 一 个 不 好 的 想法 ， 因 为 它 存在 与 前 面 类 似 的 问题 ， 就 是 每 年 我 们 
都 不 得 不 修改 关系 模式 并 书写 新 的 查询 。 由 于 可 能 涉及 很 多 属性 ， 因 此 查询 也 会 变 得 更 加 复杂 。 

像 dept_year 关系 中 那样 的 表示 方法 ， 属 性 的 每 一 个 值 一 列 ， 叫 作 交 叉 表 (crosstab) 。 它 们 在 电子 
数据 表 、 报 告 和 数据 分 析 工 具 中 广泛 使 用 。 虽 然 这 些 表 示 方 法 显示 给 用 户 看 是 很 有 用 的 ， 但 是 由 于 
上 面 给 出 的 原因 ， 它 们 在 数据 库 的 设计 中 并 不 可 取 。 如 5.6.1 节 所 述 , 为 了 显示 方便 ，SQL 扩展 已 
经 提出 了 将 数据 从 规范 化 的 关系 表示 转换 到 交叉 表 的 方法 。 


8.9 时 态 数据 建 模 


假定 我 们 在 大 学 中 保存 的 数据 不 仅 包括 每 个 教师 的 地 址 ， 还 包括 该 大 学 所 知道 的 所 有 以 前 的 地 
址 。 我 们 可 能 提出 诸如 “ 找 出 在 1981 年 居住 在 普林斯顿 的 所 有 教师 ”的 查询 。 在 该 情况 下 ， 我们 可 能 
对 于 每 个 教师 有 多 个 地 址 。 每 个 地 址 有 一 个 关联 的 起 始 日 期 和 终止 日 期 ,表示 该 教师 居住 在 该 地 址 
的 时 间 。 对 于 终止 日 期 , 一 个 特殊 的 值 ， 比 如 空 值 或 者 像 9999 - 12 -31 这 样 的 相当 远 的 未 来 的 值 ， 
可 以 用 来 表示 教师 仍然 居住 在 该 地 址 。 

一 般 来 说 ， 时 态 数据 (temporal data) 是 具有 关联 的 时 间 段 的 数据 ， 在 时 间 段 之 间 数 据 有 效 (valid) © 。 
我 们 使 用 数据 的 快照 (snapshot) 这 个 术语 来 表示 一 个 特定 时 间 点 上 该 数据 的 值 。 这 样 course 数据 的 一 
张 快照 给 出 了 在 一 个 特定 时 间 点 上 的 所 有 课程 的 (诸如 名 称 和 系 等 ) 所 有 属性 的 值 。 

由 于 某 些 原因 ， 对 时 态 数 据 建 模 是 一 个 相当 有 挑战 性 的 问题 。 例 如 ,假定 我 们 有 一 个 instructor 实 
体 ， 我 们 希望 它 关 联 着 一 个 随时 间 变 化 的 地 址 。 为 了 给 一 个 地 址 加 上 时 态 信息 ， 我 们 不 得 不 建立 一 个 





o ”有 些 其 他 时 态 数 据 模型 会 区 分 有 效 时 间 ( valid time) 和 事务 时 间 (transaction time) ， 后 者 记录 该 事实 记录 到 数据 库 
中 的 时 间 。 为 简单 起 见 ， 我 们 忽略 这 样 的 细节 。 
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多 值 属性 ， 其 中 的 每 个 值 是 一 个 组 合 值 (包含 一 个 地 址 和 一 个 时 间 段 )。 除 了 随时 间 变 化 的 属性 值 ， 实 
体 本 身 可 能 也 要 关联 一 个 有 效 时 间 。 例 如 ， 一 个 学 生 实体 可 能 有 一 个 从 入 学 日 期 到 毕业 (或 者 离 校 ) 日 
期 的 有 效 时 间 。 联 系 也 可 能 有 关联 的 有 效 时 间 。 例 如 ， 联 系 prereq 可 以 记录 该 课程 成 为 男 一 门 课程 的 
先 修 课 的 时 间 。 这 样 我 们 就 需要 在 属性 值 、 实 体 集 和 联系 集 上 加 上 有 效 时间 段 。 在 E-R 图 上 增加 这 些 
细节 会 使 其 非常 难于 创建 和 理解 。 当 前 已 经 有 多 个 扩展 E-R 表示 法 的 提案 ,希望 用 简单 的 方式 指明 属 
性 值 或 联系 是 随时 间 变 化 的 ， 但 是 至 今 仍 没有 采用 的 标准 。 


当 我 们 随时 间 监 测 数据 值 时 ， 我 们 假定 成 立 的 函数 依赖 ， 如 : 


ID — street, city 


可 能 不 再 成 立 。 而 以 下 约束 (用 自然 语言 表述 ) 则 可 能 成 立 :“ 对 任意 给 定 的 时 间 上:， 一 个 教师 ID 仅 有 
一 个 street 和 city 的 值 。” 


一 > 了 在 某 个 特定 时 间 点 上 成 立 的 函数 依赖 称 为 时 态 函 数 依赖 。 形 式 化 地 说 ， 时 态 函 数 依 赖 


(temporal functional dependency ) X Zy 在 关系 模式 r(R) 上 成 立 的 条 件 是 ， 对 于 r(R) 的 所 有 合法 实例 ， 
r 的 所 有 快照 都 满足 函数 依赖 六 一 了。 


我 们 可 以 扩展 关系 数据 库 设 计 的 理论 ， 把 时 态 函 数 依赖 考虑 进去 。 但 是 ， 使 用 常规 的 函数 依赖 已 


经 很 难于 推理 了 ， 而 且 几 乎 没有 设计 者 做 好 了 处 理 时 态 函 数 依赖 的 准备 。 


在 实践 中 ， 数 据 库 设计 者 退回 到 更 简单 的 方法 来 设计 时 态 数据 库 。 一 个 常用 的 方法 是 设计 整个 数 


据 库 (包括 E-R 设计 和 关系 设计 ) 而 忽略 时 态 改变 (等 价 于 仅 考 虑 一 张 快 照 ) 。 在 这 之 后 ， 设 计 者 研究 多 [B65 
个 关系 并 决定 哪些 关系 需要 跟踪 时 态 变化 。 





接 下 来 的 步 又 是 通过 把 起 始 和 终止 时 间作 为 属性 ， 为 每 个 这 样 的 关系 添加 有 效 时 间 信息 。 例 如 ， 考 


IÈ course 关系 ， 课 程 的 名 称 可 能 随时 间 变 化 ， 这 可 以 通过 添加 一 个 有 效 时 间 范 围 来 处 理 ; 得 到 的 模式 为 


course (course_id, title, dept_name, start, end) 


该 关系 的 一 个 实例 可 能 有 两 条 记录 (CS -101, “Introduction to Programming”, 1985 - 01 -01, 2000 - 12 - 
31) 和 (CS 一 101, “Introduction to C”, 2001 -01 -01, 9999 - 12 -31) 。 如 果 更 新 该 关系 ， 将 该 课程 名 
称 改 为 “Introduction to Java”， 时 间 “9999 - 12 -31” 就 应 该 更 新 为 原来 的 值 (“Introduction to C” ) 有 效 的 
终止 时 间 ; 然后 加 入 包含 新 名 称 “ Introduction to Java” 和 相应 的 起 始 时 间 的 一 条 新 元 组 。 


如 果 另 一 个 关系 有 一 个 参照 时 态 关 系 的 外 码 ， 数 据 库 设计 者 必须 决定 参照 是 针对 当前 版 本 的 数据 


还 是 一 个 特定 时 间 点 的 数据 。 例 如 ， 我 们 可 以 通过 扩展 department 关系 来 记录 系 的 办 公 楼 和 预算 随时 
间 的 变化 ， 但 是 一 个 来 自 instructor BK student 关系 的 参照 可 能 并 不 关心 以 往 的 办 公 楼 和 预算 ， 而 是 可 能 
隐 含 地 参照 对 应 dept_name 的 时 态 当 前 记录 。 另 一 方面 ， 一 个 学 生 的 成 绩 单 记录 应 当 参 照 该 学 生 修 习 该 
课程 期 间 的 课程 名 称 。 在 后 一 种 情况 下 ， 参 照 关 系 必 须 也 记录 时 间 信 息 ， 以 便于 从 course 关系 中 确定 
一 条 特定 的 记录 。 在 我 们 的 例子 中 ， 选 课时 的 year 和 semester 可 以 映射 到 一 个 代表 性 的 时 间 / 日 期 值 ， 
比如 该 学 期 开学 日 的 午夜 ; 该 时 间 / 日 期 值 用 于 从 时 态 course 关系 中 识别 一 条 特定 的 记录 ， 从 中 查询 


一 个 时 态 关 系 中 原始 的 主 码 无 法 再 唯一 地 标识 一 条 元 组 。 为 了 解决 这 个 问题 ， 我 们 可 以 在 主 码 中 


加 入 起 始 和 终止 时 间 属 性 。 但 是 ， 仍 然 留 下 一 些 问 题 : 


。 有 可 能 存储 时 间 段 重 秋 的 数据 ， 该 问题 主 码 约束 无 法 捕获 。 如 果 系 统 支 持 自 带 的 有 效 时 间 类 
型 ， 它 就 能 够 检测 并 避免 这 种 重 礁 的 时 间 段 。 
e 为 了 指明 参照 这 种 关系 的 外 码 ， 参 照 元 组 必须 包含 起 始 和 终止 时 间 属 性 为 它们 的 外 码 的 一 部 
分 ， 其 值 也 必须 与 被 参照 元 组 相 匹配 。 进 一 步 说 ， 如 果 被 参照 元 组 更 新 (而 且 原 本 在 未 来 的 终 
止 时 间 也 更 新 ) ， 则 该 更 新 必须 传播 到 所 有 参照 元 组 。 
如 果 系 统 以 一 种 更 好 的 方式 支持 时 态 数据 ， 我 们 就 能 够 允许 参照 元 组 指定 一 个 时 间 点 而 不 
是 一 个 时 间 范 围 ， 并 且 依 靠 系统 保证 在 被 参照 关系 中 存在 一 条 元 组 ， 该 元 组 的 有 效 时 间 段 包含 
该 时 间 点 。 例 如 ， 一 条 成 绩 单 记 录 可 以 指定 一 个 course_id 和 一 个 时 间 ( 比如 一 个 学 期 的 开学 日 
H), ， 这 样 就 足够 在 course 关系 中 识别 正确 的 记录 了 。 
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作为 一 个 常见 的 特例 ， 如 果 所 有 对 时 态 数据 的 参照 都 仅仅 指向 当前 数据 ， 更 简单 的 解决 办 法 是 不 
在 关系 中 添加 时 间 信 息 ， 而 是 为 过 去 的 值 创 建 一 个 相应 的 有 时 态 信息 的 history 关系 。 例 如 ， 在 我 们 的 
大 学 数据 库 中 ， 我 们 可 以 使 用 已 经 创建 的 设计 ， 忽 略 时 态 变 化 ， 仅 仅 存储 当前 信息 。 所 有 的 历史 信息 
都 转移 到 历史 关系 中 。 这 样 instructor 关系 可 以 只 存储 当前 地 址 ， 而 关系 instructor_history 可 以 包含 
instructor 所 有 的 属性 ， 以 及 额外 的 start_time 和 end_time 属性 。 

尽管 我 们 没有 提供 任何 处 理 时 态 数据 的 形式 化 方法 ,我们 所 讨论 的 问题 和 我 们 所 给 出 的 例子 会 帮 
助 你 设计 记录 时 态 数据 的 数据 库 。 处 理 时 态 数 据 中 的 进一步 的 问题 ， 包 括 时 态 查 询 ， 稍 后 将 在 25. 2 节 


8. 10 总 结 


。 我 们 给 出 了 数据 库 设计 中 易 犯 的 错误 ， 和 怎样 系统 地 设计 数据 库 模 式 来 避免 这 些 错误 。 这 些 错 误 包 
括 信息 重复 和 不 能 表示 某 些 信息 。 
© 我 们 给 出 了 从 E-R 设计 到 关系 数据 库 设 计 的 发 展 过 程 ， 什 么 时 候 可 以 安全 地 合并 模式 ， 什 么 时 候 应 
该 分 解 模式 。 所 有 有 效 的 分 解 都 必须 是 无 损 的 。 
我 们 描述 了 原子 域 和 第 一 范式 的 假设 。 
© 我 们 介绍 了 函数 依赖 的 概念 ， 并 且 使 用 它 介绍 两 种 范式 ，Boyce-Codd 范式 (BCNF ) 和 第 三 范式 (3NF ) 。 
如 果 分 解 是 保持 依赖 的 ， 则 给 定 一 个 数据 库 更 新 ， 所 有 的 函数 依赖 都 可 以 由 单独 的 关系 进行 验证 ， 
无 须 计 算 分 解 后 的 关系 的 连接 。 
© 我 们 展示 了 如 何 用 函数 依赖 进行 推导 。 我 们 着 重 讲 了 什么 依赖 是 一 个 依赖 集 逻 辑 蕴 涵 的 。 我 们 还 定 
义 了 正则 覆盖 的 概念 ， 它 是 与 给 定 函 数 依赖 集 等 价 的 最 小 的 函数 依赖 集 。 
© 我 们 概述 了 一 个 将 关系 分 解 成 BCNF 的 算法 ， 有 一 些 关 系 不 存在 保持 依赖 的 BCNF 分 解 。 
。 我们 用 正则 覆盖 将 关系 分 解 成 3NF， 它 比 BCNF 的 条 件 弱 一 些 。 属 于 3NF 的 关系 也 许 会 含有 宛 余 ， 
367 但 是 总 存在 保持 依赖 的 3NF 分 解 。 
。 我 们 介绍 了 多 值 依赖 的 概念 ， 它 指明 仅 用 申 数 依赖 无 法 指明 的 约束 。 我 们 用 多 值 依赖 定义 了 第 四 范 
式 (4NF) 。 附 录 C. 1.1 给 出 了 有 关 多 值 依赖 推理 的 细节 。 
o 其 他 的 范式 ， 例 如 PJNF 和 DKNF， 消 除了 更 多 细微 形式 的 元 余 。 但是， 它们 难以 操作 而 且 很 少 使 
Ho MSR C 给 出 了 这 些 范式 的 详细 信息 。 
。 回顾 本 章 中 的 要 点 可 以 发 现 ， 我们 之 所 以 可 以 对 关系 数据 库 设计 定义 严格 的 方法 ， 是 因为 关系 数据 模 
型 建立 在 严谨 的 数学 基础 之 上 。 这 是 关系 模型 与 我 们 已 经 学 过 的 其 他 数据 模型 相 比 的 主要 优势 之 一 。 


术语 回顾 
e E-R 模型 和 规范 化 e Boyce-Codd 范式 ( BCNF) e BCNF 分 解 算法 
。 分 解 。 保持 依赖 。 3NF 分 解 算法 
© 函数 依赖 。 第 三 范式 (3NF) 。 多 值 依赖 
。 无 损 分 解 。 平凡 的 函数 依赖 。 第 四 范式 (4NF) 
。 原子 域 © 函数 依赖 集 的 闭 包 。 多 值 依赖 的 限定 
© 第 一 范式 (1NF) e Armstrong 公理 © 投影 - 连接 范式 (PJNF) 
。 合法 关系 。 属性 集 闭 包 © 域 - 码 范式 (DKNF ) 
。 超 码 。 FER, 上 的 限定 © KR 
。 REF 。 正则 覆盖 。 唯一 角色 假设 
e FÆR ERF 。 无 关 属性 。 去 规范 化 

实践 习题 

8.1 假设 我 们 将 模式 r (A, B, C, D, 已 ) 分 解 为 

368 r(A; B, €) 


n(A, D, E) 
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证 明 该 分 解 是 无 损 分 解 ， 如 果 如 下 函数 依赖 集 严 成 立 : 
A— BC CD => E B—D E—4 
8.2 列 出 图 8-17 所 示 关 系 满足 的 所 有 函数 依赖 。 
8.3 解释 如 何 用 函数 依赖 表明 : 
© 实体 集 student 和 instructor 间 存 在 的 一 对 一 联系 集 。 





。 实体 集 student 和 instructor 间 存 在 的 多 对 一 联系 集 。 ae |e 
8.4 用 Armstrong 公理 证 明 合并 律 的 正确 有 效 性 。( 提示 : 使 用 增补 律 可 证 , # a nla 
a 一 B， 则 a 一 aq8。 再 次 使 用 增补 律 ， 利 用 a 一 y， 然 后 使 用 传递 律 。) eal sues 
8.5 用 Armstrong 公理 证 明 伪 传 递 律 的 正确 有 效 性 。 的 关系 i 
8.6 计算 关于 关系 模式 > (4, B, C, D, E) KAIF RB F 的 闭 包 。 i 
A — BC 
CD => E 
B — D 
E-A 
列 出 R 的 候选 码 。 
8.7 用 习题 8.6 中 的 函数 依赖 计算 正则 覆盖 F.o 369 


8.8 考虑 图 8-18 中 计算 a 的 算法 。 证 明 该 算法 比 图 8-8(8.4.2 节 ) 中 提出 的 算法 更 高 效 ， 并 且 能 正确 计 
Fa’. 





result; =Ø; 
/* fdcount 是 一 个 数组 ， 它 的 第 i 个 元 素 包 含 即将 属于 a + 的 第 i 个 函数 依赖 左 半 部 的 属性 个 数 / 
fori := lto | Fl do 


& By BARA i TPR; 
fdcount [i] ; = | Bl ; 


end 
/ * appears 是 一 个 数组 ， 每 个 属性 对 应 数组 的 一 个 人 口 。 属 性 4 的 入 口 是 一 列 整数 ， 该 列 中 每 个 整数 i 指明 4 出 现在 
第 i 个 函数 依赖 的 左 半 部 */ 
for each 属性 4 do 
begin 
appears [4]:= NIL; 
fori := lto | F| do 
begin 
令 B 一 y 表 示 第 :个 函数 依赖 ; 
if A e B then 把 ;加 到 appears [A] F; 
end 
end 
addin (a) ; 
return (result) ; 


procedure addin (a) ; 
for each a 中 的 属性 4 do 
begin 
if A ¢ result then 
begin 
result := result U {A}; 
for each cppears[4] 的 元 素 ; do 
begin 
fdcount [i] := fdcount [ -1; 
if fdcount [i]; = 0 then 


SB 一 y 表 示 第 :个 函数 依赖 ; 
addin (y); 
end 
end 
end 


end 370 
图 8-18 ”一 个 计算 a’ 的 算法 L371 | 
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8.9 给 定数 据 库 模式 R(a, 5，c) 及 模式 尺 上 的 关系 r， 写 出 检验 函数 依赖 一 “是 否 在 关系 上 上 成 立 的 SQL 
查询 。 并 写 出 保证 函数 依赖 的 SQL 断言 。 假 设 不 存在 空 值 。( 虽然 SQL 标准 中 的 某 些 部 分 ， 诸 如 断言 
等 目前 还 没有 在 任何 数据 库 实现 中 得 到 支持 。) 
8. 10 ”我 们 对 无 损 连 接 分 解 的 讨论 隐 含 假设 了 函数 依赖 左 部 的 属性 不 能 为 空 值 。 如 果 违 反 了 这 个 性 质 ， 在 分 
解 中 可 能 会 出 现 什么 错误 ? 
8.11 Æ BCNF 分 解 算法 中 ,假设 你 用 一 个 函数 依赖 a 一 B 将 关系 模式 r (a, B, yY) DEAH r Ca, B) Ar. (a, 
Yo 
a. 你 预期 在 分 解 后 的 关系 上 有 什么 样 的 主 码 和 外 码 约束 成 立 ? 
b. 如 果 在 上 述 分 解 后 的 关系 上 没有 强制 实施 外 码 约 束 ， 给 出 一 个 由 于 错误 更 新 而 导致 不 一 致 的 例子 。 
c 当 用 8.5.2 节 中 的 算法 将 一 个 关系 分 解 为 3NF 时 ， 你 预期 将 有 什么 样 的 主 码 和 外 码 依赖 在 分 解 后 
的 模式 上 成 立 ? 
8.12 令 Ri，R,，…，R, 为 模式 U 的 分 解 。 令 uw(U) 为 一 个 关系 ， 并 且 令 7, = Te (4)。 
证 明 
uCr,Mr,X Wr, 
8. 13 证 明 实 践 习题 8. 1 中 的 分 解 不 是 保持 依赖 的 分 解 。 
证 明 有 可 能 通过 保证 至 少 有 一 个 模式 包含 被 分 解 模式 的 候选 码 来 确保 一 个 保持 依赖 的 3NF 模式 分 解 
是 一 个 无 损 分 解 。( 提示 : 证 明 到 分 解 后 模式 上 的 所 有 的 投影 的 连接 不 会 具有 比 原 关 系 多 的 元 组 .) 
给 出 一 个 关系 模式 R' 及 函数 依赖 集 FF" 的 例子 ,使 得 至 少 有 三 种 不 同 的 无 损 分 解 可 将 R' 转 化 为 BCNF。 
令 主 (prime) 属 性 为 至 少 在 一 个 候选 码 中 出 现 的 属性 。 令 a 和 8p 为 属性 集 ， 使 得 a 一 BB 成 立 但 B 一 a 
不 成 立 。 令 4 为 一 属性 ， 它 不 属于 a 或 B, HA BO 4 成立。 我 们 称 4 传递 依赖 (transitively 
dependent) 于 a。 我 们 可 以 重新 如 下 定义 3NF: 具有 函数 依赖 集 了 的 关系 模式 R 属于 3NF， 如 果 R 中 
没有 非 主 属性 A 传递 依赖 于 及 的 一 个 码 。 证 明 这 个 新 定义 等 价 于 原 定 义 。 
8.17 函数 依赖 a 一 B 称 为 部 分 依赖 ( partial dependency) 的 条 件 是 ， 存 在 a 的 真子 集 y 使 得 y 一 B。 我 们 称 
B 部 分 依赖 于 a。 关系 模式 R 属于 第 二 范式 ( Second Normal Form, 2NF), ， 如 果 尺 中 的 每 个 属性 4 都 满 
足 如 下 准则 之 一 : 
。 它 出 现在 一 个 候选 码 中 。 
。 它 没有 部 分 依赖 于 一 个 候选 码 。 
证 明 每 个 3NF 模式 都 属于 2NF。( 提 示 : 证 明 每 个 部 分 依赖 都 是 传递 依赖 。) 
8.18 给 出 一 个 关系 模式 R 和 依赖 集 的 例子 ,使 得 RR 属于 BCNF， 但 不 属于 4NF。 


习题 

8. 19 给 出 实践 习题 8. 1 中 模式 R 的 一 个 无 损 连 接 的 BCNF 分 解 。 

8.20 给 出 实践 习题 8. 1 中 模式 R 的 一 个 无 损 连 接 并 保持 依赖 的 3NF 分 解 。 
8.21 将 具有 如 下 约束 的 下 列 模式 规范 化 为 4NF。 


books (accessionno, isbn, title, author, publisher) 
users (userid, name, deptid, deptname ) 


oe 
a 
P 


90 po 
— 
人 小 wr 


accessionno — isbn 
isbn — title 
isbn — publisher 
isbn —— author 
userid —> name 
userid — deptid 
deptid 一 deptname 
8.22 解释 什么 是 信息 重复 和 无 法 表示 信息 。 解 释 为 什么 这 些 性 质 可 能 意味 着 不 好 的 关系 数据 库 设 计 。 
8.23 ”为 什么 某 些 函 数 依赖 称 为 平凡 的 函数 依赖 ? 
8. 24 ”使 用 函数 依赖 的 定义 论证 Armstrong 公理 ( 自 反 律 、 增 补 律 、 传 递 律 ) 是 正确 有 效 的 。 
8.25 考虑 下 面 提出 的 函数 依赖 规则 : 若 a 一 B6 且 yy 一 B， 则 a 一 y。 通 过 给 出 一 个 关系 r,， 满足 a 一 B 且 
y 一 B 但 不 满足 a 一 y， 证 明 该 规则 不 是 正确 有 效 的 。 
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.26 用 Armstrong 公理 证 明 分 解 律 的 正确 有 效 性 。 
.27 用 实践 习题 8. 6 中 的 函数 依赖 计算 Be 。 
.28 证 明 实 践 习题 8. 1 中 的 模式 R 的 如 下 分 解 不 是 无 损 分 解 : 
(A, B, C) 
(C: D, E) 
提示 : 给 出 模式 R 上 一 个 关系 7 的 例子 ,使 得 
Ils,s.c(7) M Ie, s,s(r) #7 
8.29 考虑 如 下 关系 模式 r (A, B,C, D, E, F) ERRUKI F: 
A — BCD 
BC — DE 
B — D 
D—A 


Oo o0 


a HH B*, 
b. (使 用 Armstrong 公理 ) 证 明 AF 是 超 码 。 
c. 计算 上 述 函 数 依赖 集 F 的 正则 覆盖 ; 给 出 你 的 推导 的 步骤 并 解释 。 
d 基于 正则 覆盖 ,给 出 7 的 一 个 3NF 分 解 。 
e 利用 原始 的 函数 依赖 集 ， 给 出 7 的 一 个 BCNF 分 解 。 
f 你 能 否 利 用 正则 覆盖 得 到 与 上 面 的 r 相同 的 BCNF 分 解 ? 
.30 列 出 关系 数据 库 设 计 的 三 个 目标 ， 并 解释 为 什么 要 达到 每 个 目标 。 
.31 在 关系 数据 库 设 计 中 ， 为 什么 我 们 有 可 能 会 选择 非 BCNF 设计 ? 
8.32 给 定 关 系数 据 库 设 计 的 三 个 目标 ， 有 没有 理由 设计 一 个 属于 2NF 但 不 属于 任何 一 个 更 高 范式 的 数据 
库 模式 ? (2NF 的 定义 参见 实践 习题 8. 17,) 
8. 33 ”给 定 一 个 关系 模式 r(4, B, C, D) ，4 一 一 BC 是 否 逻 辑 蕴涵 4 一 一 8 和 4 一 一 C? 如 果 是 请 证 明之 ， 
否则 给 出 一 个 反例 。 
8.34 解释 为 什么 4NF 是 一 个 比 BCNF 更 好 的 范式 。 


文献 注解 


对 于 关系 数据 库 设 计 理 论 最 初 的 讨论 是 在 Codd[ 1970 ] 这 篇 早期 论文 中 。 在 那 篇 论文 中 ，Codd 引入 了 函 
数 依赖 ， 以 及 第 一 、 第 二 和 第 三 范式 。 

Armstrong 公理 是 由 Armstrong[ 1974] 引 入 的 。 在 20 世纪 70 年 代 后 期 关系 数据 库 理论 有 了 显著 的 进展 。 
这 些 结果 收集 在 一 些 数据 库 理论 的 课本 中 ， 包 括 Maier[ 1983 ] Atzeni 和 Antonellis[ 1993 ] 以 及 Abiteboul 等 
[1995 ] 。 

BCNF 是 在 Codd[ 1972] 中 引入 的 。Biskup 等 [1979] 给 出 了 用 于 找到 无 损 并 保持 依赖 的 3NF 分 解 的 算法 。 
有 关 无 损 分 解 特性 的 基础 结论 在 Aho 等 [ 1979a] 中 给 出 。 

Beeri [1977] 给 出 了 一 组 多 值 依赖 的 公理 ， 并 证 明 这 些 公理 是 正确 有 效 且 完备 的 。4NF、PJNF 和 
DKNF 的 概念 分 别 来 自 Fagin[ 1977] 、Fagin[ 1979] 和 Fagin[ 1981 ] 。 关 于 规范 化 的 进一步 的 参考 文献 ， 请 参 
看 附录 C 中 的 文献 注解 。 

Jensen 等 [1994 ] 给 出 了 一 个 时 态 数据 库 概念 的 术语 表 。Gregersen 和 Jensen[ 1999 ] 给 出 了 一 个 对 E-R 建 
模 进 行 扩展 以 处 理 时 态 数 据 的 综述 。Tansel 等 [ 1993 ] 探讨 了 时 态 数 据 库 的 理论 、 设 计 和 实现 。Jensen 等 
[1996 ] 描 述 了 将 依赖 理论 扩展 至 时 态 数据 的 方法 。 
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应 用 设计 和 开发 





实际 上 ， 对 数据 库 的 所 有 应 用 都 发 生 在 应 用 程序 内 。 相 应 地 ， 几 乎 所 有 的 用 户 与 数据 库 之 间 的 交 
互 都 是 通过 应 用 程序 间接 发 生 的 。 因 此 毫 不 奇怪 ， 数 据 库 系 统 长 期 以 来 都 支持 诸如 表单 和 GU 构建 器 
等 工具 ， 用 于 快速 开发 与 用 户 交互 的 应 用 程序 。 近 几 年 来 ，Web 已 成 为 最 广泛 使 用 的 数据 库 用 户 界面 。 

在 本 章 中 ， 我 们 学 习 建 立 应 用 程序 所 需要 的 工具 和 技术 ， 集 中 关注 那些 使 用 数据 库存 储 数据 的 交 
互 式 应 用 程序 。 

在 9. 1 节 对 应 用 程序 和 用 户 界面 的 介绍 后 ， 我 们 集中 关注 基于 Web 界面 的 应 用 的 开发 。 首 先 9.2 
节 对 Web 技术 进行 概述 ， 然 后 9. 3 节 讨 论 广泛 用 于 构建 Web 应 用 的 Java Servlet 技术 。9. 4 节 简 要 介绍 
Web 应 用 程序 体系 架构 。9. 5 节 讨 论 快速 应 用 程序 开发 工具 ， 而 9.6 节 介绍 构建 大 型 Web 应 用 程序 中 
的 性 能 问题 。9. 7 节 讨 论 应 用 程序 安全 的 问题 。 用 9. 8 节 结 束 本 章 ， 其 中 对 加 密 及 它 在 应 用 程序 中 的 使 
用 进行 了 介绍 。 


91 应 用 程序 和 用 户 界面 


尽管 许多 人 和 数据 库 打 交道 ， 但 很 少 有 人 用 查询 语言 直接 跟 数 据 库 系 统 交 互 。 用 户 与 数据 库 交 互 
时 最 常用 的 方法 是 通过 一 个 应 用 程序 ， 它 在 前 端 提供 用 户 界 面 ， 并 在 后 端 提供 数据 库 接 口 。 这 种 应 用 
程序 通常 是 通过 一 个 基于 表格 的 界面 从 用 户 得 到 输入 ， 然 后 根据 用 户 输入 或 将 数据 输入 数据 库 或 从 数 
据 库 中 抽取 信息 ， 并 产生 输出 展示 给 用 户 。 

375 举 个 应 用 程序 的 例子 ， 考 虑 一 个 大 学 注册 系统 。 和 其 他 这 种 应 用 程序 类 似 ， oo 
标识 并 认证 你 自己 ， 通 常 使 用 用 户 名 和 密码 。 然 后 ， 应 用 程序 使 用 你 的 身份 从 数据 库 中 抽取 信息 ， 上 
ee CARL, er Wee eee 
多 种 其 他 的 信息 ， 比 如 课程 信息 和 教师 信息 。 组 织 机 构 使 用 这 种 应 用 程序 以 自动 完成 多 种 任务 ， 例 如 
出 售 、 购 买 、 会 计 和 薪资 、 人 力 资 源 管理 以 及 库存 管理 等 。 

应 用 程序 有 可 能 正在 使 用 ， 即 使 不 能 明显 地 看 出 来 它们 正在 使 用 。 例 如 ， 一 个 新 闻 网 站 可 以 提供 
对 个 人 用 户 透 明定 制 的 页 面 ， 即 使 该 用 户 在 和 网 站 交互 时 并 没有 显 式 填 写 任何 表单 。 为 了 做 到 这 点 ， 
它 实 际 上 运行 了 一 个 对 每 个 用 户 生成 定制 页 面 的 应 用 程序 ， 例 如 ， 定 制 可 以 基于 用 户 浏览 文章 的 历史 。 

一 个 典型 的 应 用 程序 包括 一 个 处 理 用 户 界面 的 前 端 部 分 、 一 个 和 数据 库 通信 的 后 端 部 分 ， 以 及 一 
个 包含 "业务 逻辑 ”的 中 间 层 ， 即 执行 特定 的 信息 请 求 或 更 新 的 代码 ， 强 制 执行 诸如 为 了 执行 给 定 任务 
应 该 采取 什么 行动 ， 或 者 谁 可 以 执行 什么 任务 的 业务 规则 。 

如 图 9-1 所 示 ， 应 用 程序 体系 架构 随时 间 而 演变 。 诸 如 航班 预订 的 应 用 程序 自 20 世纪 60 年 代 以 
来 一 直 在 使 用 。 在 计算 机 应 用 早期 ， 应 用 程序 运行 在 一 台大 的 “主机 ”计算 机 上 ， 用 户 通 过 终端 与 应 用 
程序 交互 ， 其 中 一 些 终端 甚至 支持 表格 。 

随 着 个 人 计算 机 使 用 的 普及 ， 许 多 机 构 对 内 部 应 用 程序 使 用 了 一 个 不 同 的 体系 架构 ， 其 中 应 用 程 
序 在 用 户 的 计算 机 上 运行 并 访问 中 央 数 据 库 。 这 个 架构 通常 称 作 “客户 - 服务 器 "架构 ， 它 允许 创建 强 
大 的 图 形 用 户 界 面 ， 这 是 早期 基于 终端 的 应 用 所 不 支持 的 。 然 而 ， 软 件 必须 安装 在 每 个 用 户 的 机 器 上 
以 运行 应 用 程序 ， 这 就 使 得 诸如 升级 的 任务 比较 困难 。 即 使 在 客户 - 服务 器 架构 流行 的 个 人 计算 机 时 

[376] 代 , 诸如 航班 预订 这 种 从 大 量 地 理 上 分 布 的 位 置 使 用 的 应 用 程序 仍旧 选择 主机 架构 。 
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a) 主机 时 代 b) 个 人 计算 机 时 代 c) Web 时代 
图 9-1 不 同时 期 的 应 用 架构 


在 过 去 的 15 年 中 ，Web 浏览 器 已 成 为 数据 库 应 用 程序 的 通用 前 端 ， 它 通过 互联 网 连接 后 端 。 浏 览 器 使 
用 一 种 标准 的 语法 ， 超 文本 标记 语言 ( HyperText Markup Language, HTML) 标准 ， 它 既 支 持 信息 的 格式 
化 显示 ， 又 支持 基于 表格 的 界面 的 创建 。HTML 标准 是 独立 于 操作 系统 或 浏览 器 的 ， 并 且 目 前 几乎 每 
台 计 算 机 都 安装 了 Web 浏览 器 。 因 此 一 个 基于 Web 的 应 用 程序 可 被 任何 一 台 连 接 到 互联 网 的 计算 机 
访问 。 

与 客户 - 服务 器 架构 不 同 ， 要 使 用 基于 Web 的 应 用 程序 不 需要 在 客户 机 上 安装 任何 特定 于 应 用 的 
软件 。 然 而 ， 支 持 远 超 过 普通 HTML 所 能 提供 的 功能 的 复杂 用 户 界面 在 目前 广泛 使 用 ， 并 且 是 用 大 多 
数 Web 浏览 器 都 支持 的 脚本 语言 JavaScript 构建 的 。 与 用 C 写 的 程序 不 同 ，JavaSeript 程序 可 以 运行 在 
安全 模式 下 ， 保 证 它们 不 会 导致 安全 问题 。JavaScript 程序 被 透明 地 下 载 到 浏览 器 上 ， 且 不 需要 用 户 的 
计算 机 上 任何 显 式 的 软件 安装 。 

Web 浏览 器 提供 用 户 交 互 前 端的 同时 ， 应 用 程序 构成 了 后 端 。 通 常 ， 来 自 浏览 器 的 请 求 发 送 到 Web 服 
务 器 ， 它 依次 执行 应 用 程序 以 处 理 请 求 。 有 多 种 技术 都 可 以 用 于 创建 运行 在 后 端的 应 用 程序 ， 包 括 Java 
servlet, Java Server Pages(JSP) 、Active Server Pages( ASP) ， 或 者 脚本 语言 ， 比 如 PHP, Perl 或 Python, 

本 章 其 余部 分 讲述 如 何 构建 这 些 应 用 。 首 先 介绍 用 于 构建 Web 界面 的 Web 技术 和 工具 及 构建 应 用 
程序 的 技术 ， 然 后 介绍 应 用 架构 ， 以 及 应 用 程序 构建 中 的 性 能 和 安全 问题 。 


9.2 Web 基础 


在 本 节 中 ， 我们 为 了 那些 不 熟悉 Web 底层 技术 的 读者 ， 回 顾 一 下 万 维 网 背后 的 一 些 基 本 技术 。 
9.2.1 统一 资源 定位 符 

统一 资源 定位 符 ( Uniform Resource Locator, URL) Web 上 每 个 可 访问 文档 在 全 球 唯 一 的 名 字 。 
URL 的 一 个 例子 如 下 : 

http: //www. acm. org/sigmod 

URL 的 第 一 部 分 表明 文档 如 何 被 访问 :“http” 表 明文 档 将 用 超 文 本 传输 协议 (HyperText Transfer 
Protocol ，HTTP) 访 问 ， 这 是 一 个 传输 HTML 文档 的 协议 。 第 二 部 分 给 出 一 台 具 有 Web 服务 器 的 机 器 的 
名 称 。URL 的 其 余部 分 是 文件 在 机 器 上 的 路 径 名 ， 或 者 文档 在 机 器 中 其 他 的 唯一 标识 符 。 

URL 可 以 包含 位 于 Web 服务 器 上 程序 的 标识 符 ， 以 及 传递 给 程序 的 参数 。 这 样 的 URL 的 一 个 例 
fe: 

http: //www. google. com/search? q = silberschatz 

它 指出 ，www. google. com 服务 器 上 的 程序 search 应 该 执行 ， 并 带 有 参数 q = silberschatz。 接 收 到 这 个 
URL KY, Web 服务 器 使 用 给 定 的 参数 执行 该 程序 。 该 程序 返回 一 个 HTML 文档 给 Web 服务 器 ， 它 
将 该 文档 传送 到 前 端 。 
9.2.2 超 文 本 标记 语言 

图 9-2 是 一 个 使 用 HTML 格式 表示 的 表 的 例子 ， 而 图 9-3 表示 浏览 器 根据 HTML 表示 的 表 而 产生 的 
显示 图 像 。HTML 源 文本 显示 了 一 些 HTML 标签 。 每 个 HTML 页 应 包含 在 hm 标签 内 ， 该 页 的 主体 包 
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AE body 标签 中 。 表 用 table 标签 表示 ， 其 中 包含 的 行 用 f 标 签 表 示 。 表 的 表 头 行 有 用 标签 也 说 明 的 
表单 元 ， 而 普通 行 有 用 标签 td 说 明 的 表单 元 。 这 里 不 再 对 标签 进行 更 详细 的 介绍 ， 关 于 HTML 的 更 多 
信息 ， 请 参看 文献 注解 中 的 参考 文献 。 

图 9-4 展示 了 如 何 表示 一 个 允许 用 户 从 菜单 中 选择 人 员 类 型 (学 生 或 教师 ) 以 及 允许 用 户 向 文本 框 
中 输入 一 个 数 的 HTML 表单 。 图 9-5 展示 了 以 上 表单 如 何在 Web 浏览 器 中 显示 。 表 单 中 表示 了 两 种 接 
受 输入 的 方式 ， 但 是 HTML 还 支持 几 种 其 他 的 输入 方式 。form 标签 的 action 属性 表示 当 提 交 表 单 时 ( 通 
过 点 击 提交 按键 ) ， 表 单数 据 应 发 送 到 URL PersonQuery( 该 URL 是 相对 于 页 面 的 URL), Web 服务 器 被 
设置 成 当 该 URL 被 访问 时 ， 便 调用 相应 的 带 有 用 户 提供 的 参数 值 persontype 和 name( 在 select 和 input 
域 中 指定 ) 的 应 用 程序 。 该 应 用 程序 生成 一 个 HTML 文档 ， 该 文档 随即 传送 回去 并 显示 给 用 户 ; 我 们 将 
在 本 章 的 后 面 看 到 如 何 创 建 这 种 程序 。 


<html> 

<body> 

<table border> 

<tr> <th>ID</th> <th>Name</th>  <th>Department</th> </tr> 
<tr> <td>00128</td> <td>Zhang</td> <td>Comp. Sci.</td> </tr> 
<tr> <td>12345</td> <td>Shankar</td> <td>Comp. Sci.</td> </tr> 
<tr> <td>19991</td> <td>Brandt</td> <td>History</td> </tr> 
</table> 

</body> 

</html> 














图 9-2 HTML 格式 的 表格 数据 











9991|[B randt History 
图 9-3 图 9-2 中 HTML 源 文 本 的 显示 


<html> 
<body> 
<form action="PersonQuery" method=get> 
Search for: 
<select name="persontype"> 
<option value="student" selected> Student </option> 
<option value="instructor"> Instructor </option> 
</select> <br> 
Name: <input type=text size=20 name="name"> 
<input type=submit value="submit" > 
</form> 
</body> 
</html> 








图 9-4 一 个 HTML 表单 
HTTP 定义 了 两 种 将 用 户 在 Web 浏览 器 端 输入 的 值 发 送 到 Web 服务 器 。 Search for: [Student |; 


的 方式 。get 方法 将 值 编码 为 URL 的 一 部 分 。 例 如 ， 如 果 Google 搜索 页 使 Names 
用 一 个 表单 ， 包 含 一 个 名 为 q 的 get 方法 的 输入 参数 ， 并 且 用 户 键 人 字符 pe 
串 “silberschatz” 并 提交 该 表单 ， 浏 览 器 将 会 向 Web 服务 器 请 求 如 下 a pen 


的 URL; 








http: //www. google. com/search? q = silberschatz 
而 post 方法 将 会 向 www. google. com 页 面 发 送 一 个 请 求 ， 并 将 参数 的 值 作为 Web 服务 器 和 浏览 器 间 交 换 
的 HTTP 协议 的 一 部 分 发 送 。 图 9-4 中 的 表单 表示 该 表单 使 用 get 方法 。 
尽管 HTML 代码 可 以 用 普通 的 文本 编辑 器 创建 ， 但 是 存在 若干 种 可 以 使 用 图 形 界 面 直 接 创 建 
HTML 文本 的 编辑 器 。 这 些 编辑 器 允许 从 菜单 中 选择 诸如 表单 、 菜 单 和 表 这 样 的 结构 加 入 到 HTML X 
档 中 ， 而 不 是 手工 输入 生成 这 些 结构 的 代码 。 
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HTML 支持 样式 表 ( stylesheet) ， 它 可 以 改变 如 何 显 示 HTML 格式 化 结构 的 默认 定义 ， 以 及 其 他 显示 
属性 ， 如 页 面 的 背景 颜色 等 。 层 合式 样式 表 ( Cascading StyleSheet, CSS) 标准 允许 同一 个 样式 表 用 于 多 
个 HTML 文档 ,使 一 个 Web 站 点 上 的 所 有 页 面具 有 独特 而 统一 的 样式 。 

9.2.3 Web 服务 器 和 会 话 

Web 服务 器 ( Web Server) 是 运行 于 服务 器 上 的 程序 ， 它 接收 来 自 于 Web 浏览 器 的 请 求 并 以 HTML 
文档 的 形式 返回 结果 。 浏览 器 和 Web 服务 器 通过 HTTP 通信 。Web 服务 器 提供 了 强大 的 功能 ， 而 不 只 
是 简单 的 文档 传输 。 最 重要 的 功能 是 具有 带 用 户 提供 的 参数 执行 程序 ， 并 以 HTML 文档 形式 传送 回 结 
果 的 能 力 。 

所 以 ，Web 服务 器 可 以 作为 中 介 提 供 对 多 种 信息 服务 的 访问 。 一 个 新 的 服务 可 以 通过 创建 并 安装 
提供 服务 的 应 用 程序 而 创建 。 公 共 网 关 接 口 ( Common Gateway Interface, CGI) 标准 定义 了 Web 服务 器 如 
何 与 应 用 程序 通信 。 应 用 程序 通常 通过 ODBC, JDBC 或 者 其 他 协议 与 数据 库 服 务 器 通信 ， 以 获取 或 存 
储 数据 。 

图 9-6 显示 了 一 个 使 用 三 层 体 系 结构 搭建 的 Web 应 用 ， 包 括 一 个 Web 服务 器 、 一 个 应 用 服务 器 和 
一 个 数据 库 服 务 器 。 使 用 多 级 服务 器 增加 了 系统 的 开销 ; CGI 接口 为 每 个 请 求 都 开启 一 个 新 的 进程 为 
之 服务 ， 这 导致 甚至 更 大 的 开销 。 




















图 9-6 三 层 Web 应 用 体系 结构 


因此 目前 大 多 数 Web 应 用 使 用 一 种 两 层 的 Web 应 用 体系 结构 ， 其 中 应 用 程序 运行 在 Web 服务 器 
中 ， 如 图 9-7 所 示 。 下 面 的 章节 将 更 加 详细 地 研究 基于 两 层 体 系 结构 的 系统 。 





Web 服 务 器 和 
应 用 服务 器 














图 9-7 两 层 Web 应 用 体系 结构 


在 客户 端 与 Web 服务 器 之 间 不 存在 持续 的 连接 ; 当 Web 服务 器 接收 到 一 个 请 求 时 ， 临 时 创建 一 个 
连接 以 发 送 请 求 并 接收 来 自 Web 服务 器 的 响应 。 但 是 该 连接 可 能 会 关闭 ， 且 下 一 个 请 求 可 以 生成 一 个 
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新 的 连接 。 与 此 相反 ， 当 一 个 用 户 登录 计算 机 ， 或 是 使 用 ODBC 或 JDBC 连接 到 数据 库 时 ， 会 创建 一 
个 会 话 ， 且 会 话 信息 保留 在 服务 器 和 客户 端 ， 直 到 会 话 结束 一 一 信息 包括 诸如 该 用 户 的 用 户 标识 符 和 
用 户 已 设置 的 会 话 参 数 等 。HTTP 协议 是 无 连接 (connectionless ) 的 一 个 重要 原因 在 于 ， 大 多 数 计 算 机 能 
同时 容纳 的 连接 数目 是 有 限 的 。 如 果 Web 中 大 量 的 站 点 对 单 台 服务 器 建立 连接 ， 就 会 超过 限制 ， 拒 绝 
后 续 用 户 的 服务 。 而 使 用 无 连接 协议 ， 当 满足 了 请 求 时 连接 就 可 以 马上 断 开 ， 为 其 他 请 求 “ 留 出 可 用 
连接 。 
但 是 ， 大 多 数 Web 应 用 需要 会 话 信 息 ， 以 允许 有 意义 的 用 户 交 互 。 例 如 ， 应 用 程序 通常 限制 对 信 
380 | 息 的 访问 ， 且 因此 需要 认证 用 户 。 每 次 会 话 应 进行 一 次 认证 ， 会 话 中 进一步 的 交互 应 不 需 重 新 认证 。 
381 尽管 连接 会 关闭 ， 但 为 了 实现 会 话 ， 需 要 在 客户 端 存储 额外 的 信息 ， 并 随 会 话 中 的 每 个 请 求 返 回 ; 
服务 器 使 用 这 个 信息 来 辨别 出 请 求 是 用 户 会 话 的 一 部 分 。 关 于 会 话 的 额外 信息 同样 必须 在 服务 器 端 
维护 。 
这 种 额外 信息 通常 以 网 络 跟踪 器 (cookie ) 的 形式 保存 在 客户 端 ; 简单 来 说 ,一 个 cookie 是 一 小 段 
包含 标识 信息 的 文本 ， 并 关联 一 个 名 字 。 例 如 ，google. com 可 能 设置 一 个 名 为 prefs 的 cookie, EAH 
用 户 设置 的 偏好 信息 ， 比 如 语言 偏好 和 每 页 显示 的 结果 数目 。 对 于 每 个 搜索 请 求 ，google. com 都 能 从 
用 户 的 浏览 器 中 得 到 这 个 名 为 prefs 的 cookie， 然 后 根据 指定 的 偏好 显示 结果 。 一 个 域 ( Web 站 点 ) 只 能 
获取 它 自 己 设置 的 cookie ， 而 不 能 得 到 别 的 站 点 设置 的 cookie， 而 且 cookie 名 可 以 跨 域 复 用 。 
为 了 跟踪 用 户 会 话 的 目的 ， 应 用 程序 可 能 会 产生 一 个 会 话 标识 符 ( 通 常 是 一 个 当前 没有 用 作 会 话 
标识 符 的 随机 数 ) ， 然 后 发 送 一 个 包含 这 个 会 话 标识 符 的 名 为 (比如 ) seessionid 的 cookie。 该 会 话 标识 
符 也 保存 在 服务 器 本 地 。 当 一 个 请 求 进来 时 ， 应 用 服务 器 向 客户 端 请 求 名 为 sessionid 的 cookie。 如 果 
客户 端 没 有 存储 该 cookie， 或 者 返回 的 值 不 是 当前 在 服务 器 中 记录 的 有 效 会 话 标识 符 ， 应 用 程序 就 认 
为 该 请 求 不 是 当前 会 话 的 一 部 分 。 如 果 cookie 的 值 与 一 个 存储 的 会 话 标 识 符 匹配 ， 则 该 请 求 就 被 识别 
为 一 个 进行 中 的 会 话 的 一 部 分 。 
如 果 一 个 应 用 需要 安全 地 鉴别 用 户 ， 则 它 只 能 在 对 用 户 认证 之 后 设置 cookie; 例如 ， 用 户 只 有 在 
提交 了 有 效 的 用 户 名 和 密码 之 后 才能 通过 认证 。 = 
对 于 不 需要 高 安全 性 的 应 用 ， 比 如 公开 的 新 闻 站 点 ，cookie 可 以 永久 存储 在 浏览 器 和 服务 器 中 ; 
它们 识别 出 用 户 对 同一 个 网 站 的 后 续 访 问 ， 而 不 需要 输入 任何 认证 信息 。 对 于 要 求 更 高 安全 性 的 应 用 ， 
服务 器 可 能 会 在 有 效 期 过 后 或 用 户 注销 时 使 会 话 无 效 ( 丢弃)。( 通 常用 户 通 过 点 击 一 个 注销 按钮 来 注 
销 ， 它 会 提交 一 个 注销 表单 ， 其 动作 就 是 使 当前 会 话 失 效 ,) 使 一 个 会 话 失效 仅仅 是 在 应 用 服务 器 中 的 
活动 会 话 列表 里 丢弃 该 会 话 标识 符 。 


9.3 servlet 和 JSP 


在 两 层 Web 体系 结构 中 ， 应 用 程序 作为 Web 服务 器 本 身 的 一 部 分 运行 。 实 现 这 种 体系 结构 的 一 个 
方法 是 将 Java 程序 加 载 到 Web 服务 器 中 。Java servlet 规格 说 明定 义 了 一 种 Web 服务 器 与 应 用 程序 间 通 
信和 的 应 用 程序 编程 接口 。Java 中 的 HttpServlet 类 实现 了 servlet API 规格 要 求 ; 实现 特定 功能 的 servlet 类 
被 定义 为 这 个 类 的 子 类 。“ 通常 servlet 一 词 指 实现 了 servlet 接口 的 Java 程序 ( 和 类 )- 图 9-8 是 一 个 
servlet 的 例子 ; 我 们 简短 地 介绍 它 的 一 些 细节 。 

当 服 务 器 启动 或 者 服务 器 接收 到 远程 的 HTTP 请 求 执行 某 个 特定 servlet 时 ，servlet 的 代码 被 加 载 到 


为 了 性 能 方面 的 原因 ， 连 接 可 能 会 在 短 时 间 内 保持 ， 以 允许 子 请 求 复 用 该 连接 。 然 而 ， 不 能 保证 连接 将 会 保持 ， 
因此 在 设计 应 用 时 应 当 假 设 一 旦 处 理 请 求 连接 就 有 可 能 关闭 。 

用 户 标 识 符 可 以 存储 在 客户 端 ， 比 如 一 个 叫做 userid 的 cookie 中 。 这 样 的 cookie 可 以 用 于 低 安全 要 求 的 应 用 中 ， 
比如 免费 的 Web 站 点 识别 它们 的 用 户 。 但 是 ， 对 于 要 求 更 高 级 别 安全 性 的 应 用 ， 这 样 的 方法 就 会 造成 安全 隐患 : 
cookie 中 的 值 可 能 在 浏览 器 中 被 用 户 恶意 自 改 ， 该 用 户 就 能 够 伪装 成 另 一 个 用 户 。 将 cookie ( 比如 名 为 sessionid ) 
设置 为 一 个 随机 产生 的 会 话 标识 符 (一 个 很 大 的 数字 空间 ) ， 可 以 使 得 一 个 用 户 冒 充 另 一 个 用 户 的 可 能 性 变 得 极 
小 。 而 一 个 顺序 生成 的 会 话 标识 符 ， 则 很 容易 冒充 。 

© 虽然 我 们 的 例子 中 只 使 用 了 HTTP， 但 是 servlet 接口 也 能 支持 非 HTTP 请 求 
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Web 服务 器 中 。servlet 的 任务 就 是 处 理 这 种 可 能 涉及 访问 数据 库 撒 取 必要 信息 ， 并 动态 生成 HTML 页 
面 返回 给 客户 端 浏 览 器 的 请 求 。 

import java.io.*; 

import javax.servlet.*; 
import javax.servlet.http.*; 





public class PersonQueryServlet extends HttpServiet { 
public void doGet(HttpServietRequest request, 
HttpServietResponse response) 
throws ServietException, IOException 


response.setContentType("text/htm!"); 

PrintWriter out = response.getWriter(); 

out.printin(" <HEAD> <TITLE> Query Result</TITLE> </HEAD>"); 
out.printin(" <BODY>"); 


String persontype = request.getParameter("persontype"); 
String number = request.getParameter("name"); 
if(persontype.equals("student")) { 
… 寻找 具有 指定 姓名 的 学 生 的 代码 … 
… 使 用 JDBC 与 数据 库 通信 … 
out.println(" <table BORDER COLS=3>"); 
out.printin(" <tr> <td>ID</td> <td>Name: </td>" + 
" <td>Department</td> </tr>"); 
for(... each result ...){ 
… 获取 ID, name 和 dept_name 
.… 放 入 变量 ID name 和 deptname 
out.printin("<tr> <td>" + ID + "</td>" + 
"<td>" + name + "</td>" + 
"<td>" + deptname + "</td> </tr>"); 





} 
out.printin(" </table>"); 


} 


else { 
… 同上 , 但 是 是 对 于 教师 … 


out.printin(" </BODY > "); 
out.close(); 
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图 9-8 servlet 代码 示例 











9. 3.1 一 个 servlet 的 例子 

servlet 通常 用 于 对 HTTP 请 求 动态 生成 响应 。 它 们 可 以 访问 HTML 表单 提供 的 输入 ,执行 “业务 逻 
辑 " 以 决定 给 出 什么 样 的 响应 ， 然 后 生成 HTML 输出 并 发 送 回 浏览 器 。 

图 9-8 所 示 为 实现 图 9-4 中 表单 的 servlet 代码 的 例子 。 这 个 servlet 叫做 PersonQueryServlet， 同 时 表 
单 指 明了 action = “ PersonQuery”。 必 须 告 知 Web 服务 器 这 个 servlet 是 用 来 处 理 PersonQuery 请 求 的 。 该 
表单 指定 使 用 HTTP 的 get 机 制 进行 参数 传递 ， 这 样 servlet 代码 中 定义 的 doGet( ) 方 法 被 调用 。 

每 次 请 求 都 会 生成 一 个 新 的 线程 ， 在 线程 中 执行 调用 ， 因 此 多 个 请 求 就 可 以 并 行 处 理 。 任 何 来 自 
Web 网 页 上 的 表单 菜单 和 输入 域 中 的 值 ， 和 cookie 一 样 ， 由 一 个 为 请 求 创建 的 HttpServletRequest 类 对 
象 传人 ， 然 后 请 求 的 应 答 由 一 个 HttpServletResponse 类 对 象 返回 。 

该 例子 中 的 doGet( ) 方 法 通过 request. getParamter( ) 抽取 参数 的 type 和 number 的 值 ， 并 使 用 它们 的 
值 执行 数据 库 查 询 。 用 于 访问 数据 库 以 及 从 查询 结果 获取 属性 值 的 代码 没有 表示 出 来 ， 有 关 如 何 使 用 
JDBC 访问 数据 库 的 细节 请 参考 5. 1. 1. 4 节 。servlet 代码 将 查询 结果 输出 到 HttpServletResponse 类 的 对 象 
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response 中 返回 给 请 求 者 。 将 结果 输出 到 response 是 通过 首先 从 response 中 取得 PrintWriter 对 象 out， 然 
后 向 out 以 HTML 格式 输出 结果 而 实现 的 。 
9.3.2 servlet 会 话 

回想 一 下 ， 浏 览 器 和 Web 服务 器 之 间 的 交互 是 无 状态 的 。 也 就 是 说 ， 每 次 浏览 器 向 服务 器 发 出 一 
个 请 求 ， 浏 览 器 都 要 连接 服务 器 ， 请 求 某 些 信 息 ， 然 后 从 服务 器 断 开 连 接 。cookie 可 以 用 来 识别 一 个 
请 求 与 前 一 个 请 求 是 来 自 于 同一 个 浏览 器 会 话 。 但 是 ，cookie 构成 一 个 低级 别 机 制 ， 程 序 员 需 要 一 个 
更 好 的 抽象 概念 来 处 理会 话 。 

servlet API 提供 了 一 种 跟踪 会 话 并 存储 会 话 相 关 信 息 的 方法 。HttpServletRequest 类 的 getSession 
(false) 方 法 的 调用 抽取 出 发 出 请 求 的 浏览 器 对 应 的 HttpSession 对 象 。 参 数值 为 true 将 表示 当 请 求 是 新 
请 求 时 ， 必 须 创 建新 的 会 话 对 象 。 

当 getSession( ) 方 法 被 调用 时 ， 服 务 器 会 先 要 求 客户 端 返回 具有 指定 名 字 的 cookie。 如 果 客 户 没有 
该 名 字 的 cookie， 或 者 返回 的 值 与 任何 进行 中 的 会 话 都 不 匹配 ， 则 请 求 不 是 进行 中 的 会 话 的 一 部 分 
在 这 种 情况 下 ，getSession( ) 将 返回 一 个 空 值 ， 并 且 servlet 会 将 用 户 指引 到 一 个 登录 页 面 。 

登录 页 面 可 以 允许 用 户 提供 用 户 名 和 密码 。 登 录 页 面 对 应 的 servlet 可 以 验证 密码 与 用 户 匹 配 ( 例 
如 ， 通 过 在 数据 库 中 查找 认证 信息 )。 如 果 该 用 户 正常 通过 认证 ， 登 录 servlet 将 会 执行 getSession 
(true) ， 返 回 一 个 新 的 会 话 对 象 。 为 了 创建 一 个 新 的 会 话 ，Web 服务 器 内 部 执行 以 下 任务 : 在 客户 的 
浏览 器 中 设置 一 个 cookie( 比如 名 为 sessionId) ， 用 会 话 标识 符 作为 它 所 关联 的 值 ， 创 建 一 个 新 的 会 话 
对 象 ， 并 将 会 话 标识 符 的 值 与 会 话 对 象 关联 。 

servlet 代码 还 能 够 在 HttpSession 对 象 中 存储 和 查找 (属性 名 、 值 ) 对 ， 以 便 在 一 个 会 话 内 的 多 个 请 
求 间 维持 状态 。 例 如 ， 在 用 户 被 认证 并 创建 了 会 话 对 象 之 后 ， 登 录 servlet 可 以 通过 在 getSession( ) 所 返 
回 的 会 话 对 象 上 执行 方法 

session. setAttribute( "userid”，userid ) 
将 用 户 的 userid 存储 为 会 话 的 一 个 参数 ; 假定 在 Java 变量 userid 中 包含 用 户 标识 符 。 

如 果 请 求 属于 一 个 进行 中 的 会 话 ， 浏 览 器 就 会 返回 该 cookie 的 值 ， 且 getSession( ) 会 返回 对 应 的 会 
话 对 象 。servlet 通过 在 上 述 所 返回 的 会 话 对 象 上 执行 方法 

session. getAttribute( "userid" ) 
就 能 够 从 会 话 对 象 中 获取 会 话 参 数 ， 比 如 user-id。 如 果 属 性 userid 没有 设置 ， 该 函数 会 返回 一 个 空 值 ， 
表明 该 客户 端的 用 户 还 没有 通过 认证 。 | 
9.3.3 servlet 的 生命 周期 

servlet 的 生命 周期 由 它 部 署 于 的 Web 服务 器 控制 。 当 有 客户 端 请 求 一 个 特定 的 servlet 时 ， 服 务 器 
首先 检查 是 否 存在 该 servlet 的 实例 。 如 果 不 存在 ，Web 服务 器 就 将 servlet 类 加 载 到 Java 虚拟 机 (Java 
Virtual Machine, JVM) 中， 并 创建 该 servlet 类 的 一 个 实例 。 另 外 ， 服 务 器 调用 init( ) 方法 将 该 servlet 实 
例 初 始 化 。 注 意 ， 每 个 servlet 实例 仅 在 加 载 的 时 候 初 始 化 一 次 。 

在 确定 servlet 实例 的 确 存在 之 后 ， 服 务 器 调用 servlet 的 service( ) 方 法 ， 并 以 一 个 request 对 象 和 一 
个 response 对 象 作 为 参数 。 在 默认 情况 下 ， 服 务 器 创建 一 个 新 的 线程 以 执行 service( ) 方法 ; 因此 ， 对 
— servlet 的 多 个 请 求 就 能 够 并 行 处 理 ， 而 不 必 等 待 上 一 个 请 求 执行 完 。service( ) 方 法 适当 调用 doGet( ) 
或 doPost( ) 方 法 。 

当 不 再 需要 的 时 候 ， 可 以 通过 调用 destroy( ) 方 法 停止 一 个 servlet。 服 务 器 可 以 设置 为 如 果 在 一 段 
时 间 内 没有 对 某 个 servlet 的 请 求 ， 则 自动 停止 这 个 servlet; 该 时 间 段 是 服务 器 的 一 个 参数 ， 可 以 根据 
应 用 适当 地 设置 。 

9.3.4 servlet 支持 

许多 应 用 服务 器 都 提供 servlet HARSI. RAITAA AB — Æ Apache Jakarta 项 目 中 的 
Tomcat 服务 器 。 其 他 支持 servlet 的 应 用 服务 器 包括 Glassfish, JBoss, BEA Weblogic 应 用 服务 器 、Oracle 
应 用 服务 器 以 及 IBM 的 WebSphere 应 用 服务 器 。 
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开发 servlet 应 用 程序 最 好 的 方式 是 利用 一 个 IDE， 比 如 Tomcat 或 Glassfish RAFEH Eclipse 或 
者 NetBeans, 

除了 基本 的 servlet 支持 之 外 ， 应 用 服务 器 通常 还 提供 多 种 有 用 的 服务 。 它 们 允许 应 用 程序 部 署 或 
者 停止 ， 并 提供 监视 应 用 服务 器 状态 的 功能 ， 包 括 性 能 统计 。 如 果 一 个 servlet 文件 修改 ， 某 些 应 用 服 
务 器 能 够 监测 到 ， 然 后 透明 地 重新 编译 并 重新 加 载 该 servlet。 许 多 应 用 服务 器 还 允许 服务 器 在 多 人 台 机 
器 上 并 行 运行 以 提高 性 能 ， 并 将 请 求 分 发 至 适当 的 机 器 上 。 许 多 应 用 服务 器 还 支持 Java 2 Enterprise 
Edition(J2EE) 平 台 ， 它 针对 多 种 任务 都 提供 支持 和 API， 比 如 处 理 对 象 、 路 多 个 应 用 服务 器 并 行 处 理 
以 及 处 理 XML 数据 (XML 将 在 后 面 第 23 章 介 绍 ) 。 

9.3.5 服务 器 端 脚本 

用 一 种 诸如 Java 或 C 的 程序 设计 语言 编写 一 段 甚至 很 简单 的 Web 应 用 程序 也 是 很 花 时 间 的 一 项 任 
务 ， 它 需要 很 多 行 代码 以 及 熟悉 该 语言 中 错综复杂 的 事物 的 程序 员 。 男 一 种 方法 ， 也 就 是 服务 器 端 脚 
本 (server-side scripting) ， 为 创建 许多 应 用 程序 提供 了 一 种 简单 得 多 的 方式 。 脚 本 语言 提供 了 可 能 人 
HTML 文档 中 的 结构 。 在 服务 器 端 脚 本 中 ， 服 务 器 会 在 传送 Web 页 面 之 前 执行 嵌入 在 HTML 页 面 内 容 
中 的 脚本 。 每 段 脚 本 在 执行 时 会 生成 加 入 到 页 面 中 的 文本 (或 可 能 甚至 从 页 面 中 删除 内 容 ) 。 脚 本 的 源 
代码 将 从 页 面 中 删除 ， 因 此 客户 端 可 能 根本 没 察觉 页 面 原先 含有 任何 代码 。 执 行 的 脚本 可 能 包含 数据 
库 上 执行 的 SQL 代码 。 

一 些 广泛 使 用 的 脚本 语言 包括 Sun 的 Java Server Pages( JSP) 、Microsoft 的 Active Server Pages( ASP) 和 
后 续 的 ASP. NET, PHP 脚本 语言 、ColdFusion 标记 语言 (ColdFusion Markup Language, CFML) VA Ruby 
on Rails。 许 多 脚本 语言 也 允许 用 诸如 Java, C#. VBScript, Perl 以 及 Python 语言 写 的 代码 让 入 到 HTML 
页 面 中 或 被 HTML 页 面 调用 。 例 如 ，JSP 允许 Java FSR A HTML 页 面 中 ， 而 Microsoft 的 ASP. NET 和 
ASP SCF AGKAY C# 和 VBScript。 这 些 语 言 中 的 大 部 分 都 带 有 库 和 工具 ， 它 们 一 起 构成 了 Web 应 用 开发 的 
框架 。 

接 下 来 简要 介绍 Java Server Pages(JSP) ， 一 种 允许 HTML 程序 员 将 静态 的 HTML 和 动态 生成 的 
HTML 混合 在 一 起 的 脚本 语言 。 其 动机 在 于 ， 对 于 许多 动态 的 Web 页 面 ， 其 中 大 多 数 的 内 容 仍然 是 静 
态 的 (也 就 是 说 ， 不 论 该 页 面 何 时 生成 ， 总 是 显示 相同 的 内 容 )。Web 页 面 的 动态 内 容 ( 比 如， 根据 表 
单 的 参数 生成 ) 通 常 是 页 面 的 一 小 部 分 。 通 过 写 servlet 代码 来 创建 这 样 的 页 面 导致 大 量 的 HTML 被 写作 
Java FFE, JSP 则 允许 Java 代码 嵌入 静态 的 HTML 中 ; AKI Java 代码 生成 该 页 面 的 动态 部 分 。JSP 
脚本 实际 上 转换 为 servlet 代码 进行 编译 ,但 是 应 用 程序 员 却 从 撰写 大 量 Java 代码 以 创建 servlet 的 困境 
中 解脱 出 来 了 。 

9-9 所 示 为 一 个 包含 了 内 贬 的 Java 代码 的 ISP 页 面 的 源 代码 文本 。 脚 本 中 的 Java 代码 用 < % 
…% > 括 起 来 以 区 别 于 周围 的 HTML 代码 。 代 码 使 用 request. getParameter( ) 以 获取 属性 name 的 值 。 


<html> 
<head> <title> Hello </title> </head> 
<body> 
< % if (request.getParameter(“name”) == null) 
{ out.printin(“Hello World”); } 
else { out.printin(“Hello, ” + request.getParameter(“*name’”)); } 








图 9-9 一 个 包含 Java 代码 的 ISP 页 面 


当 浏 览 器 请 求 一 个 ISP 页 面 时 ， 应 用 服务 器 根据 该 页 面 生 成 HTML 输出 ， 并 发 送 回 浏览 器 。JSP 页 
面 中 的 HTML 部 分 正如 所 输出 的 。° 在 HTML 输出 中 ,在 <%…% > 中 嵌入 的 所 有 Java 代码 都 用 它 向 
out 对 象 输出 的 文本 代替 。 在 图 9-9 的 ISP 代码 中 ， 如 果 没 有 值 输入 给 表单 参数 name， 则 脚本 输出 





© JSP 允许 一 种 更 复杂 的 嵌 人 ， 即 HTML 代码 在 Java 的 if-else 语句 内 部 ， 它 根据 这 条 件 等 于 真 或 非 真 而 有 条 件 地 得 
到 输出 。 我 们 在 这 里 省 略 细节 。 
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“Hello World”; 如 果 输 入 了 一 个 值 ， 则 脚本 输出 “Hello”" ， 后 面 跟着 名 字 。 


PHP 
PHP 是 一 种 广泛 用 于 服务 器 端 脚本 的 脚本 语言 。PHP 代码 可 以 像 JSP 中 的 方式 一 样 与 HTML 混 
合 使 用 。 字 母 串 ”<? pp $T PHP 代码 的 开始 ， 字 母 串 “? > ”表示 PHP 代码 的 结束 。 下 列 代码 与 
图 9-9 中 的 JSP 代码 执行 相同 的 动作 。 
<html> 
<head> <title> Hello </title> </head> 
<body> 
<?php if (lisset($. REQUEST['name'))) 
{ echo ‘Hello World’; 
else { echo ‘Hello,’ . $ REQUEST['name']; } 
?> 
</body> 
</html> 
数组 $_REQUEST 包含 请 求 的 和 参数。 注意 ， 数 组 用 参数 名 索引 ; Æ PHP 中 数组 可 以 用 任意 字符 
串 索 引 ， 而 不 仅 是 数字 。 函 数 isset( ) 检查 数据 元 素 是 否 已 初始 化 。echo( ) 函数 将 它 的 参数 输出 到 
HTML。 两 个 字符 串 间 的 操作 符 “. "将 字符 串 连 起 来 。 
一 个 适当 配置 的 Web 服务 器 将 把 任意 以 “. php” 结尾 的 文件 解释 为 PHP 文件 。 如 果 请 求 该 文件 ， 
Web 服务 器 将 以 与 处 理 JSP 文件 类 似 的 方法 处 理 该 文件 ， 并 将 生成 的 HTML 返回 给 浏览 器 。 


PHP 语言 有 许多 库 ， 包 括 使 用 ODBC( 类 似 于 Java 中 的 JDBC) 访 问 数 据 库 的 库 。 


一 个 更 实际 的 例子 可 能 执行 更 复杂 的 操作 ， 例 如 使 用 JDBC 从 数据 库 中 查询 值 。 
JSP 也 支持 标签 库 (tag library) 的 概念 ， 它 允许 使 用 标签 ， 这 些 标签 看 起 来 非常 像 HTML 标签 ， 却 
是 在 服务 器 端 解释 ， 并 用 相应 生成 的 HTML 代码 取代 。JSP 提供 了 一 个 标准 标签 集 ， 其 中 定义 了 变量 
和 控制 流 (迭代 器 、if-then-else) ， 以 及 基于 Javascript 的 表达 式 语 言 (但 在 服务 器 端 解释 ) 。 标 签 集 是 可 
扩展 的 ， 并且 许多 标签 库 都 已 实现 。 例 如 ， 存 在 一 个 标签 库 支持 对 大 数据 集 的 分 页 显示 ， 还 有 一 个 库 
[388] 简化 了 对 日 期 和 时 间 的 显示 和 解析 。 关 于 ISP 标签 库 的 更 多 信息 可 以 参看 文献 注解 中 的 参考 资料 。 


9.3.6 客户 端 脚本 

文档 中 程序 代码 的 做 入 允许 Web 页 是 活动 的 ( active) ， 通 过 在 本 地 执行 程序 以 实现 活动 ， 例 如 动 
画 ， 而 不 仅仅 是 展示 被 动 的 文字 和 图 片 。 这 种 程序 主要 用 于 在 HTML 与 HTML 表单 提供 的 有 限 的 交互 
能 力 之 上 ， 与 用 户 进行 灵活 的 交互 。 此 外 ， 与 每 次 交互 都 发 送 给 服务 器 端 处 理 相 比 ， 在 客户 端 执行 程 
序 极 大 加 快 了 交互 的 速度 。 

支持 这 种 程序 的 一 个 危险 在 于 ， 如 果 系 统 设计 得 不 小 心 ，Web 页 中 (或 等 同 地 ， 在 电子 邮件 消息 
中 ) 内 艇 的 程序 代码 能 够 在 用 户 的 计算 机 上 执行 恶意 操作 。 亚 意 操作 会 包括 读 取 私 人 信息 ， 在 计算 机 上 
删除 或 修改 信息 ， 甚 至 控制 计算 机 并 将 代码 传播 到 其 他 计算 机 ( 例如 通过 电子 邮件 ) 。 近 年 来 许多 邮件 
病毒 都 是 通过 这 种 方式 广泛 传播 的 。 

Java 语言 日 趋 流 行 的 一 个 原因 是 它 为 在 用 户 的 计算 机 上 执行 程序 提供 了 一 种 安全 模式 。Java 代码 
能 够 编译 成 独立 于 平台 的 “ 字 节 码 ”， 它 可 以 在 任意 支持 Java 的 浏览 器 上 执行 。 与 本 地 程序 不 同 的 是 ， 
作为 网 页 的 一 部 分 所 下 载 的 Java 程序 (小 应 用 程序 ) 无 权 执行 任何 可 能 是 破坏 性 的 操作 。 它 们 可 以 在 屏 
幕 上 显示 数据 ， 或 者 与 下 载 网 页 的 服务 器 进行 网 络 通信 以 获取 更 多 的 信息 。 然 而 ， 它 们 不 能 访问 本 地 
文件 ， 执 行 任何 系统 程序 ， 或 和 任何 其 他 计算 机 进行 网 络 通信 。 

Java 是 一 种 完全 成 熟 的 程序 设计 语言 ， 另 外 有 一 些 更 简单 的 语言 ， 称 为 脚本 语言 ( scripting 
language) ， 在 提供 与 Java 相同 的 保护 的 同时 ， 能 够 丰富 用 户 的 交互 。 这 些 语言 提供 能 够 媒人 到 HTML 
文档 中 的 构件 。 客 户 端 脚本 语言 (client-side scripting language ) 是 用 于 在 客户 端的 Web 浏览 器 上 执行 的 
语言 。 

Hp, JavaScript 语言 在 目前 使 用 最 为 广泛 。 目 前 这 代 Web 界面 广泛 使 用 JavaScript 脚本 语言 构造 
复杂 的 用 户 界面 。JavaScript 用 于 多 种 任务 。 例 如 ， 用 JavaScript 写 的 函数 可 以 用 于 对 用 户 输入 执行 错误 
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检查 (验证 ) ， 例 如 日 期 字 串 是 否 符合 格式 ， 或 者 输入 的 值 (例如 年 龄 ) 是 否 在 适当 的 范围 内 。 在 输入 数 
据 时 ， 甚 至 在 数据 发 送 往 Web 服务 器 之 前 ， 这 些 检查 就 已 在 浏览 器 上 执行 。 
图 9-10 所 示 为 用 于 验证 表单 输入 的 JavaScript 函数 的 一 个 示例 。 该 函数 在 HTML 文档 的 head 段 声 
明 。 该 函数 检查 所 输入 的 课程 学 分 是 一 个 大 于 0 并 且 小 于 16 的 数字 。form 标签 表示 该 验证 函数 在 表单 
提交 时 调用 。 如 果 验 证 失败 ， 则 将 一 个 警告 框 显示 给 用 户 ， 而 如 果 验 证 成 功 ， 则 将 表单 提交 给 服务 器 。 
JavaScript 可 以 用 于 动态 修改 所 显示 的 ”Fahtm5 
HTML 代码 。 浏 览 器 将 HTML 代码 解析 为 See 
内 存 中 的 一 个 树 结构 ， 它 是 由 称 为 文档 对 | function valdate (tau val 
. a var cr =document. emen credits").value; 
象 模型 ( Document Object Model, DOM) 标 if (isNaN(credits}| eradlisecg i credils>216) { j 
准 定 义 的 > JavaScript 代码 能 够 修改 该 树 结 ates oy must be a number greater than 0 and less than 16"); 
return false 
构 以 执行 某 些 操作 。 例 如 ， 假 设 一 个 用 户 
需要 输入 几 行 数据 ， 例 如 一 个 清单 中 的 几 | enpe 
项 。 一 个 包含 文本 框 以 及 其 他 形式 输入 方 | </ead> 
法 的 表格 可 以 用 来 收集 用 户 输入 。 表 格 可 | <body> 
能 有 一 个 默认 大 小 ， 但 是 如 果 需 要 更 多 | “Tite <input ypes tert -et size'20"Scor/S 
行 ， 用 户 可 以 点 击 标 有 ( 比 如 )“ 添 加 项 Credits: <input type="text" id="credits" size="2"><br /> 
g” 的 按钮 可 以 将 这 个 按钮 设置 为 调用 type="submit" value="Submit"> 


修改 DOM 树 以 向 表格 额外 增加 一 行 的 “| spedy> 
JavaScript 函数 。 


BAR JavaScript 语言 已 经 标准 化 ， 但 图 9-10 ”用 于 验证 表单 输入 的 JavaScript 示例 


是 浏览 器 之 间 仍 存在 差别 ， 特 别 是 DOM 模型 的 一 些 细节 。 因 此 ， 在 一 个 浏览 器 上 运行 的 JavaScript 代 
码 有 可 能 在 另 一 个 浏览 器 上 无 法 运行 。 为 了 避免 这 种 问题 ， 最 好 使 用 一 个 JavaScript 库 ， 例 如 Yahoo 的 
YUI 库 ， 它 使 得 代码 的 编写 独立 于 浏览 器 。 库 中 的 函数 在 内 部 能 够 找 出 正在 使 用 哪 种 浏览 器 ， 并 向 浏 
览 器 发 送 相应 生成 的 JavaScripts XF YUI 和 其 他 库 的 更 多 信息 可 以 参看 本 章 结尾 的 9.5. 1 节 。 

SR, JavaScript 广泛 用 于 创建 动态 网 页 ， 它 使 用 统称 为 Ajax 的 几 种 技术 。 用 JavaScript 编写 的 程 
序 和 Web 服务 器 异步 通信 ( 即 在 后 台 ， 不 阻 断 用 户 和 Web 浏览 器 的 交互 ) ， 并 能 够 获取 数据 并 显示 。 

作为 使 用 Ajax 的 一 个 示例 ， 考 虑 一 个 网 站 表单 ， 允 许 你 选择 国家 ， 并 且 一 旦 选择 了 一 个 国家 ， 你 
就 可 以 从 这 个 国家 的 州 列表 中 选择 一 个 州 。 在 国家 选 定之 前 ， 州 的 下 拉 列 表 是 空 的 。Ajax 框架 允许 在 
选 定 一 个 国家 时 ， 在 后 台 从 该 网 站 下 载 州 的 列表 ， 并 且 一 获取 到 这 个 列表 ， 它 就 添加 到 下 拉 列 表 中 ， 
使 你 可 以 选择 州 。 

还 有 一 些 专 用 脚本 语言 用 于 专门 的 任务 ， 比 如 动画 (例如 ，Flash 和 Shockwave) 以 及 三 维 建 模 ( 虚拟 
现实 标记 语言 (Virtual Reality Markup Language，VRML) ) 。 目 前 ，Flash 不 仅 被 广泛 用 于 动画 ， 还 用 于 
处 理 流 媒体 视频 内 容 。 


9.4 应 用 架构 


为 了 处 理 大 型 应 用 的 复杂 性 ， 通 常 将 它们 分 为 若干 层 : 
。 展示 层 或 用 户 界面 层 ， 它 处 理 用 户 交 互 。 单 个 应 用 程序 可 能 有 若干 个 不 同 版 本 的 展示 层 ， 对 应 
于 不 同类 型 的 界面 ， 例 如 Web 浏览 器 ， 以 及 手机 用 户 界面 ， 它 的 屏幕 相 比较 小 很 多 。 

在 很 多 实现 中 ， 基 于 模型 - 视图 - 控制 器 ( Model-View-Controller, MVC) 架构 ， 展 示 / 用 户 
界面 层 本 身 在 概念 上 分 为 多 层 。 模 型 (model) 对 应 于 下 文中 所 述 的 业务 - 逻辑 层 。 视 图 ( view ) 
定义 数据 的 显示 ; 单个 底层 模型 根据 用 于 访问 应 用 所 指定 的 软件 /设备 可 以 具有 不 同 的 视图 。 
控制 器 (controller) 接 收 事件 (用 户 操 作 ) ， 在 模型 上 执行 操作 ， 并 返回 一 个 视图 给 用 户 。MVC 
架构 用 于 多 个 Web 应 用 框架 ， 这 将 在 9. 5. 2 节 讨 论 。 
© 业务 逻辑 ( bussiness-logic) 层 ， 提 供 对 数据 和 数据 操作 的 高 级 视图 。9. 4. 1 节 详 细 讨 论 业务 刘 

辑 层 。 
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o 数据 访问 (data access) 层 ， 提 供 业务 逻辑 层 和 底层 数据 库 间 的 接口 。 当 底层 数据 库 是 关系 数 
据 库 时 ， 许 多 应 用 使 用 面向 对 象 语言 编写 业务 逻辑 层 ， 并 使 用 面向 对 象 数 据 模 型 。 在 这 种 
情况 中 ， 数 据 访 问 层 还 提供 从 业务 逻辑 所 使 用 的 面向 对 象 数据 模型 到 数据 库 所 文 持 的 关系 
模型 的 映射 。9. 4. 2 节 详 细 讨论 这 种 映射 。 

图 9-11 所 示 为 上 述 各 层 ， 以 及 处 理 来 自 Web 浏览 器 的 一 条 请 求 所 采取 的 一 系列 步骤 。 图 9-11 中 
箭头 上 的 标记 表示 步骤 的 顺序 。 当 应 用 服务 器 接收 到 请 求 时 ， 控 制 器 向 模型 发 送 一 条 请 求 。 模 型 使 用 
BA 业务 逻辑 处 理 请 求 ， 其 中 可 能 涉及 更 新 模型 中 的 对 象 ， 接 着 创建 一 个 结果 对 象 。 模 型 依次 使 用 数据 访 
间 层 更 新 数据 中 的 信息 或 从 数据 库 获取 信息 。 模 型 生成 的 结果 对 象 发 送 到 视图 模块 ， 它 对 结果 生成 一 
个 HTML 视图 以 在 Web 浏览 器 上 显示 。 该 视图 可 能 根据 用 于 查看 结果 的 设备 的 特点 来 定制 ， 例 如 它 是 

否 是 一 个 具有 大 屏幕 的 计算 机 显示 器 ， 或 者 是 手机 上 的 小 屏幕 。 





Web 浏 览 器 


=~ 


Sonane, 
= 





Web/ 应 用 服务 器 
图 9-11 Web 应 用 程序 框架 


9.4.1 业务 逻辑 层 

一 个 用 于 管理 大 学 的 应 用 程序 的 业务 逻辑 层 可 能 会 提供 实体 的 抽象 ， 比 如 学 生 、 教 师 、 课 程 、 课 
程 段 等 ， 以 及 操作 ， 比 如 大 学 录取 学 生 、 学 生 注 册 课程 等 。 实 现 这 些 操作 的 代码 保证 业务 规则 
(bussiness rule) 被 满足 ; 例如 ， 代 码 要 保证 只 有 当 学 生 已 经 完成 课程 先 修 课 并 且 已 经 交付 学 费时 才能 
注册 课程 。 

另外 ， 业 务 逻 辑 包含 工作 流 (workflow) ， 它 描述 如 何 处 理 一 个 涉及 多 个 参与 者 的 特定 任务 。 例 如 ， 
如 果 一 名 候选 人 申请 大 学 ， 存 在 一 个 工作 流 规 定 首 先 由 谁 查看 并 批准 申请 ， 并 且 如 果 第 一 个 阶段 批准 
后 ， 接 下 来 应 该 由 谁 查看 申请 ， 如 此 下 去 ， 直 到 给 学 生发 出 和 人 学 邀请 或 者 寄 出 拒 信 。 工 作 流 管理 也 需 
要 处 理 错误 情况 ; 例如 ， 如 果 接 收 /拒绝 的 最 后 期 限 还 没 到 ， 则 可 能 需要 通知 主管 ， 使 好 能够 干预 并 确 

保 申请 已 处 理 。 工 作 流 在 26. 2 节 中 有 详细 的 讨论 。 

9.4.2 ”数据 访问 层 和 对 象 -关系 映射 

在 最 简单 的 场景 中 ， 业 务 逻 辑 层 和 数据 库 使 用 相同 的 数据 模型 ， 数据 访问 层 只 是 隐藏 了 与 数据 库 
连接 的 细节 。 然 而 ， 当 用 面向 对 象 程序 设计 语言 编写 业务 - 逻辑 层 时 ， 很 自然 地 会 将 数据 建 模 为 对 象 
以 及 对 象 上 调用 的 方法 。 

在 早期 实现 中 ， 程序 员 不 得 不 为 了 从 数据 库 中 获取 数据 以 创建 对 象 以 及 将 更 新 后 的 对 象 存 回 数据 
库 而 编写 代码 。 然 而 ， 这 种 数据 模型 间 的 人 工 转 换 很 麻烦 并 且 容 易 出 错 。 解 决 这 个 问题 的 一 种 方法 是 
开发 一 个 本 身 存储 对 象 和 对 象 之 间 关 系 的 数据 库 系 统 。 这 种 数据 库 称 作 面 向 对 象 数据 库 (object-oriented 
database) ， 在 第 22 章 将 对 其 详细 介绍 。 然 而 ， 由 于 许多 技术 和 商业 原因 ， 面 向 对 象 数据 库 没 有 取得 商 
业 上 的 成 功 。 

另 一 种 方法 是 使 用 传统 关系 数据 库 保 存 数据 ， 但 自动 建立 从 关系 中 的 数据 到 内 存 中 按 需 创 建 (由 
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于 通常 没有 足够 的 内 存 存储 数据 库 中 所 有 的 数据 ) 的 对 象 的 映射 ， 以 及 反 向 映射 ， 从 而 将 更 新 后 的 对 象 
以 关系 的 形式 保存 回 数据 库 。 


HIBERNATE 示例 
作为 Hibernate 使 用 示例 ， 创 建 一 个 对 应 于 student 关系 的 Java 类 如 下 : 


public class Student { 

String ID; 

String name; 

String department; 

int tot_cred; 

Student(String id, String name, String dept, int totcreds); /构造 函数 
} 


为 了 准确 ， 类 属性 应 该 声明 为 私有 ， 并 应 该 提供 getter/setter 方法 以 访问 属性 ,得 是 我 们 省 略 这 
些 细节 。 

从 Student 的 类 属性 到 student 关系 属性 的 映射 在 映射 文件 中 以 XML 格式 表示 。 我 们 再 次 省 略 
细节 。 

下 面 的 代码 段 创建 了 一 个 Student 对 象 并 将 它 保存 到 数据 库 中 。 


Session session = getSessionFactory().openSession(); 

Transaction txn = session.beginTransaction(); 

Student stud = new Student("12328", "John Smith", “Comp. Sci.", 0); 
session.save(stud); 

txn.commit(); 

session.close(); 


Hibernate 自动 生成 所 需 的 SQL insert 语句 ， 以 在 数据 库 中 创建 一 个 student 元 组 。 
为 了 检索 学 生 ， 可 以 用 以 下 代码 段 : 


Session session = getSessionFactory().openSession(); 
Transaction txn = session.beginTransaction(; 
List students = 
session.find("from Student as s order by s.ID asc"); 
for ( Iterator iter = students.iterator(); iter hasNext(; ) { 
Student stud = (Student) iter.next(); 
-输出 学 生 信息 -. 


txn.commit(); 
session.close(); 


以 上 代码 段 使 用 了 用 Hibernate 的 HOL 查询 语言 表达 的 一 个 查询 。HQL 查询 被 Hibernate É aH 
译 成 SQL 并 执行 ， 然 后 把 结果 转换 成 一 个 Student 对 象 对 象 。for 循环 遍历 该 列表 中 的 对 象 并 将 输出 


它们 。 


已 经 有 好 几 个 实现 这 种 对 象 - 关系 映射 (object-relational mapping) 的 系统 被 开发 出 来 。Hibernate 系 
统 广泛 用 于 将 Java 对 象 映 射 到 关系 。 在 Hibernate 中 ， 从 每 个 Java 类 到 一 个 或 多 个 关系 的 映射 都 记录 在 
一 个 映射 文件 中 。 例 如 ， 该 映射 文件 可 以 记录 一 个 叫做 Student 的 Java 类 映射 到 关系 student, [FIN Java 
属性 ID 映射 到 属性 student. ID 等 。properties 文件 记录 了 数据 库 的 信息 ， 例 如 数据 库 运 行 所 在 的 主机 ， 
以 及 用 于 连接 数据 库 的 用 户 名 和 密码 。 程 序 需要 打开 一 个 会 话 ， 建 立 到 数据 库 的 连接 。 一 旦 会 话 建立 ， 
Java 中 创建 的 Student 对 象 stud 就 可 以 通过 调用 session. save( stud ) 保存 到 数据 库 中 。Hibernate 代码 生成 
用 于 将 数据 存储 到 student 关系 中 的 SQL 命令 。 

一 组 对 象 可 以 通过 执行 用 Hibernate 查询 语言 所 写 的 查询 从 数据 库 中 获取 ; 这 与 用 JDBC 执行 查询 
并 返回 包含 一 组 元 组 的 ResultSet 是 类 似 的 。 或 者 ， 单 个 对 象 可 以 通过 提供 它 的 主 码 来 获取 。 获 取 到 的 
对 象 可 以 在 内 存 中 更 新 ; 当 运 行 中 的 Hibernate 会 话 上 的 事务 被 提交 时 ，Hibernate 通过 在 数据 库 中 的 关 
系 上 进行 相应 的 更 新 ， 自 动 保存 更 新 的 对 象 。 

虽然 E-R 模型 中 的 实体 自然 地 对 应 诸如 Java 的 面向 对 象 语 言 中 的 对 象 ， 但 联系 通常 并 不 对 应 。 
Hibernate 支持 将 这 种 联系 映射 为 关联 对 象 的 集合 的 能 力 。 例 如 ，student 和 section 之 间 的 takes 联系 可 以 
通过 将 section 的 集合 和 每 个 student 关联 ， 并 将 student 的 集合 和 每 个 section 关联 来 建 模 。 一 旦 指定 好 适 
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393 当 的 映射 ，Hibernate 就 会 根据 数据 库 关 系 takes 自动 填充 这 些 集合 ， 并 且 对 于 和 集合 的 更 新 也 会 在 提交 时 
反映 回 数据 库 关 系 中 。 
上 述 特点 帮助 提供 给 程序 员 一 个 不 需要 考虑 关系 存储 细节 的 高 级 数据 模型 。 然 而 ，Hibermate 和 其 
他 对 象 - 关系 映射 系统 一 样 ， 也 允许 程序 员 直 接 用 SQL 访问 底层 关系 。 这 种 直接 访问 对 于 编写 复杂 查 
询 以 生成 报表 至 关 重 要 。 
Microsoft 开发 了 一 种 数据 模型 ， 称 作 实 体 数 据 模 型 (Entity Data Model) ， 可 以 将 它 看 成 多 种 实体 - 
联系 模型 ， 以 及 一 个 相关 的 框架 ， 叫 作 ADO. NET 实体 框架 ， 它 能 在 实体 数据 模型 和 关系 数据 库 间 映 
射 数据 。 该 框架 还 提供 一 种 类 SQL 查询 语言 ， 称 作 实 体 SQL( Entity SQL) ， 它 直接 在 实体 数据 模型 上 
操作 。 
9.4.3 Web 服务 


在 过 去 ， 大 部 分 Web 应 用 只 使 用 应 用 服务 器 及 其 相关 的 数据 库 中 的 数据 。 近 年 来 ，Web 中 存在 许 
多 种 类 的 数据 ， er 而 不 是 直接 显示 给 用 户 ; 程序 可 能 作为 后 端 应 用 的 一 部 分 运行 ， 
或 可 能 是 在 浏览 器 中 运行 的 脚本 。 通 常 ， 通 过 实际 的 Web 应 用 编程 接口 访问 这 些 数 据 ， 即 使 用 HTTP 
协议 发 送 一 个 函数 调用 请 求 ， 在 应 用 服务 器 上 执行 ， 然 后 将 结果 发 送 回 主 调 程序 。 支 持 这 种 接口 的 系 
统 被 称 为 Web 服务 (Web service), 

有 两 种 方法 广泛 用 于 实现 Web 服务 。 较 简单 的 方法 为 代表 性 状态 传输 ( REpresentation State 
Transfer，REST) ， 它 通过 在 应 用 服务 器 对 URL 的 标准 HTTP 请 求 执行 Web 服务 函数 调用 ， 参 数 作为 标 
准 HTTP 请 求 的 参数 发 送 。 应 用 服务 器 执行 该 请 求 (有 可 能 涉及 服务 器 端 数据 库 的 更 新 ) ， 生 成 结果 并 
对 其 编码 ， 然 后 将 结果 作为 HTTP 请 求 的 结果 返回 。 服 务 器 对 一 个 特定 请 求 的 URL 可 以 使 用 任意 编码 ; 
XML 和 一 种 叫 作 JavaScript 对 象 符号 (JavaScript Object Notation, JSON) 的 JavaScript 对 象 编码 广泛 使 
用 。 请 求 方 解 析 返回 的 页 面 以 访问 所 返回 的 数据 。 

在 许多 REST 风格 的 Web 服务 (即使 用 REST 的 Web 服务 ) 的 应 用 中 ， 请 求 方 是 运行 在 Web 浏览 器 
中 的 JavaScript 代码 ; 该 代码 使 用 函数 调用 的 结果 更 新 浏览 器 屏幕 。 例 如 ， 当 你 在 Web 上 的 地 图 界面 
上 滚动 显示 时 ， 地 图 中 需要 新 增 的 显示 部 分 可 以 使 用 REST 风格 的 接口 通过 JavaScript 代码 获取 ， 然 后 
显示 在 屏幕 上 。 

一 个 更 加 复杂 的 方法 有 时 称 作 “ 大 Web 服务 ”， 它 对 参数 和 结果 使 用 XML 编码 ， 使 用 一 种 专门 的 
语言 正规 定义 Web API， 并 在 HTTP 协议 上 构建 了 一 个 协议 层 。23. 7. 3 节 有 对 这 个 方法 的 详细 描述 。 
9.4.4 断 连 操作 

许多 应 用 都 希望 即使 当 一 个 客户 端 从 应 用 服务 器 断 开 连接 时 仍 支持 某 些 操作 。 例 如 ， 一 个 学 生 可 

能 希望 填写 申请 表 即 使 好 的 笔记 本 电脑 从 网 络 断 开 ， 但 在 笔记 本 电脑 重新 连接 网 络 的 时 候 将 它 保存 回 
去 。 另 一 个 例子 是 ， 如 果 将 一 个 电子 邮件 客户 端 构 建 为 一 个 Web 应 用 ， 一 个 用 户 可 能 希望 书写 电子 邮 
件 即 使 她 的 笔记 本 电脑 从 网 络 断 开 ， 并 在 重新 连接 到 网 络 时 将 邮件 发 送出 去 。 构 建 这 种 应 用 需要 在 客 
户 端 机 器 中 本 地 存储 ， 最 好 是 以 数据 库 的 形式 。Gears 软件 (最 初 由 Google 开发 ) 是 一 个 浏览 器 插件 ， 
它 提供 一 个 数据 库 、 一 个 本 地 Web 服务 器 ， 并 支持 在 客户 端 并 行 执行 JavaScript。 该 软件 在 多 种 操作 系 
统 / 浏 览 器 平台 上 同样 运行 ， 允 许 应 用 程序 支持 丰富 的 功能 而 并 不 需要 安装 任何 的 软件 (除了 Gears 自 
Eh). Adobe 的 AIR 软件 还 给 能 够 为 运行 在 Web 浏览 器 之 外 的 Internet 应 用 的 构建 提供 类 似 的 
功能 。 


9.5 快速 应 用 开发 


如 果 构 建 Web 应 用 时 没有 使 用 工具 或 库 构 建 用 户 界面 ， 则 构建 用 户 界面 所 需 的 编程 工作 可 能 远大 
于 业务 逻辑 和 数据 库 访问 所 需 。 有 几 种 方法 可 以 用 以 减少 构建 应 用 程序 所 需 的 工作 : 
© 提供 一 个 函数 库 ， 以 用 最 小 的 编程 量 生 成 用 户 界面 元 素 。 
。 在 集成 开发 环境 中 提供 拖 放 功 能 ， 允 许 将 用 户 界面 元 素 从 菜单 中 拖 至 页 面 的 设计 视图 。 该 集成 
开发 环境 通过 调用 库 函 数 生成 创建 用 户 界面 元 素 的 代码 。 


第 9 章 应 用 设计 和 开发 223 


。 根据 声明 规范 自动 生成 用 户 界面 的 代码 。 

在 创建 Web 之 前 ， 所 有 这 些 方 法 就 都 已 经 作为 快速 应 用 开发 Rapid Application Development, 
RAD) 工 具 的 一 部 分 用 于 创建 用 户 界面 了 ， 并 且 目 前 也 广泛 用 于 创建 Web 应 用 。 

用 来 快速 开发 数据 库 应 用 接口 的 工具 的 例子 包括 Oracle Forms 、Sybase PowerBuilder 以 及 Oracle 
Application EXpress( APEX ) 。 另 外 ， 为 Web 应 用 开发 所 设计 的 工具 ， 例 如 Visual Studio 和 Netbeans 
VisualWeb ， 支 持 用 于 快速 开发 基于 数据 库 的 应 用 的 Web 界面 的 一 些 功 能 。 

我 们 在 9. 5. 1 节 中 学 习 创 建 用 户 界面 的 工具 ， 并 在 9. 5. 2 节 中 学 习 支 持 自动 根据 系统 模型 生成 代 
码 的 框架 。 

9.5.1 构建 用 户 界面 的 工具 

许多 HTML 结构 最 好 是 由 适当 定义 的 函数 生成 ， 而 不 是 作为 网 页 代码 的 一 部 分 来 编写 。 例 如 ， 地 
址 表单 通常 需要 一 个 包含 国家 或 州 名 的 菜单 。 最 好 定义 一 个 输出 该 菜单 的 函数 并 在 需要 的 时 候 调 用 该 
函数 ， 而 不 是 每 次 用 到 的 时 候 编写 元 长 的 HTML 代码 以 生成 所 需 的 菜单 。 

菜单 通常 最 好 由 数据 库 中 的 数据 生成 ， 比 如 一 个 包含 国家 名 或 州 名 的 表 。 生 成 菜单 的 函数 执行 数 
据 库 查询 并 用 查询 结果 填写 菜单 。 增 添 一 个 国家 或 州 则 只 需要 改变 数据 库 ， 而 不 需要 改变 应 用 程序 代 
码 。 这 个 方法 有 个 潜在 的 缺陷 ， 即 需要 增加 数据 库 交 互 ， 不 过 可 以 通过 在 应 用 服务 器 端 缓存 查询 结果 
以 最 小 化 这 个 开销 。 

类 似 地 ， 输 入 日 期 和 时 间或 需要 验证 的 输入 的 表单 最 好 通过 调用 适当 定义 的 函数 生成 。 这 些 函 数 
能 够 输出 在 浏览 器 端 执行 验证 的 JavaScript 代码 。 

对 于 许多 数据 库 应 用 ， 显 示 查 询 的 结果 集 是 一 项 共有 的 任务 。 可 以 构建 一 个 泛 型 函数 ， 将 SQL 查 
询 ( 或 ResultSet) 作 为 参数 ， 并 以 表格 形式 显示 查询 结果 (或 ResultSet) 中 的 元 组 。 可 以 使 用 JDBC 元 数 
据 调用 从 查询 结果 中 找到 诸如 列 数 以 及 列 的 名 称 和 类 型 的 信息 ; 然后 该 信息 用 于 显示 查询 结果 。 

为 了 处 理 查 询 结果 非常 大 的 情况 ， 查 询 结果 显示 功能 可 以 提供 对 结果 的 分 页 。 该 功能 可 以 在 一 页 
中 显示 固定 条 数 的 记录 ， 并 提供 控制 以 跳 到 下 一 页 或 前 一 页 或 者 跳 到 结果 的 指定 页 。 

遗憾 的 是 ， 没 有 (广泛 使 用 的 ) 用 于 实现 上 述 用 户 界 面 任务 的 标准 Java API 函数 。 构 建 这 样 的 一 个 
库 将 会 是 一 个 有 趣 的 编程 项 目 。 

不 过 ， 存 在 其 他 一 些 工 具 ， 比 如 JavaServer Faces( JSF ) 框 架 ， 它 就 支持 上 面 所 列 功能 。JSF 框架 包 
含 一 个 实现 这 些 功 能 的 ISP 标签 库 。Netbeans IDE 具有 一 个 叫做 VisualWeb 的 组 件 ， 它 构建 在 JSF E, 
提供 一 个 可 以 将 属性 自 定 义 的 用 户 界 面 组 件 拖 放 到 一 个 页 面 的 可 视 化 开发 环境 。 例 如 ，JSF 提供 创建 
下 拉 菜 单 的 组 件 ， 或 者 显示 从 数据 库 查 询 中 获取 数据 的 表格 的 组 件 。JSF 还 支持 在 组 件 上 验证 规范 ， 
例如 做 选择 或 强制 输入 ， 或 者 限制 一 个 数 或 一 个 日 期 在 指定 范围 内 。 

Microsoft 的 Active Server Pages( ASP) 及 其 最 近 的 版 本 Active Server Pages. NET( ASP. NET), ， 是 JSP/ 
Java 的 一 种 广泛 使 用 的 替代 品 。ASP. NET 45 JSP 类 似 ， 其 中 可 以 在 HTML {RAS PKA Visual Basic 或 者 
C# 语 言 的 代码 。 另 外 ，ASP. NET 提供 多 种 控件 ( 脚本 命令 ) ， 在 服务 器 端 解释 并 生成 HTML 返回 给 客户 
端 。 这 些 控件 能 显著 地 简化 Web 界面 的 构建 。 我 们 对 这 些 控 件 带 来 的 好 处 给 出 一 个 简要 的 概览 。 

例如 ， 诸 如 下 拉 菜 单 和 列表 框 这 样 的 控件 可 以 与 一 个 DataSet 对 象 关联 。DataSet 对 象 与 JDBC 的 
ResultSet 对 象 相似 ， 通 常 也 是 通过 在 数据 库 上 执行 查询 而 创建 的 。HTML 菜单 内 容 从 DataSet 对 象 的 内 
容 生成 ; 例如 ， 一 个 查询 可 能 将 一 个 机 构 中 所 有 部 门 的 名 字 检 索 到 DataSet 中 ， 并 且 关 联 的 菜单 将 会 包 
含 这 些 名 字 。 这 样 ， 基 于 数据 库 内 容 的 菜单 就 能 以 极 少量 的 编码 方便 地 创建 出 来 。 

验证 控件 可 以 添加 到 表单 的 输入 域 中 ; 这 声明 性 地 定义 了 有 效 性 约束 ， 诸 如 值 的 范围 或 者 输入 是 
否 是 必需 的 ( 即 用 户 必须 提供 的 值 ) 。 服 务 器 创建 适当 的 结合 JavaScript 的 HTML 代码 ， 以 在 用 户 的 浏览 
器 中 执行 有 效 性 验证 。 对 于 无 效 输入 所 显示 的 错误 消息 可 以 与 每 个 验证 控件 相关 联 。 

可 以 指定 用 户 操作 在 服务 器 端 具有 相关 联 的 操作 。 例 如 ， 一 个 菜单 控件 可 以 指定 从 菜单 中 选择 一 
个 值 具有 一 个 相关 联 的 服务 器 端 动作 (生成 JavaScript 代码 以 探查 选择 事件 并 初始 化 服务 器 端 操 作 ) 。 显 
示 属 于 所 选 值 的 数据 的 Visual Basic/C# 代 码 可 以 与 服务 器 上 的 该 动作 相关 联 。 因 此 ， 从 菜单 中 选择 一 
个 值 会 引起 页 面 上 相关 联 的 数据 的 更 新 ， 而 不 需要 用 户 点 击 提交 按钮 
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DataGrid 控件 提供 了 一 个 非常 方便 的 方法 显示 查询 结果 。 一 个 DataGrid 和 一 个 DataSet 对 象 相关 
Ik, DataSet 对 象 通常 是 一 个 查询 的 结果 。 服 务 器 生成 将 查询 结果 显示 为 表 的 HTML 代码 。 列 标题 根据 
查询 结果 的 元 数据 自动 生成 。 另 外 ，DataGCrid 提供 了 一 些 功能 ， 比 如 分 页 ， 以 及 允许 用 户 在 所 选 列 上 
对 结果 排序 。 所 有 实现 这 些 特 性 的 HTML 代码 以 及 服务 器 端 功能 都 是 由 服务 器 自动 生成 的 。DataCrid 
甚至 允许 用 户 编辑 数据 并 将 更 改 提交 回 服务 器 。 应 用 开发 人 员 可 以 指定 一 个 函数 在 一 行 数据 被 编辑 时 
执行 ， 这 就 可 以 实现 数据 库 上 的 更 新 。 

Microsoft Visual Studio 为 创建 使 用 这 些 特 性 的 ASP 页 面 提供 了 图 形 用 户 界面 ， 进 一 步 减少 了 编程 的 
工作 。 

关于 ASP. NET 的 更 多 信息 ， 请 参看 文献 注解 中 的 参考 文献 。 

9.5.2 Web 应 用 框架 

有 多 种 Web 应 用 开发 框架 都 提供 一 些 常用 的 特性 ， 比 如 

© 一 个 包含 对 象 - 关系 映射 的 面向 对 象 模 型 ， 从 而 在 关系 数据 库 中 保存 数据 (如 9. 4. 2 节 所 述 ) 。 

。 一 种 (相对 ) 声 明 式 的 方式 ， 说 明 一 个 表单 具有 在 用 户 输入 上 的 验证 约束 ， 系 统 据 此 生成 HTML 
和 JavaScript/ Ajax 代码 以 实现 表单 。 

一 个 模板 脚本 系统 (与 JSP 类似) 。 
一 个 控制 器 ， 将 诸如 表单 提交 的 用 户 交 互 事 件 映射 到 处 理 该 事件 的 适当 函数 上 。 控 制 器 还 管理 
身份 验证 和 会 话 。 一 些 框架 还 提供 管理 身份 验证 的 工具 。 

这 样 ， 这 些 框架 就 以 一 种 集成 的 方式 提供 了 多 种 构建 Web 应 用 所 需 的 特性 。 通 过 根据 声明 规范 生 
成 表单 ， 以 及 透明 地 管理 数据 访问 ， 这 些 框架 最 小 化 了 Web 应 用 程序 员 所 需 完 成 的 代码 量 。 

这 样 的 框架 有 许多 ， 它 们 基于 不 同 语言 。 其 中 一 些 较为 广泛 使 用 的 框架 包括 Ruby on Rails， 它 是 基 
于 Ruby 程序 设计 语言 的 ， 还 有 JBoss Seam, Apache Struts, Swing, Tapestry 以 及 WebObjects， 它 们 都 是 基 
F Java/JSP 的 。 其 中 的 一 些 ( 比如 Ruby on Rails 和 JBoss Seam) 提供 自动 生成 简单 CRUD Web 界面 的 工具 ; 
也 就 是 支持 对 象 / 元 组 的 创建 、 阅 读 、 更 新 和 删除 的 界面 ， 它 是 通过 对 象 模型 或 数据 库 生 成 代码 的 。 这 种 
工具 在 使 简单 应 用 快速 运行 时 特别 有 用 ， 并 且 可 以 编辑 生成 的 代码 以 构建 更 复杂 的 Web 界面 。 

9.5.3 报表 生成 器 

报表 生成 器 是 从 数据 库 生成 人 们 可 读 的 概要 报告 的 工具 。 它 将 生成 格式 化 文本 和 概要 图 表 ( 例如 
条 形 图 或 饼 状 图 ) 与 查询 数据 库 集 成 在 一 起 。 例 如 ， 一 个 报表 可 能 会 显示 过 去 的 两 个 月 中 每 个 月 每 个 销 
售 地 区 的 总 销售 额 。 

应 用 开发 人 员 可 以 利用 报表 生成 器 的 格式 化 工具 来 指定 报表 的 格式 。 变 量 可 以 用 来 存储 参数 (如 
月 、 年 ) 以 及 定义 报表 中 的 域 。 表 、 图 、 条 形 图 或 其 他 的 图 可 以 通过 对 数据 库 的 查询 来 定义 。 查 询 定 义 
可 以 利用 存储 在 变量 里 的 参数 值 。 

一 旦 在 报表 生成 器 工具 上 定义 了 一 个 报表 的 结构 ， 就 可 以 保存 它 并 可 以 在 任何 时 候 执 行 它 来 产生 
报表 。 报 表 生 成 器 系统 提供 了 多 种 工具 来 组 织 表格 式 输出 ， 如 定义 表 和 列 标题 ， 显 示 表 中 每 一 组 的 小 
计 ， 自 动 将 一 个 长 的 表格 分 成 若干 页 ， 在 每 一 页 未 尾 显示 本 页 小 计 等 。 

图 9-12 是 一 个 格式 化 报表 的 例子 。 报 表 中 的 数据 是 按 顺 序 对 信息 进行 聚集 产生 的 。 

许多 厂商 都 提供 报表 生成 工具 ， 例 如 Crystal Reports 和 Microsoft( SQL Server Reporting Services), — 
些 应 用 套件 (例如 Microsoft Office ) 提供 了 将 来 自 数据 库 的 格式 化 查询 结果 直接 艇 人 到 文档 中 的 方法 。 
Crystal Reports 提供 的 图 表 生 成 工具 或 者 诸如 Excel 提供 的 电子 表格 都 可 以 用 于 从 数据 库 访问 数据 ， 并 
生成 表格 化 的 数据 展现 或 者 使 用 图 表 或 图 的 图 形 化 方式 展现 数据 。 这 种 图 表 可 以 座 入 文本 文档 中 。 图 
表 最 初 由 执行 数据 库 查 询 生 成 的 数据 创建 ; 查询 在 需要 的 时 候 可 以 重新 执行 并 重新 生成 图 表 ， 以 获得 
概要 报表 的 当前 版 本 。 

除了 生成 静态 报表 ， 报 表 生 成 工具 也 支持 创建 交互 式 报表 。 例 如 ， 用 户 可 以 “下 销 ” 到 感 兴趣 的 区 
域 ， 比 如 从 一 个 显示 全 年 总 销量 的 聚集 视图 转移 到 某 一 年 的 月 销售 图 表 。 在 前 面 5. 6 节 已 讨论 过 这 种 
操作 。 
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总 计 2 100 000 
图 9-12 一 个 格式 化 报表 


9.6 应 用 程序 性 能 


Web 站 点 可 能 被 来 自 全 球 的 数 百 万 人 访问 ， 每 秒 钟 要 处 理 数 千 次 的 请 求 ， 对 于 最 流行 的 站 点 甚至 
更 多 。 确 保 对 请 求 的 服务 有 较 短 的 响应 时 间 是 Web 站 点 开发 人 员 面 临 的 一 个 主要 挑战 。 为 了 做 到 这 
点 ， 应 用 开发 人 员 通 过 利用 诸如 缓存 等 技术 尽 可 能 加 快 处 理 单个 请 求 的 速度 ， 并 通过 使 用 多 个 应 用 服 
务 器 进行 并 行 处 理 。 我 们 在 下 面 简要 描述 这 些 技术 。 数 据 库 应 用 调 优 在 后 面 的 第 24 章 (24. 1 节 ) 详细 
讲述 。 
9.6.1 利用 缓存 减少 开销 

多 种 缓存 技术 用 于 充分 利用 事务 之 间 的 共性 。 例 如 ， 假 设 服务 于 每 个 用 户 请 求 的 应 用 程序 代码 都 


需要 通过 JDBC 连接 数据 库 。 因 为 创建 一 个 新 的 JDBC 连接 需要 几 个 毫秒 的 时 间 ， 所 以 在 要 支持 很 高 的 


事务 处 理 速 度 时 ， 为 每 次 请 求 创建 一 个 新 连接 是 不 合适 的 。 

连接 池 ( connection pooling) 用 来 减轻 这 种 开销 ; 它 是 这 样 工作 的 : 连接 池 管 理 器 (应 用 服务 器 的 一 
部 分 ) 创建 一 个 打开 的 ODBCZJDBC 连接 的 池 。 与 打开 一 个 新 的 数据 库 连 接 不 同 ， 对 用 户 请 求 提供 服务 
的 代码 (通常 是 一 个 servlet) 向 连接 池 申 请 (请 求 ) 一 个 连接 ， 然 后 在 代码 (servlet) 完成 处 理 时 将 连接 归 
还 给 连接 池 。 如 果 在 请 求 连接 时 连接 池 没 有 未 使 用 的 连接 ， 则 打开 一 个 新 的 数据 库 连 接 (要 小 心 不 要 超 
过 数据 库 能 同时 支持 的 最 大 连接 数目 ) 。 如 果 有 很 多 打开 的 连接 在 一 段 时 间 内 没有 使 用 ， 连 接 池 管 理 器 
可 能 会 关闭 一 些 打开 的 数据 库 连 接 。 许 多 应 用 服务 器 以 及 较 新 的 ODBC/IDBC 驱动 程序 提供 内 置 的 连 
接 池 管 理 器 。 

在 创建 Web 应 用 时 ， 许 多 程序 员 常 犯 的 一 个 错误 是 忘记 关闭 一 个 打开 的 JDBC 连接 (或 者 等 同 地 ， 
在 用 连接 池 的 时 候 ， 忘 记 把 连接 归还 给 连接 池 ) 。 每 个 请 求 则 打开 一 个 新 的 数据 库 连 接 ， 而 且 数 据 库 很 
快 就 达到 了 同时 能 支持 的 连接 数目 的 上 限 。 这 样 的 问题 通常 在 小 规模 测试 的 时 候 不 会 暴露 出 来 ， 因 为 
数据 库 通 常 能 允许 数 百 个 打开 的 连接 ， 而 仅 会 在 频繁 使 用 的 时 候 显现 出 来 。 某 些 程序 员 以 为 连接 像 
Java 程序 分 配 的 内 存 ， 会 自动 回收 。 遗 憾 的 是 ， 这 不 会 发 生 ， 并 且 程 序 员 有 责任 关闭 他 们 所 打开 的 
连接 。 

某 些 请 求 可 能 导致 向 数据 库 重 新 提交 完全 相同 的 查询 。 只 要 数据 库 中 的 查询 结果 没有 改变 ,通过 
缓存 先前 的 查询 结果 并 重用 它们 ， 数 据 库 通信 的 开销 可 以 大 大 减少 。 一 些 Web 服务 器 支持 这 样 的 查询 
结果 缓存 ; 如果 不支 持 的 话 ， 可 以 在 应 用 程序 代码 中 显 式 实现 缓存 。 

通过 缓存 响应 一 个 请 求 所 发 送 的 最 终 Web 页 面 可 以 进一步 减少 开销 。 如 果 新 请 求 和 前 面 的 一 个 
请 求 参 数 完全 一 致 ， 请 求 不 需要 执行 更 新 ， 并 且 结 果 Web 页 面 在 缓存 中 ， 那 么 它 就 可 以 重用 ， 从 而 
避免 重新 计算 该 页 面 的 开销 。 缓 存 可 以 在 Web 页 的 片段 级 别 实现 ， 然 后 它们 被 组 装 以 创建 完整 的 
Web 页 。 
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缓存 的 查询 结果 和 缓存 的 Web 页 面 是 物化 视图 的 形式 。 如 果 底 层 数据 库 数 据 改动 ， 缓 存 的 结果 必 
须 废弃 ， 或 重新 计算 ,或 甚至 增 量 更 新 ， 就 如 物化 视图 的 维护 ( 在 后 面 13. 5 节 介 绍 ) 那 样 。 某 些 数据 库 
系统 (比如 Microsoft SQL Server) 为 应 用 服务 器 提供 了 一 种 方式 在 数据 库 注册 查询 ， 并 且 在 查询 结果 改 
变 时 从 数据 库 得 到 通知 (notification) 。 这 种 通知 机 制 可 以 用 于 确保 缓存 在 应 用 服务 器 中 的 查询 结果 是 最 
新 的 。 

9.6.2 并行 处 理 
处 理 非 常 重 的 负载 的 一 个 常用 的 方法 是 并 行 运行 许多 台 应 用 服务 器 ， 每 个 处 理 一 小 部 分 请 求 。 一 
401 | 个 Web 服务 器 或 者 一 个 网 络 路 由 器 可 以 用 于 将 每 个 客户 端的 请 求 路 由 到 一 台 应 用 服务 器 。 来 自 一 个 特 
定 客户 端 会 话 的 所 有 请 求 都 必须 送 到 同一 个 应 用 服务 器 , .因为 服务 器 要 维护 客户 端 会 话 的 状态 。 比 如 ， 
可 以 通过 将 所 有 来 自 一 个 卫 地 址 的 请 求 都 路 由 到 相同 的 应 用 服务 器 来 确保 这 个 性 质 。 然 而 ， 底 层 数据 
库 被 所 有 应 用 服务 器 共享 ， 因 此 用 户 看 到 的 数据 库 是 一 致 的 。 

由 于 在 以 上 架构 中 数据 库 是 共享 的 ， 因 此 它 很 容易 成 为 瓶颈 。 应 用 程序 设计 人 员 通 过 在 应 用 服务 
器 端 缓存 查询 结果 ， 特 别 地 注意 最 小 化 数据 库 请 求 的 数量 。 另 外 ， 当 需要 时 则 使 用 并 行 数据 库 系统 ， 
这 将 在 第 18 章 讲述 。 


9.7 应 用 程序 安全 性 


应 用 程序 安全 性 要 在 SQL 授权 处 理 的 范围 之 外 对 几 种 安全 威胁 和 问题 进行 处 理 。 
第 一 个 必须 要 强制 实施 安全 性 的 地 方 是 在 应 用 程序 里 。 为 此 ， 应 用 程序 必须 对 用 户 进 行 身份 验证 ， 
并 确保 用 户 只 允许 完成 授权 的 任务 。 
存在 许多 方法 使 一 个 应 用 程序 的 安全 性 能 够 受到 威胁 ， 即 使 数据 库 系统 本 身 是 安全 的 ， 不 好 的 应 
用 程序 代码 也 会 使 应 用 程序 的 安全 性 受到 威胁 。 本 节 首 先 介绍 几 种 安全 漏洞 ， 它 们 能 够 允许 黑客 采取 
行动 绕 过 应 用 程序 采取 的 身份 认证 和 授权 检查 ， 并 解释 如 何 防止 这 种 漏洞 。 本 节 后 面 介 绍 安全 认证 和 
细 粒 度 授 权 的 技术 。 然 后 我 们 介绍 审计 追踪 ， 它 能 够 帮助 从 未 经 授权 的 访问 和 错误 更 新 中 恢复 。 我 们 
通过 介绍 数据 隐私 问题 结束 本 节 。 
9.7.1 SQL 注入 
在 SQL 注入 (SQL injection) 攻击 中 ， 攻 击 者 设法 获取 一 个 应 用 程序 来 执行 攻击 者 生成 的 SQL 查询 。 
在 5.1.1.4 节 中 ， 我 们 看 到 了 一 个 SQL 注入 漏洞 的 例子 ， 如 果 用 户 输入 直接 与 SQL 查询 连 成 一 串 并 提 
交 给 数据 库 。 作 为 SQL 注入 漏洞 的 男 一 个 例子 ， 考 虑 图 9-4 中 所 示 的 表单 源 文本 。 假 设 在 图 9-8 所 示 
的 相应 的 servlet 中 用 以 下 Java 表达 式 创 建 了 一 个 SQL 查询 串 : 
String query = “select * from student where name like “9% ”+ name + “%’” 
其 中 name 是 用 户 输入 的 包含 字符 串 的 变量 ， 并 继而 在 数据 库 上 执行 该 查询 。 利 用 Web 表单 的 恶意 攻 
击 者 则 可 以 键入 诸如 ”” ; <some SQL statement >; _-“ 的 字符 串 ， 蔡 代 一 个 有 效 的 学 生 姓 名 ， 其 中 < 
some SQL statement > 表示 任何 攻击 者 希望 的 SQL 语句 。servlet 则 将 执行 以 下 字符 串 : 


select * from student where name like’’; < some SQL statement >; - —' 


攻击 者 搬入 的 引号 结束 该 字符 串 ， 后 面 的 分 号 终止 该 查询 ， 然 后 攻击 者 接 下 来 所 插入 的 文本 被 解析 为 
第 二 条 SQL 查询 ， 而 右 引号 已 被 注释 掉 。 这 样 ， 该 恶意 用 户 成 功 插 人 被 应 用 程序 执行 的 任意 SQL 语 
句 。 该 语句 可 以 导致 重大 的 损害 ， 因 为 它 能 够 绕 过 应 用 程序 代码 中 实现 的 所 有 安全 措施 ， 在 数据 库 上 
进行 任意 的 操作 。 

如 5.1.1.4 节 所 述 ， 为 了 避免 这 种 攻击 ， 最 好 使 用 预备 语句 来 执行 SQL 查询 。 当 设置 预备 语句 的 
一 个 参数 时 ，JDBC 自动 添加 转 义 字符 ， 从 而 使 得 用 户 提供 的 引号 无 法 再 终止 字符 串 。 等 价 地 ， 添 加 这 
种 转 义 字符 的 操作 也 可 以 在 与 SQL 查询 连接 之 前 用 在 输入 字符 串 上 ， 而 不 使 用 预备 语句 。 

SQL 注入 危险 的 另 一 个 来 源 是 基于 表单 中 指定 的 选择 条 件 和 排序 属性 动态 创建 查询 的 应 用 。 例 如 ， 
一 个 应 用 可 能 允许 用 户 指定 用 哪个 属性 对 查询 结果 排序 。 假 设 该 应 用 从 表单 变量 orderAttribute 中 获取 
属性 名 ， 并 创建 了 一 个 查询 串 如 下 : 
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String query = “select” from takes order by ”+ orderAttribute ; 


即使 用 于 获取 输入 的 HTML 表单 通过 提供 表单 试图 限定 所 允许 的 值 ， 一 个 恶意 用 户 仍 可 以 发 送 一 
个 任意 字符 串 替 代 一 个 有 意义 的 orderAttribute 值 。 为 了 避免 这 种 SQL 注入 ， 应 用 程序 应 该 在 追加 
orderAttribute 变量 值 之 前 确保 它 是 所 允许 的 值 ( 在 例子 中 为 属性 名 ) 。 
9.7.2 跨 站 点 脚本 和 请 求 伪造 

一 个 允许 用 户 输入 诸如 评论 或 姓名 的 文本 ， 然 后 将 其 保存 并 在 以 后 显示 给 其 他 用 户 的 网 站 ， 有 可 
能 会 受到 一 种 攻击 ， 叫 做 跨 站 点 脚本 ( Cross-Site scripting，XSS) 攻 击 。 在 这 种 攻击 中 ， 一 个 恶意 用 户 并 
不 输入 一 个 有 效 的 姓名 或 评论 ， 而 是 输入 用 诸如 JavaScript 或 Flash 的 客户 端 脚 本 语言 编写 的 代码 。 当 
另 一 个 用 户 阅览 输入 的 文本 时 ， 浏 览 器 将 会 执行 脚本 ， 它 可 能 会 进行 一 些 操作 ， 比 如 将 私人 的 cookie 
信息 发 送 回 恶意 用 户 ， 或 甚至 在 一 个 用 户 可 能 登录 的 另 一 个 不 同 的 Web 服务 器 中 执行 操作 。 

例如 ， 假 设 该 脚本 执行 的 时 候 用 户 恰巧 登录 了 她 的 银行 账户 。 该 脚本 可 以 将 有 关 银 行 账户 登录 的 
cookie 信息 发 送 回 恶意 用 户 ， 他 就 可 以 用 该 信息 连接 到 银行 的 Web 服务 器 ， 其 骗 它 使 它 相信 该 连接 来 
自 原 用 户 。 或 者 ， 该 脚本 可 以 适当 设置 参数 并 访问 银行 网 站 上 的 适当 网 页 ， 以 执行 转账 ,事实 上 即使 
不 写 脚本 而 只 是 用 如 下 的 一 行 代码 就 能 够 使 这 个 问题 发 生 : 


< Img src = 
"http: //mybank. com/transfermoney? amount = 1000&toaccount = 14523" > 


假定 URL mybank. com/transfermoney 接受 指定 的 参数 ， 并 进行 了 转账 -。 这 后 一 种 漏洞 又 称 作 跨 站 点 请 求 
伪造 ( Cross-Site Request Forgery 或 XSRF ， 有 时 也 称 作 CSRF) ) - 
XSS 可 以 用 其 他 一 些 方式 实现 ， 比 如 引诱 用 户 访问 有 恶意 脚本 做 入 其 网 页 的 网 站 。 存 在 其 他 更 加 
复杂 的 XSS 或 XSRF 攻击 ， 我 们 在 此 不 再 细 讲 。 为 了 防止 此 类 攻击 ， 需 要 完成 两 件 事 : 
© 防止 你 的 网 站 被 用 来 发 动 XSS 或 XSRF 攻击 。 
最 简单 的 技术 就 是 禁止 用 户 输入 的 任何 文本 中 的 任何 HTML 标签 。 存 在 检测 或 去 除 这 些 标 签 的 
函数 。 这 些 函 数 可 以 用 来 防止 HTML 标签 ， 并 就 此 防止 脚本 展示 给 其 他 用 户 。 在 有 些 情况 下 
HTML 格式 是 有 用 的 ， 并 且 在 这 种 情况 下 可 以 使 用 那 种 解析 文本 并 允许 有 限 的 HTML 结构 ， 但 
不 允许 其 他 危险 结构 的 函数 。 这 些 必须 小 心地 设计 ， 因 为 有 时 包含 一 个 跟 图 片 一 样 无 害 的 结构 
也 可 能 是 危险 的 ， 如 果 图 片 显示 软件 中 有 一 个 能 发 现 的 错误 。 
。 防止 你 的 网 站 被 其 他 站 点 发 动 的 XSS 或 XSRF 攻击 。 
如 果 该 用 户 已 经 登录 你 的 网 站 ， 并 访问 了 另 一 个 易 受 XSS 攻击 的 网 站 ， 在 该 用 户 的 浏览 器 上 执 
行 的 恶意 代码 则 可 能 在 你 的 网 站 上 执行 操作 ， 或 将 与 你 的 网 站 关联 的 会 话 信 息 发 送 回 试图 利用 
它 的 恶意 用 户 。 无 法 完全 防止 这 种 攻击 ， 但 是 你 可 以 采取 几 个 步骤 最 小 化 风险 。 
O HTTP 协议 允许 一 个 服务 器 检查 访问 页 的 引用 页 (referrer) ， 即 用 户 为 了 初始 化 访问 页 而 点 击 
的 链接 所 在 网 页 的 URL。 通 过 检查 引用 页 是 否 有 效 ， 例 如 ， 引 用 页 URL 是 同一 个 网 站 上 的 
网 页 ， 源 自用 户 访问 的 不 同 网 页 上 的 XSS 攻击 则 可 以 防止 。 
除了 只 使 用 cookie 来 标识 一 个 会 话 外 ， 还 可 以 将 会 话 限制 在 原始 验证 它 的 下 地 址 上 。 这样 ， 
即使 一 个 恶意 用 户 得 到 了 cookie， 他 也 可 能 无 法 从 另 一 台 计 算 机 登录 。 
决 不 要 使 用 GET 方法 执行 任何 更 新 。 这 防止 了 利用 <img sre.. > 的 攻击 ， 如 我 们 前 面 所 看 
到 的 。 事 实 上 ， 由 于 其 他 原因 ， 比 如 页 面 的 刷新 重复 了 本 应 只 发 生 一 次 的 操作 ，HTTP 标准 
建议 CET 方法 不 应 该 执行 任何 更 新 。 
9.7.3 密码 泄露 
应 用 程序 开发 人 员 必 须 处 理 的 另 一 个 问题 是 在 应 用 程序 代码 的 明文 中 保存 密码 。 例 如 ， 诸 如 ISP 
脚本 的 程序 通常 在 明文 中 包含 密码 。 如 果 这 种 脚本 保存 在 一 个 Web 服务 器 可 访问 的 目录 中 ， 一 个 外 部 
用 户 就 可 能 能 够 访问 脚本 的 源码 ， 并 获取 应 用 程序 使 用 的 数据 库 账 户 的 密码 。 为 了 避免 这 种 问题 ， 许 
多 应 用 服务 器 提供 用 编码 的 形式 保存 密码 的 机 制 ， 在 传送 给 数据 库 之 前 服务 器 对 其 解码 。 该 功能 去 除 
了 在 应 用 程序 中 将 密码 另存 为 明文 的 需要 。 然 而 ， 如 果 解 码 密 钥 也 容易 暴露 的 话 ， 这 种 方法 就 并 不 完 
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全 有 效 了 。 

作为 处 理 易 受 泄露 的 数据 库 密码 的 另 一 种 措施 ， 许 多 数据 库 系 统 对 于 数据 库 的 访问 只 限制 在 给 定 
网 络 地 址 集合 中 ， 该 机 制 通常 运行 在 应 用 服务 器 端 。 从 其 他 网 络 地 址 企图 连接 数据 库 会 被 拒绝 。 这 样 ， 
除非 恶意 用 户 能 够 登录 应 用 服务 器 ， 否 则 即使 她 获取 了 数据 库 密码 的 访问 权限 她 也 无 法 造成 任何 损害 。 
9.7.4 应 用 程序 认证 

认证 是 指 验证 连接 到 应 用 程序 的 人 /软件 的 身份 。 认 证 最 简单 的 形式 由 一 个 密码 构成 ， 当 一 个 用 户 
连接 到 应 用 程序 时 必须 出 示 该 密码 。 遗 憾 的 是 ， 密 码 容易 泄露 ， 例 如 通过 试 猜 ， 或 者 通过 嗅 探 网 络 中 
的 数据 包 ， 如 果 密 码 没有 加 密 就 传送 的 话 。 对 于 关键 应 用 需要 更 健壮 的 方案 ， 比 如 网 上 银行 账户 。 加 
密 是 更 健壮 的 认证 方案 的 基础 。 通 过 加 密 的 认证 在 9. 8. 3 节 讲 述 。 

许多 应 用 使 用 双 因 素 认 证 (two-factor authentication) ， 其 中 两 个 独立 的 因素 ( 即 信息 或 程序 的 片段 ) 
用 于 识别 一 个 用 户 。 这 两 个 因素 不 应 该 具有 相同 的 弱点 ; 例如 ， 如 果 一 个 系统 只 需要 两 个 密码 ， 二 者 
都 可 能 以 同样 的 方式 泄露 ( 例如 通过 网 络 嗅 查 ， 或 通过 用 户 使 用 的 计算 机 上 的 病毒 ) 。 虽 然 诸 如 指纹 或 
虹膜 扫描 仪 的 生物 识别 技术 可 以 用 于 在 认证 点 上 用 户 是 物理 存在 的 情况 ,但 是 跨 网 络 时 它们 就 不 是 很 
有 用 了 。 

在 大 部 分 这 种 双 因 素 认 证 方案 中 ， 密 码 用 作 第 一 个 因素 。 通 过 USB 接口 连接 的 智能 卡 或 其 他 加 密 
设备 ， 可 基于 加 密 技 术 用 于 认证 ( 见 9. 8.3 节 )， 它 们 广泛 用 于 第 二 个 因素 。 

一 次 性 密码 设备 ， 每 分 钟 生成 一 个 新 的 伪 随 机 数 ， 也 广泛 用 于 第 二 个 因素 。 给 每 个 用 户 一 个 设备 ， 
为 了 进行 认证 ， 用 户 必须 输入 认证 时 设备 上 所 显示 的 数字 以 及 密码 。 每 个 设备 生成 不 同 的 伪 随 机 数 序 
列 。 应 用 服务 器 能 够 生成 与 用 户 的 设备 相同 的 伪 随 机 数 序 列 ， 在 认证 时 在 将 显示 的 数字 处 停 下 来 ， 并 
验证 数字 是 否 匹配 。 该 方案 需要 设备 中 与 服务 器 端的 时 钟 始终 是 合理 紧密 同步 的 。 

而 第 二 个 因素 的 另 一 种 方法 是 当 一 个 用 户 想 登 录 一 个 应 用 时 ， 给 用 户 的 手机 (其 号 码 是 早先 已 注 
WAS) 发 送 一 条 包含 (随机 生成 的 ) 一 次 性 密码 的 短信 。 用 户 必 须 拥有 一 部 具有 该 号 码 的 手机 以 接收 短 
信 ， 然 后 将 一 次 性 密码 和 她 的 密码 一 起 输入 用 以 认证 。 

然而 即使 使 用 双 因 素 认 证 ， 用 户 可 能 仍 很 容易 受到 中 间 人 (man-in-the-middle ) 攻击 。 在 这 种 攻击 
中 ， 一 个 试图 连接 应 用 的 用 户 被 转向 一 个 虚假 网 站 ， 它 接受 用 户 的 密码 (包括 第 二 因素 密码 ) ， 并 立即 
用 该 密码 到 原始 应 用 中 认证 。9. 8. 3. 2 节 描 述 的 HTTPS 协议 用 于 为 用 户 认证 网 站 (使 得 用 户 不 会 连接 到 
虚假 网 站 ) 。HTTPS 协议 还 对 数据 加 密 ， 并 防止 中 间 人 攻击 。 

当 用 户 访问 多 个 网 站 时 ， 用 户 通常 会 因为 不 得 不 分 别 在 每 个 网 站 上 认证 自己 而 感到 不 快 ， 通 常 每 
个 网 站 的 密码 是 不 同 的 。 有 系统 允许 用 户 向 一 个 中 央 认 证 服务 进行 认证 ， 并 且 其 他 网 站 和 应 用 可 以 通 
过 中 央 认 证 服务 对 用 户 进行 认证 ; 于 是 相同 的 密码 可 以 用 于 访问 多 个 站 点 。LDAP 协议 广泛 用 于 实现 
这 种 中 央 认 证 点 ; 一 些 机 构 实 现 了 包含 用 户 名 和 密码 信息 的 LDAP 服务 器 ， 并 且 应 用 程序 使 用 LDAP 
服务 器 对 用 户 进行 认证 。 

除了 认证 用 户外 ， 中 央 认 证 服务 还 能 够 提供 其 他 的 服务 ， 例如， 向 应 用 程序 提供 用 户 的 信息 ，E 
WEZ. E-mail 以 及 地 址 信息 。 这 消除 了 在 每 个 应 用 中 分 别 输入 这 些 信息 的 需要 。 如 19. 10.2 ww 
LDAP 可 以 用 于 这 个 任务 。 其 他 的 目录 系统 ， 如 微软 的 活动 目录 ， 也 提供 认证 用 户 以 及 提供 用 户 信 息 
的 机 制 。 

单 点 登录 (single sign-on) 系统 还 允许 用 户 只 认证 一 次 ， 且 多 个 应 用 通过 一 个 认证 服务 对 用 户 的 身份 
进行 验证 ， 而 不 需要 再 次 认证 。 也 就 是 说 ， 一 旦 用 户 登 录 一 个 站 点 ， 他 就 不 需要 在 其 他 使 用 相同 单 点 
登录 服务 的 站 点 输入 他 的 用 户 名 和 密码 。 这 种 单 点 登录 机 制 已 长 期 用 于 网 络 认证 协议 ， 比 如 Kerberos, 
并 且 目 前 已 经 有 面向 Web 应 用 的 实现 。 

安全 断言 标记 语言 ( Security Assertion Markup Language, SAML) 是 一 个 在 不 同安 全 域 间 交换 认证 和 
授权 信息 的 标准 ， 以 提供 跨 机 构 单 点 登录 。 例 如 ， 假设 一 个 应 用 需要 提供 对 一 所 特定 学 校 (比如 说 耶 
鲁 ) 所 有 学 生 的 访问 。 该 学 校 可 以 建立 一 个 基于 Web 的 服务 实施 认证 。 假 设 一 个 连接 到 该 应 用 的 用 户 
具有 用 户 名 ， 比 如 “joe@ yale. edu”。 该 应 用 将 该 用 户 转 向 耶鲁 大 学 的 认证 服务 对 用 户 认证 ， 而 并 不 直 
接 对 用 户 认 证 ， 并 告诉 应 用 该 用 户 是 谁 且 可 能 提供 一 些 额外 的 信息 ， 比 如 用 户 的 类 别 (学 生 或 教师 ) 或 
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者 其 他 相关 的 信息 。 该 用 户 的 密码 以 及 其 他 认证 因素 不 会 显示 给 应 用 ， 并 且 用 户 也 不 需要 对 应 用 程序 
显 式 地 注册 。 不 过 ， 当 认证 用 户 时 ， 该 应 用 程序 必须 信任 学 校 的 认证 服务 。 

OpenID 标准 是 另 一 种 跨 机 构 单 点 登录 的 标准 ， 并 在 近年 来 逐渐 被 接受 。 许 多 流行 的 网 站 ， 比 如 
Google, Microsoft, Yahoo! 等 ， 是 OpenID 认证 提供 方 。 任 何 作为 OpenID 客户 端的 应 用 程序 则 可 以 使 
用 这 些 提供 方 中 的 任意 一 个 来 认证 用 户 ; 例如 ， 一 个 具有 Yahoo! 账户 的 用 户 可 以 选择 Yahoo! 作为 认 
证 提供 方 。 该 用 户 被 重 定向 到 Yahoo! 进行 认证 ， 并 且 成 功 认 证 后 被 透明 地 重 定向 回应 用 程序 ， 并 能 
够 继续 使 用 应 用 程序 。 , 
9.7.5 应 用 级 授权 

虽然 SQL 标准 支持 一 种 比较 灵活 的 基于 角色 的 授权 系统 (如 4.6 节 所 述 ) ， 但 SQL 授权 模型 在 一 个 
典型 应 用 中 对 于 用 户 授权 的 管理 还 是 非常 有 限 的 。 例 如 ， 假 设 你 想 要 所 有 学 生 都 可 以 看 到 他 们 自己 的 
成 绩 ， 但 是 看 不 到 其 他 人 的 成 绩 。 这 样 的 授权 就 无 法 在 SQL 中 表示 ， 原 因 至 少 有 两 点 : 

1. 缺乏 最 终 用 户 信息 。 随 着 Web 规模 的 增长 ， 数 据 库 访问 主要 来 自 Web 应 用 服务 器 。 最 终 用 户 
在 数据 库 本 身上 通常 没有 个 人 用 户 标 识 ， 并 且 数 据 库 中 可 能 只 存在 单个 用 户 标识 对 应 于 应 用 服务 器 的 
所 有 用 户 。 因 此 ，SQL 中 的 授权 规范 在 上 述 情景 中 无 法 使 用 。 





应 用 服务 器 能 够 认证 最 终 用 户 ， 并 继而 将 认证 信息 传递 给 数据 库 。 在 本 节 中 我 们 将 假设 函数 
syscontext. user_id( ) 返回 一 个 正在 执行 的 查询 所 代表 的 应 用 程序 用 户 的 标识 。。 

2. 缺乏 细 粒 度 的 授权 。 如 果 我 们 授权 学 生 只 查看 他 们 自己 的 成 绩 的 话 ， 授 权 必须 是 在 单条 元 组 的 
级 别 上 。 在 目前 的 SQL 标准 中 这 种 授权 是 不 可 能 的 ，SQL 标准 只 允许 在 整个 关系 或 视图 上 ， 或 者 关系 
或 视图 的 指定 属性 上 授权 。 

我 们 可 以 通过 为 每 个 学 生 在 takes 关系 上 创建 一 个 只 显示 该 学 生成 绩 的 视图 ， 绕 过 这 个 限制 。 虽 然 
这 样 在 理论 上 可 行 ， 但 是 这 将 会 非常 繁琐 ， 因 为 我 们 需要 为 学 校 中 每 一 个 注册 的 学 生 创建 一 个 这 样 的 
视图 ， 这 是 非常 不 实际 的 。 5 

另 一 种 方法 是 创建 一 个 视图 形 如 : 


create view studentTakes as 
select ` 
from takes 
where takes. ID = syscontext. user_id( ) 
随即 向 用 户 授权 这 个 视图 ， 而 不 是 底层 的 takes 关系 。 然 而 ， 代 表 学 生 所 执行 的 查询 现在 就 必须 是 在 视 
图 studentTakes 上 ， 而 不 是 原始 takes 关系 上 ， 而 代表 教师 所 执行 的 查询 就 可 能 需要 使 用 不 同 的 视图 。 
结果 开发 应 用 程序 的 任务 变 得 更 为 复杂 。 
目前 ， 授 权 的 任务 通常 全 部 由 应 用 程序 执行 ， 绕 过 SQL 授权 机 制 。 在 应 用 级 别 ， 授 权 用 户 访问 特 
定 接口 ， 并 可 能 进一步 被 限制 只 能 查看 或 更 新 某 些 数据 项 。 
虽然 在 应 用 程序 中 执行 授权 给 应 用 程序 开发 人 员 带 来 很 大 的 灵活 性 ， 但 也 存在 一 些 问 题 : 
。 检查 授权 的 代码 和 应 用 程序 的 其 他 代码 混合 在 一 起 。 
。 通过 应 用 程序 的 代码 实现 授权 ， 而 不 是 在 SQL 声明 中 授权 ， 使 得 难以 确保 没有 漏洞 。 由 于 一 个 
琉 忽 ， 一 个 应 用 程序 可 能 没有 检查 权限 ， 而 允许 未 权限 的 用 户 访问 机 密 数 据 。 
验证 所 有 应 用 程序 都 完成 所 有 需要 的 授权 检查 ， 涉 及 通读 所 有 应 用 服务 器 的 代码 ， 在 一 个 大 的 系 
统 中 是 个 非常 艰巨 的 任务 。 也 就 是 说 ， 应 用 程序 有 一 个 非常 大 的 “表面 积 ”， 这 使 保护 应 用 程序 的 任务 
异常 艰难 。 并 且 事 实 上 ， 安 全 漏洞 在 各 种 实际 生活 应 用 中 都 有 发 现 。 





© ££ Oracle 中 ， 一 个 使 用 Oracle 的 JDBC 驱动 的 JDBC 连接 可 以 用 OracleConnection. setClientIdentifier( userld ) 函数 设 
置 最 终 用 户 标识 ， 并 且 一 个 SQL 查询 可 以 用 sys_context(“ USERENV' , “CLIENT IDENTIFIER’ ) 函数 检索 用 户 标 
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与 此 相反 ， 如 果 一 个 数据 库 直接 支持 细 粒 度 的 授权 ， 则 可 以 在 SQL 级 别 指定 并 强制 执行 授权 规 
则 ， 这 样 表面 积 就 会 小 很 多 。 即 使 一 些 应 用 接口 无 意 中 省 略 了 所 需 的 授权 检查 ，SQL 级 授权 也 能 够 防 
止 非 授 权 操作 的 执行 。 

一 些 数据 库 系 统 提供 了 细 粒 度 的 授权 机 制 。 例 如 ，Oracle 的 虚拟 私有 数据 库 ( Virtual Private 
Database, VPD) 允许 系统 管理 员 将 一 个 函数 关联 一 个 关系 ; 该 函数 返回 一 个 谓词 ， 该 谓词 必须 加 入 到 
任何 一 个 使 用 该 关系 的 查询 中 (对 于 被 更 新 的 关系 可 以 定义 不 同 的 函数 ) 。 例 如 ， 通 过 使 用 我 们 获取 应 
用 程序 用 户 标识 的 语法 ， 关 系 takes 的 函数 可 以 返回 一 个 谓词 ， 比 如 : 


ID = sys_context. user_id( ) 


该 谓词 加 入 到 每 个 使 用 关系 takes 的 查询 的 where 子 句 中 。 结 果 ( 假定 应 用 程序 将 user_id 的 值 设置 为 学 
生 的 ID) ， 每 个 学 生 只 能 看 见 她 选择 的 课程 所 对 应 的 元 组 。 

这 样 ，VPD 提供 了 在 关系 的 指定 元 组 (或 行 ) 上 的 授权 ， 并 因此 称 为 行 级 授权 (row-level 
authorization) 机 制 。 上 述 添加 谓词 的 方法 中 一 个 潜在 的 问题 是 ， 它 可 能 会 显著 地 改变 一 个 查询 的 含义 
例如 ， 如 果 一 个 用 户 写 了 一 条 查询 来 查找 所 有 课程 的 平均 成 绩 ， 她 最 后 将 只 能 得 到 她 的 成 绩 的 平均 值 ， 
而 非 所 有 课程 的 平均 成 绩 。 虽 然 系统 对 于 重 写 的 查询 会 给 出 “正确 的 "答案 ， 但 是 这 个 答案 与 用 户 可 能 
认为 她 所 提交 的 查询 并 不 对 应 。 

关于 Oracle VPD 的 更 多 信息 请 参见 文献 注解 。 

9.7.6 审计 追踪 

审计 追踪 (audit trail) 是 关于 应 用 程序 数据 的 所 有 更 改 (插入 /删除 /更 新 ) 的 日 志 ， 以 及 一 些 信息 ， 
如 哪个 用 户 执行 了 更 改 和 什么 时 候 执 行 的 更 改 。 如 果 应 用 程序 安全 性 被 破坏 ， 或 者 即使 安全 性 没有 被 
破坏 但 是 一 些 更 新 错误 执行 ， 一 个 审计 追踪 能 够 (a) 帮助 找 出 发 生 了 什么 ， 以 及 可 能 是 由 谁 执行 的 操 
作 ,， 并 (b) 帮 助 修 复 安全 漏洞 或 错误 更 新 造成 的 损害 。 

例如 ， 如 果 发 现 一 个 学 生 的 成 绩 不 正确 ， 则 可 以 检查 审计 日 志 ， 以 定位 该 成 绩 是 什么 时 候 以 及 如 

409 | 何 被 更 新 ， 并 找 出 执行 这 个 更 新 的 用 户 。 该 学 校 还 可 以 利用 审计 追踪 来 跟踪 这 个 用 户 所 做 的 所 有 更 新 ， 
从 而 找到 其 他 错误 或 欺骗 性 的 更 新 ， 并 将 它们 更 正 。 

审计 追踪 还 可 以 用 于 探查 安全 漏洞 ， 在 安全 漏洞 中 用 户 账 户 易 泄 露 并 被 入 侵 者 访问 。 例 如 ， 在 用 
户 每 次 登录 时 ， 她 可 能 被 通知 审计 追踪 中 从 最 近 一 次 登录 开始 所 做 的 所 有 更 新 ， 如 果 用 户 发 现 一 个 更 
新 并 不 是 由 她 执行 的 ， 则 有 可 能 该 账户 泄露 。 

可 以 通过 在 关系 更 新 操作 上 定义 适当 的 触发 器 来 创建 一 个 数据 库 级 审计 追踪 (利用 标识 用 户 名 和 
时 间 的 系统 定义 变量 ) 。 然 而 ， 很 多 的 数据 库 系 统 提供 了 内 置 机 制 创 建 审 计 追 踪 ， 使 用 更 加 方便 。 具 体 
如 何 创建 审计 追踪 的 细节 随 数 据 库 系统 的 不 同 而 不 同 ， 具 体 细节 应 参考 数据 库 系统 用 户 手册 。 

数据 库 级 审计 追踪 对 于 应 用 程序 来 说 通常 是 不 够 的 ， 因 为 它们 通常 无 法 追踪 应 用 程序 的 最 终 用 户 
是 谁 。 另 外 ， 它 在 一 个 低级 别 记录 更 新 ， 即 关系 中 元 组 的 更 新 ， 而 并 不 是 在 较 高 的 级 别 ， 即 业务 逻辑 
级 别 。 因 此 ， 应 用 程序 通常 创建 一 个 较 高 级 别 的 审计 追踪 ， 例 如 ， 记 录 执 行 了 什么 操作 、 何 人 、 何 时 ， 
以 及 请 求 源 自 哪 个 IP 地址。 

一 个 相关 的 问题 是 防止 审计 追踪 本 身 被 威胁 应 用 程序 安全 的 用 户 修 改 或 删除 。 一 个 可 能 的 解决 方 
法 是 将 审计 追踪 备份 到 入 侵 者 无 法 访问 的 另 一 台 机 器 中 ,每 条 追踪 记录 一 旦 生成 立即 复制 。 

9.7.7 隐私 

目前 ， 越 来 越 多 的 个 人 数据 都 可 以 在 线 获取 ， 人 们 也 越 来 越 担 心 他 们 的 数据 隐私 。 例 如 ， 大 多 数 
人 都 希望 他 们 的 私人 医疗 数据 保持 私密 而 不 会 公开 暴露 。 但 是 ， 这 些 医疗 数据 又 必须 开放 给 治疗 病人 
的 医生 和 急救 人 员 。 许 多 国家 都 具有 针对 这 种 数据 隐私 的 法 律 ， 定 义 了 数据 在 什么 时 候 以 及 对 谁 可 以 
显示 。 违 反 隐 私法 在 某 些 国家 能 够 导致 刑事 处 罚 。 访 问 这 种 隐私 数据 的 应 用 程序 的 创建 必须 小 心 ， 谨 
记 隐 私法 律 。 

另 一 方面 ， 聚 集 后 的 隐私 数据 在 许多 任务 中 可 以 扮演 重要 的 角色 ， 比 如 检测 药物 的 副作用 ， 或 者 
探查 流行 病 的 蔓延 。 如 何 使 这 些 数据 可 以 为 执行 这 种 任务 的 研究 人 员 所 用 ， 而 又 不 侵犯 个 人 的 隐私 ， 
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这 是 一 个 重要 的 现实 问题 。 例 如 ， 假 定 一 家 医院 隐藏 了 患者 的 名 字 ， 但 是 给 研究 人 员 提 供 了 患者 的 出 
生日 期 和 邮政 编码 (这 二 者 可 能 对 研究 人 员 都 有 用 ) 。 在 很 多 情况 下 ， 仅 使 用 这 两 个 信息 就 可 以 唯一 标 
识 患 者 (使 用 外 部 数据 库 中 的 信息 )， 侵犯 了 他 的 隐私 。 在 这 个 特定 情况 下 ， 一 个 解决 方法 是 随 邮 政 编 
码 一 起 只 提供 出 生年 份 而 不 提供 出 生日 期 ， 这 对 于 研究 人 员 可 能 就 足够 了 。 对 大 多 数 人 ， 这 将 不 足以 
唯一 确定 一 个 人 。 © 

FE—AF, Web 站 点 通常 会 收集 个 人 数据 ， 比 如 地 址 、 电 话 、 电 子 邮 件 以 及 信用 卡 信息 。 这 
种 信息 在 执行 交易 时 可 能 会 需要 ， 比 如 从 商店 购买 商品 。 但 是 ， 顾 客 可 能 不 希望 这 些 信息 公开 给 其 他 
组 织 ,或 者 可 能 希望 其 中 部 分 信息 ( 比如 信用 卡号 码 ) 能 够 在 一 段 时 间 之 后 清除 ， 避 免 它 们 在 发 生 安全 
问题 时 落 入 未 授权 的 人 手中 。 许 多 Web 站 点 允许 客户 指定 他 们 的 隐私 偏好 ,并且 必须 确保 遵守 这 些 偏 
好 设置 。 


9.8 加密 及 其 应 用 


加 密 是 指 将 数据 转换 成 一 种 除非 使 用 反 过 程 解密 否则 不 可 读 的 形式 的 过 程 。 加 密 算法 使 用 一 个 加 
密 密 钥 执行 加 密 ， 并 需要 一 个 解密 密 钥 ( 它 可 以 和 加 密 密 钥 相 同 ， 这 是 由 使 用 的 加 密 算 法 决定 的 ) 来 执 
行 解密 。 

加 密 最 早 是 用 于 发 送 消息 ， 用 一 个 只 有 发 送 者 和 接收 者 知道 的 密 钥 加 密 消息 。 即 使 消息 被 敌 方 截 
获 ， 不 知道 密 钥 的 敌 方 也 将 无 法 解密 并 理解 该 消息 。 今 天 ， 加 密 广泛 使 用 ， 它 在 多 种 应 用 中 保护 传输 
中 的 数据 ， 比 如 互联 网 中 的 数据 传输 ， 以 及 移动 电话 网 络 中 的 数据 传输 。 我 们 将 在 9. 8. 3 节 中 看 到 ， 
加 密 还 用 于 执行 其 他 一 些 任务 ( 比如 身份 验证 ) 。 

在 数据 库 方面 ， 加 密 用 来 以 一 种 安全 的 方式 存储 数据 ， 从 而 即使 数据 被 一 个 未 授权 的 用 户 获 取 ( 例 
如 ， 一 个 包含 数据 的 笔记 本 电脑 被 偷 ) ， 如 果 没 有 解密 密 钥 的 话 数据 也 无 法 访问 。 

目前 ， 许 多 数据 库 都 存储 敏感 客户 信息 ， 比 如 信用 卡号 码 、 姓 名 、 指 纹 、 签 名 以 及 身份 证 号 码 ， 
例如 在 美国 就 是 社会 保险 号 。 一 个 获取 了 这 种 数据 的 访问 权限 的 罪犯 能 够 将 其 用 于 多 种 非法 活动 ， 比 
如 使 用 一 个 信用 卡号 码 购买 物品 ， 或 者 甚至 用 他 人 的 名 字 申 请 信用 卡 。 诸 如 信用 卡 公司 的 机 构 利用 个 
人 信息 来 识别 谁 在 请 求 服务 或 物品 。 这 种 个 人 信息 的 泄露 使 罪犯 可 以 假冒 其 他 人 并 获取 服务 和 物品 ; 
这 种 假冒 称 作 身份 盗窃 (identity theft) 。 因 此 ， 存 储 这 种 敏感 数据 的 应 用 程序 必须 非常 小 心地 保护 它们 
不 被 盗用 。 

为 了 减少 敏感 信息 被 罪犯 获取 的 机 会 ， 目 前 许多 国家 和 州 通过 法 律 要 求 任 何 存 储 这 种 敏感 信息 的 
数据 库 必须 以 加 密 形式 存储 信息 。 因 此 ， 一 个 不 保护 其 数据 的 企业 一 旦 发 生 数据 盗用 ， 就 可 以 被 追究 
刑事 责任 。 因 而 ， 加 密 是 任何 存储 这 种 敏感 信息 的 应 用 程序 的 重要 部 分 。 

9.8.1 加密 技术 

加 密 数 据 的 技术 数不胜数 。 简 单 的 加 密 技术 可 能 无 法 提供 足够 的 安全 性 ， 因 为 未 授权 用 户 可 能 会 
轻易 地 就 将 编码 破译 。 作 为 弱 加 密 技术 的 例子 ,考虑 用 字母 表 中 的 下 一 个 字母 蔡 代 每 个 字母 的 情况 。 
这 样 ， 

Perryridge 
就 变 成 了 
Qfsszsjehf 
如 果 未 授权 用 户 仅仅 看 到 “Qfsszsjehf* ， 她 可 能 还 不 具有 充足 的 信息 破译 编码 。 但 是 ， 如 果 侵 信者 看 到 
大 量 加 密 后 的 支行 名 称 ， 她 就 能 够 使 用 关于 字符 相对 频率 的 统计 数据 来 猜测 所 做 的 替代 是 如 何 的 ( 例 
W, E 是 英语 中 最 常用 的 字母 ， 接 下 来 是 T、4、0、N、1/ 等 )。 
一 个 好 的 加 密 技 术 具 有 如 下 性 质 : 





O ”对 于 年 纪 特别 大 的 人 ， 由 于 比较 稀少 ， 即 使 只 是 出 生年 份 加 上 邮政 编码 都 足以 唯一 确定 一 个 人 ， 因 此 对 于 80 岁 
以 上 的 人 ， 可 以 提供 值 的 一 个 范围 ， 比 如 80 岁 及 以 上 ， 而 不 是 其 实际 年 龄 。 
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。 对 于 授权 用 户 ， 加 密 数 据 和 解密 数据 相对 简单 。 

。 加 密 模 式 不 应 依赖 于 算法 的 保密 ， 而 应 依赖 于 被 称 作 加 密 密 钥 的 算法 参数 ， 该 密 钥 用 于 加 密 数 
据 。 在 对 称 密 钥 (symmetric- key) 加 密 技 术 中 ， 加 密 密 钥 也 用 于 解密 数据 。 相 反 ， 在 公 钥 加 密 
(public-key) (也 称 作 非 对 称 密 钥 (asymmetric-key) ) 加 密 技术 中 ， 存 在 两 个 不 同 的 密 钥 ， 公 钥 和 
私 钥 ， 分 别 用 于 加 密 和 解密 数据 。 

© 对 人 侵 者 来 说 ， 即 使 当 他 已 经 获得 加 密 数 据 的 访问 权限 了 ， 确 定 解 密 密 钥 仍 是 极其 困难 的 。 在 
非 对 称 密 钥 加 密 的 情况 中 ， 即 使 已 有 公 钥 ， 推 断 出 私 钥 也 是 极其 困难 的 。 

扩展 加 密 标准 ( Advanced Encryption Standard, AES) 是 一 种 对 称 密 钥 加 密 算法 ， 它 作为 一 种 加 密 标 
HEF 2000 年 被 美国 政府 所 采用 ， 并 且 目 前 广泛 使 用 。 该 标准 基于 Rijndael (Rijndael algorithm) ( 根 

412] FRIA V. Rijmen il J. Daemen 命名 ) 。 该 算法 每 次 对 一 个 128 位 的 数据 块 操作 ， 密 钥 的 长 度 可 以 是 
128 192 或 256 位 。 该 算法 运行 一 系列 步骤 ， 以 一 种 解码 时 可 逆 的 方式 将 数据 块 中 的 位 打 乱 ， 并 将 其 
与 一 个 来 自 加 密 密 钥 的 128 位 的 “回合 金 钥 ” 做 异 或 操作 。 对 于 每 一 个 加 密 的 数据 块 都 由 加 密 密 钥 生成 
一 个 新 的 回合 金 钥 。 在 解密 过 程 中 ， 再 次 根据 加 密 密 钥 生成 回合 金 钥 ， 并 且 疼 转 加 密 过 程 从 而 恢复 原 
始 数据 。 一 个 称 作 数 据 加 密 标准 (Data Encryption Standard, DES) 的 早期 标准 于 1977 年 采用 ， 并 在 早期 
广泛 使 用 。 

对 于 任意 对 称 密 钥 加 密 模式 的 使 用 ， 授 权 用 户 通 过 一 个 安全 机 制 得 到 加 密 密 钥 。 这 个 要 求 是 它 的 
一 大 弱点 ， 因 为 模式 的 安全 不 高 于 加 密 密 钥 传输 机 制 的 安全 。 

公 钥 加 密 ( public-key encryption ) 是 另 一 种 模式 ， 它 避免 了 对 称 密 钥 加 密 技 术 面 临 的 一 些 问题 。 它 
基于 两 个 密 钥 : 一 个 公 钥 和 一 个 私 钥 。 每 个 用 户 以 有 一 个 公 钥 E 和 一 个 私 钥 D;。 所 有 公 负 都 是 公开 
的 : 任何 人 都 可 以 看 到 。 每 个 私 钥 都 只 由 拥有 它 的 用 户 知道 。 如 果 用 户 U 想 要 存储 加 密 数 据 ，U' 就 
使 用 公 钥 E, 加 密 数 据 。 解 密 需要 私 钥 D, o 

因为 加 密 密 钥 对 每 个 用 户 公 开 ， 所 以 我 们 有 可 能 利用 这 一 模式 安全 地 交换 信息 。 如 果 用 户 U 希望 
与 U, 共享 数据 ， 那 么 U, 就 用 U, 的 公 钥 E, 来 加 密 数 据 。 由 于 只 有 用 户 U, 知道 如 何 对 数据 解密 ， 因 此 
信息 可 以 安全 地 传输 。 

要 使 公 钥 加 密 发 挥 作 用 ， 在 给 定 公 钥 后 ， 必 须 有 一 个 让 人 很 难 推断 出 私 钥 的 加 密 模式 。 这 样 的 模 
式 确 实 存 在 ， 并 且 建 立 在 如 下 条 件 基础 之 上 : 

。 存在 一 个 高 效 算法 ， 测 试 某 个 数字 是 否 为 素数 。 

。 对 于 求解 一 个 数 的 素数 因子 ， 没 有 高 效 算 法 。 

为 了 这 一 模式 ， 数 据 被 看 作 一 组 整数 。 我 们 通过 计算 两 个 大 素数 P, 和 P, 的 积 来 创建 公 钥 。 私 钥 
HCP, P ) 对 构成 。 如 果 只 知道 乘积 P,P, ,解密 算法 无 法 使 用 成 功 ; 它 需 要 已 和 P, 各 自 单独 的 值 。 
由 于 公开 的 只 是 乘积 P,P,， 因 此 未 授权 用 户 为 了 窃取 数据 就 需要 对 P,P, 做 因数 分 解 。 通 过 将 P, A P, 
选 得 足够 大 (超过 100 fiz), 我们 可 以 使 对 P,P, 做 因数 分 解 的 代价 极 高 (即使 在 最 快 的 计算 机 上 ， 计 算 
时 间 也 需要 以 年 来 计算 ) 。 

关于 公 钥 加 密 的 细节 以 及 该 技术 性 质 的 数学 证 明 请 参见 文献 注解 。 

尽管 使 用 上 述 模式 的 公 钥 加 密 是 安全 的 ， 但 是 它 的 计算 代价 很 高 。 一 种 广泛 用 于 安全 通信 的 混合 

413) 模式 如 下 : 随机 产生 一 个 对 称 加 密 密 钥 (例如 基于 AES) ， 使 用 公 钥 加 密 模 式 以 一 种 安全 的 方式 交换 ， 
并 使 用 该 密 钥 对 随后 传输 的 数据 进行 对 称 密 钥 加 密 。 

词典 攻击 ( dictionary attack ) 使 得 对 诸如 标识 符 或 名 字 等 小 值 的 加 密 变 得 复杂 ， 特 别 是 当 加 密 密 钥 
公开 时 。 例 如 ， 如 果 生 日 域 被 加 密 了 ， 当 一 个 攻击 者 试图 对 一 个 特定 的 加 密 值 e 解密 时 ， 他 可 以 试 着 
对 任何 可 能 的 生日 加 密 ， 直 到 他 找到 一 个 生日 ， 其 加 密 后 的 值 与 e 匹配 。 即 使 当 加 密 密 钥 未 公开 ， 也 
可 以 利用 数据 分 布 的 统计 信息 找 出 一 个 加 密 的 值 在 一 些 情况 下 代表 什么 ， 比 如 年 龄 或 邮政 编码 。 例 如 ， 
如 果 在 数据 库 中 18 岁 是 最 普遍 的 年 龄 ， 则 加 密 后 的 年 龄 值 中 出 现 最 多 的 通常 可 推断 出 代表 18, 

可 以 通过 在 加 密 之 前 往 值 的 末尾 添加 额外 随机 位 (并 在 解码 后 将 其 删除 ) 来 防止 词典 攻击 。 这 种 额 
外 位 在 AES 中 称 为 初始 化 矢量 (initialization vector) ， 或 在 其 他 情况 下 称 为 salt 位 ， 它 能 面 对 词 典 攻 击 提 
供 良好 的 保护 。 


A 
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9. 8.2 数据 库 中 的 加 密 支 持 

当前 ， 许 多 文件 系统 和 数据 库 系 统 都 支持 数据 加 密 。 这 种 加 密使 数据 免 受 那 些 能 够 访问 数据 却 无 
法 访问 解密 密 钥 的 人 的 攻击 。 在 文件 系统 加 密 的 情况 下 ， 要 加 密 的 数据 通常 是 大 文件 以 及 包含 文件 信 
息 的 目录 。 

而 在 数据 库 的 情况 下 ， 加 密 可 以 在 多 个 不 同 级 别 上 进行 。 在 最 低 的 级 别 上 ， 使 用 数据 库 系统 软件 
的 密 钥 ， 可 以 加 密 包 含 数据 库 数 据 的 磁盘 块 。 当 从 磁盘 上 获取 一 个 磁盘 块 时 ， 它 先 被 解密 然后 以 平常 
的 方式 使 用 。 这 种 磁盘 块 级 别 的 加 密 抵 御 了 那些 能 访问 磁盘 内 容 但 不 能 访问 密 钥 的 攻击 者 。 

在 一 个 高 级 别 上 ， 关 系 中 指定 的 (或 所 有 的 ) 属性 可 以 用 加 密 的 形式 存储 。 在 这 种 情况 中 ， 关 系 的 
每 个 属性 可 以 具有 不 同 的 加 密 密 钥 。 目 前 ， 许 多 数据 库 支持 指定 属性 级 别 的 加 密 以 及 整个 关系 所 有 级 
别 或 者 数据 库 中 所 有 关系 的 加 密 。 指 定 属性 的 加 密 通过 让 应 用 程序 只 对 诸如 信用 卡号 码 等 包含 敏感 值 
的 属性 加 密 ， 最 小 化 解密 的 开销 。 然 而 ， 虽 然 单个 属性 或 关系 可 以 加 密 ， 但 是 数据 库 通常 不 允许 主 码 
和 外 码 属性 加 密 ， 并 不 支持 加 密 属性 上 的 索引 。 如 前 文 所 述 ， 加 密 还 需要 使 用 额外 随机 位 来 防止 词典 
攻击 。 

为 了 访问 加 密 的 数据 ， 显 然 需 要 一 个 解密 密 钥 。 单 个 主 加 密 密 钥 可 能 用 于 所 有 的 加 密 数 据 ， 在 属 
性 级 别 的 加 密 中 ， 可 以 对 不 同 的 属性 使 用 不 同 的 加 密 密 钥 。 在 这 种 情况 下 ， 可 以 将 不 同属 性 的 解密 密 
钥 保 存在 一 个 文件 或 关系 中 (通常 称 为 “ 钱 夹 ") ， 它 本 身 也 用 主 密 钥 加 密 。 

一 个 需要 访问 加 密 属 性 的 数据 库 的 连接 必须 提供 主 密 钥 ; 除非 提供 了 主 密 钥 ， 否 则 该 连接 将 无 法 
访问 加 密 数据 。 主 密 钥 要 保存 在 应 用 程序 中 (通常 在 一 台 不 同 的 计算 机 上 ) ， 或 者 由 数据 库 用 户 记 住 ， 
并 在 用 户 连 接 到 数据 库 时 提供 。 

数据 库 级 别 的 加 密 具 有 需要 相对 小 的 时 空 开销 的 优点 ， 并 且 不 需要 对 应 用 程序 进行 修改 。 例 如 ， 
如 果 笔 记 本 电脑 数据 库 中 的 数据 需要 防范 来 自 计 算 机 本 身 的 窃贼 ， 就 可 以 使 用 这 种 加 密 。 类 似 地 ， 访 
问 数据 库 备 份 磁带 的 人 ， 如 果 没 有 解密 密 钥 则 将 不 能 访问 磁带 中 包含 的 数据 。 

在 数据 库 中 执行 加 密 的 另 一 个 方法 是 在 数据 发 送 到 数据 库 之 前 对 其 加 密 。 于 是 ， 应 用 程序 则 必须 
在 将 数据 发 送 给 数据 库 之 前 对 其 加 密 ， 并 当 获取 到 数据 时 对 其 解密 。 与 在 数据 库 系统 中 执行 加 密 不 同 ， 
这 种 数据 加 密 方法 需要 对 应 用 程序 进行 大 量 的 修改 。 

9.8.3 加 密 和 认证 

基于 密码 的 认证 广泛 用 于 操作 系统 和 数据 库 。 然 而 ， 密 码 的 使 用 具有 一 些 缺 陷 ， 特 别 是 在 网 络 上 
的 时 候 。 如 果 一 个 窃听 者 能 够 “窃听 ”网 络 上 传送 的 数据 ， 她 就 可 能 能 够 当 密码 在 网 络 上 传送 时 找到 密 
码 。 一 旦 窃听 者 具有 用 户 名 和 密码 ， 她 就 可 以 假装 成 合法 用 户 连接 到 数据 库 。 

一 个 较为 安全 的 机 制 包括 一 个 询问 - 回答 ( challengE-Response ) 系统 。 数 据 库 系 统 发 送 一 个 询问 字 
符 串 给 用 户 ， 用 户 用 一 个 密码 作为 加 密 密 钥 对 询问 字符 串 加 密 ， 然 后 返回 结果 。 数 据 库 系统 可 以 通过 
用 同样 的 密码 把 字符 串 解 密 并 检查 结果 是 不 是 和 原始 询问 字符 串 一 样 来 验证 用 户 的 身份 。 这 个 机 制 确 
保 没有 密码 在 网 络 上 传输 。 

公 钥 系统 可 以 在 询问 - 回答 系统 中 用 于 加 密 。 数 据 库 系 统 使 用 用 户 的 公 钥 加 密 询 问 字 符 串 ， 并 把 
它 发 送 给 用 户 。 用 户 用 她 的 私 钥 对 字符 串 解密 ， 并 把 结果 返回 给 数据 库 系统 。 数 据 库 系统 随后 检查 该 
应 答 。 这 个 方案 具有 新 增 的 优势 ， 它 不 在 可 能 被 系统 管理 员 看 到 的 数据 库 中 存储 密码 。 

将 一 个 用 户 的 私 钥 存储 在 计算 机 (甚至 是 个 人 计算 机 ) 中 是 有 风险 的 ， 如 果 该 计算 机 受到 攻击 ， 密 
钥 可 能 会 暴露 给 攻击 者 ， 该 攻击 者 就 可 以 假冒 该 用 户 。 智 能 卡 (smart card) 对 于 该 问题 提供 了 一 种 解决 


方案 。 在 一 张 智 能 卡 中 ， 密 码 可 以 存储 在 一 块 蔡 入 的 芯片 中 ; 智能 卡 的 操作 系统 保证 该 密码 绝对 不 会 [ 


被 读 取 ， 但 是 允许 数据 被 发 送 至 卡 上 ， 使 用 私 钥 进行 加 密 或 解密 。 
9.8.3.1 数字 签名 
公 钥 加 密 的 另 一 个 有 趣 的 应 用 是 数字 签名 ( digital signature) ， 它 用 来 验证 数据 的 真实 性 ; 数字 签名 





O 智能 卡 也 提供 了 其 他 功能 ， 比 如 数字 化 现金 存储 和 支付 ， 不 过 这 与 我 们 的 讨论 无 关 。 
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扮演 文档 上 物理 签名 的 电子 角色 。 私 钥 用 来 对 数据 “签名 "， 即 加 密 ， 且 签名 后 的 数据 可 以 公开 。 所 有 
人 都 可 以 通过 用 公 钥 解密 数据 来 验证 签名 ， 但 没有 私 钥 的 人 无 法 生成 签名 的 数据 。( 注意 在 这 个 方案 中 
公 钥 和 私 钥 角色 的 互 换 ) 这 样 ， 我 们 就 可 以 认证 (authenticate ) 该 数据 ; 也 就 是 我 们 可 以 验证 数据 确实 是 
由 声称 创建 这 些 数据 的 人 所 创建 。 

另外 ， 数 字 签 名 也 可 以 用 来 确保 认可 (nonrepudiation) 。 也 就 是 ， 在 一 个 人 创建 了 数据 过 后 声称 她 
没有 创建 它 ( 声 称 没有 签 支票 的 电子 等 价 ) 的 情况 下 ， 我 们 可 以 证 明 那 个 人 肯定 创建 了 该 数据 (除非 她 
的 私 钥 被 泄露 给 其 他 人 ) 。 

9. 8.3.2 数字 证 书 

通常 认证 是 一 个 双向 的 过 程 ， 交 互 实体 的 双方 都 要 向 对 方 认证 自己 的 身份 。 这 种 成 对 的 认证 是 很 
有 必要 的 即使 当 客户 端 访问 一 个 Web 站 点 时 ， 可 以 防止 一 个 恶意 站 点 冒充 成 一 个 合法 的 Web 站 点 。 例 
如 ， 如 果 网 络 路 由 器 被 攻击 了 ， 数据 被 重新 路 由 到 恶意 站 点 的 时 候 ， 这 种 冒充 就 可 能 发 生 。 

为 了 确保 用 户 与 真实 的 Web 站 点 交互 ， 她 必须 拥有 该 站 点 的 公 钥 。 这 带 来 了 一 个 问题 : 该 用 户 如 
何 获取 公 钥 一 一 如 果 公 钥 存 储 在 该 Web 站 点 上 ， 亚 意 站 点 也 可 以 提供 一 个 不 同 的 密 铀 ， 用 户 将 无 法 验 
证 提供 的 公 钥 是 否 是 真实 的 。 认 证 可 以 通过 数字 证 书 ( digital certificate) 系统 来 处 理 ， 公 钥 由 一 个 公 钥 
公开 的 认证 机 构 签 名 。 例 如 ， 根 认证 机 构 的 公 钥 保存 在 标准 的 Web 浏览 器 中 。 它 们 签署 的 证 书 可 以 使 
用 保存 的 公 钥 来 验证 。 

两 级 系统 将 会 给 根 认证 机 构 带 来 创建 证 书 这 一 巨大 负担 ， 因 此 采用 多 级 系统 取而代之 ， 该 系统 有 
一 个 或 多 个 根 认 证 机 构 ， 并 在 每 个 根 认证 机 构 下 有 一 棵 认证 机 构 树 。 每 个 机 构 ( 除 了 根 机构 ) 都 有 其 父 
机 构 签 署 的 一 个 数字 证 书 。 

416 认证 机 构 4 签署 的 一 个 数字 证 书 由 一 个 公 钥 K 和 一 个 可 以 用 公 钥 K 解密 的 加 密 文本 巨 构成 。 该 
加 密 文 本 包括 该 证 书签 发 给 的 团体 名 称 以 及 它 的 公 钥 Ke 。 在 认证 机 构 A 不 是 根 认证 机 构 的 情况 下 ， 该 
加 密 文本 还 包含 由 其 父 认证 机 构 签发 给 A 的 数字 证 书 ; 这 个 证 书 认证 了 密 钥 K 本 身 。( 该 证 书 可 能 依 
次 包含 上 一 级 父 机 构 的 证 书 ， 直 至 根 机 构 ) 

要 验证 一 个 证 书 ， 加 密 文本 E 通 过 使 用 公 钥 K, 解密 从 而 获得 团体 名 称 ( 即 拥有 该 网 站 的 机 构 的 名 
称 ); 另外 ， 如 果 4 不 是 一 个 根 机 构 ， 其 公 钥 K, 会 递归 地 使 用 E 中 包含 的 数字 证 书 进 行 验证 ; 递归 在 
由 根 机 构 签发 的 证 书 到 达 时 终止 。 对 证 书 的 验证 建立 起 一 个 认证 特定 站 点 的 链 ， 并且 提供 了 站 点 的 名 
称 以 及 认证 的 公 钥 。 

数字 证 书 广泛 用 于 为 用 户 认 证 Web 站 点 ， 以 防止 恶意 站 点 冒充 成 其 他 Web 站 点 。 在 HITPS 协议 
(HTTP 协议 的 安全 版 本 ) 中 ， 站 点 向 浏览 器 提供 它 的 数字 证 书 ， 然 后 浏览 器 将 证 书 显示 给 用 户 。 如 果 
用 户 接 受 该 证 书 ， 浏 览 器 则 使 用 提供 的 公 钥 来 加 密 数 据 。 一 个 恶意 的 站 点 将 能 够 访问 该 证 书 ， 但 是 不 
能 访问 私 钥 ， 因 此 无 法 解密 浏览 器 发 送 的 数据 。 只 有 拥有 相应 私 钥 的 真实 站 点 ， 能 够 解密 浏览 器 发 送 
的 数据 。 我 们 注意 到 公 钥 / 私 钥 加 密 和 解密 的 代价 远 远 高 于 使 用 对 称 私 钥 进 行 加 密 / 解 密 的 代价 。 为 了 
减少 加 密 代价 ，HTTPS 实际 上 在 认证 之 后 创建 一 个 一 次 性 的 对 称 密 钥 ， 并 在 随后 的 会 话 中 采用 该 对 称 
密 钥 加 密 数 据 。 

数字 证 书 也 可 以 用 于 认证 用 户 。 用 户 必 须 向 站 点 提交 一 个 包含 她 的 公 钥 的 数字 证 书 ， 该 站 点 验证 
该 证 书 是 由 一 个 可 信 的 机 构 签 发 。 而 后 该 用 户 的 公 钥 则 可 以 用 在 询问 - 应 答 系 统 中 ， 以 确保 用 户 拥有 
相应 的 私 钥 ， 并 以 此 认证 用 户 。 


9.9 总 结 


。 在 后 端 使 用 数据 库 并 与 用 户 交互 的 应 用 程序 自 20 世纪 60 年 代 以 来 一 直 在 使 用 。 应 用 程序 架构 在 此 
期 间 不 断 发 展 。 目 前 ， 大 多 数 应 用 程序 都 使 用 Web 浏览 器 作为 它们 的 前 端 ， 数 据 库 作 为 它们 的 后 
端 ， 以 及 一 个 应 用 服务 器 介 于 其 间 。 
© HTML 提供 了 定义 将 超 链接 与 表单 功能 相 结 合 的 界面 的 能 力 。Web 浏览 器 通过 HTTP 协议 与 Web 服 
务 器 通信 。Web 服务 器 可 以 将 请 求 传递 给 应 用 程序 ， 并 将 结果 返回 浏览 器 。 
417 © Web 服务 器 执行 应 用 程序 以 实现 所 需 的 功能 。servlet 是 一 个 广泛 使 用 的 机 制 ， 它 用 于 编写 能 够 作为 
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Web 服务 器 进程 的 一 部 分 运行 的 应 用 程序 ， 从 而 减少 开销 。 另 外 还 存在 几 种 由 Web 服务 器 解释 的 服 


务 器 端 脚本 语言 ， 作 为 Web 服务 器 的 一 部 分 提供 应 用 程序 功能 。 
Javascript 使 用 最 为 广泛 


有 多 种 客户 端 脚本 语言 








在 浏览 器 端 提 供 更 丰富 的 用 户 交 互 。 
复杂 的 应 用 程序 通常 具有 一 个 多 层 的 架构 ， 包 括 一 个 实现 业务 逻辑 的 模型 、 一 个 控制 器 ， 以 及 一 个 


用 于 显示 结果 的 查看 机 制 。 它 们 可 能 还 包括 一 个 实现 了 对 象 - 关系 映射 的 数据 访问 层 。 许 多 应 用 程 
序 实现 并 使 用 Web 服务 ， 人 允许 在 HTTP 上 调用 函数 。 


目前 已 经 开发 出 了 许多 工具 用 于 快速 应 用 开发 ， 特 别 是 用 来 减少 构建 用 户 界 面 所 需 的 工作 。 

诸如 多 种 形式 的 缓存 (包括 查询 结果 缓存 和 连接 池 ) 以 及 并 行 处 理 的 技术 用 于 提高 应 用 程序 性 能 。 

应 用 程序 开发 人 员 必 须 小 心 注意 安全 问题 ， 以 防止 受到 攻击 ， 比 如 SQL 注入 攻击 及 跨 站 点 脚本 攻击 。 
SQL 授权 机 制 是 粗 粒 度 的 ， 并 且 对 于 处 理 大 量 用 户 的 应 用 只 具有 有 限 的 价值 。 目 前 ， 应 用 程序 完全 


在 数据 库 系 统 之 外 实现 了 细 粒 度 的 、 元 组 级 别 的 授权 ， 以 处 理 大 量 应 用 程序 用 户 。 提 供 元 组 级 访问 
控制 和 处 理 大 量 应 用 程序 用 户 的 数据 库 扩展 已 开发 出 ， 但 还 没有 成 为 标准 。 


保护 数据 的 隐私 是 数据 库 应 用 的 一 项 重要 任务 。 许 多 国家 都 有 法 律 规定 保护 某 些 类 型 的 数据 ， 比 如 
信用 卡 信息 或 医疗 数据 。 
加 密 在 保护 信息 以 及 认证 用 户 和 Web 站 点 中 扮演 了 关键 角色 。 对 称 密 钥 加 密 和 公 钥 加 密 是 两 种 相对 


立 但 广泛 应 用 的 加 密 方法 。 在 许多 国家 和 州 ， 对 存储 在 数据 库 中 的 某 些 敏感 数据 的 加 密 是 法 律 规 


定 的 。 


。 加 密 还 在 为 应 用 程序 认证 用 户 、 为 用 户 认证 Web 站 点 以 及 数字 签名 中 扮演 了 关键 角色 。 
术语 回顾 


应 用 程序 

数据 库 的 Web 界面 

超 链接 

统一 资源 定位 符 (URL) 
表单 

超 文 本 传输 协议 (HTTP) 
公共 网 关 接 口 (CGI) 
无 连接 协议 

cookie 

会 话 

servlet 及 servlet 会 话 
服务 器 端 脚本 

JSP 

PHP 

ASP. NET 

客户 端 脚本 

Javascript 


文档 对 象 模型 (DOM ) 


实践 习题 
虽然 Java 程序 通常 要 比 C 或 C ++ 程序 运行 得 慢 ， 而 servlet 却 比 使 用 公共 网 关 接 口 ( CGI) 的 程序 性 能 好 


9. 1 


9.2 
9:3 


的 主要 原因 是 什么 ? 


小 应 用 程序 

应 用 程序 架构 
展示 层 

模型 -视图 - 控制 器 
( MVC) ) 架构 

业务 逻辑 层 

数据 访问 层 

对 象 -关系 映射 
Hibernate 

超 文 本 标记 语言 (HTML) 
Web 服务 

REST 服务 
快速 应 用 开发 

Web 应 用 框架 

报表 生成 器 

连接 池 

查询 结果 缓存 

应 用 程序 安全 性 


列 出 无 连接 协议 相 比较 有 连接 协议 的 优 缺 点 。 


考虑 为 在 线 购 物 系统 写 的 一 个 未 经 仔细 编写 的 Web 应 用 程序 ， 该 应 用 程序 将 每 件 商品 的 价格 以 隐藏 的 
表单 变量 保存 在 发 送 给 顾客 的 页 面 中 ; 当 顾 客 提交 表单 时 ， 隐 藏 的 表单 变量 中 的 信息 用 于 计算 顾客 的 


SQL 注入 

跨 站 点 脚本 ( XSS) 

跨 站 点 请 求 伪造 ( XSRF) 
认证 

双 因 素 认证 

中 间 人 攻击 

中 央 认 证 

单 点 登录 

OpenID 

虚拟 私有 数据 库 (VPD) 
审计 追踪 

加 密 

对 称 密 钥 加 密 

公 钥 加 密 

词典 攻击 

询问 - 回答 

数字 签名 

数字 认证 


418 
| 
419 


账单 。 这 个 设计 中 的 漏洞 在 哪里 ”( 有 一 个 真正 的 实例 ， 其 中 在 探测 并 解决 问题 之 前 ， 在 线 购物 系统 
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420 
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的 顾客 使 该 漏洞 暴露 了 出 来 。) 

9.4 考虑 未 经 仔细 编写 的 另 一 个 Web 应 用 程序 ， 它 使 用 servlet 检查 是 否 有 活动 的 会 话 ， 但 并 不 检查 用 户 是 
和 否 授权 访问 某 页 面 ， 而 依靠 指向 页 面 的 连接 只 显示 给 已 授权 用 户 的 事实 。 这 种 机 制 下 的 缺陷 是 什么 ? 
(有 一 个 真正 的 实例 ， 其 中 某 个 学 校 招 生 站 点 的 申请 者 在 登录 网 站 后 可 以 利用 这 个 漏洞 ， 并 且 可 以 查 
看 他 们 没有 授权 查看 的 信息 ; 然而 ， 此 未 授权 的 访问 被 探测 出 来 了 ， 访 问 该 信息 的 人 由 于 违反 招生 规 
定 而 被 惩罚 。) 

9.5 列 出 使 用 缓存 提高 Web 服务 器 性 能 的 三 种 方式 。 

9.6 netstat 命令 (在 Linux 和 Windows 中 可 用 ) 显示 计算 机 上 活动 的 网 络 连接 。 试 解释 如 何 使 用 该 命令 以 发 
现 是 否 某 网 页 将 不 关闭 它 所 打开 的 连接 ， 或 者 是 否 使 用 了 连接 池 并 且 不 将 连接 返回 连接 池 。 你 应 该 考 
虑 到 使 用 连接 池 的 时 候 ， 连 接 可 以 不 立即 关闭 。 

9.7 SQL 注入 漏洞 的 检测 : 

a. 提出 一 个 检测 应 用 程序 的 方法 ， 以 发 现在 文本 输入 上 是 否 容易 受到 SQL 注入 攻击 。 
b. SQL 注入 能 够 与 其 他 形式 的 输入 一 同 出 现 吗 ? 如 果 可 以 ， 你 要 如 何 检测 漏洞 呢 ? 

9.8 为 了 安全 ， 一 个 数据 库 关 系 可 能 对 某 些 属性 的 值 加 密 。 数 据 库 系统 为 什么 不 支持 加 密 属 性 上 的 索引 呢 ? 
用 你 对 这 个 问题 的 答案 解释 为 什么 数据 库 系 统 不 允许 主 码 属性 上 的 加 密 。 

9.9 练习 9.8 提出 了 在 某 些 属性 上 加 密 的 问题 。 然 而 ， 一 些 数据 库 系统 支持 整个 数据 库 的 加 密 。 试 解释 练 
习 9.8 中 提出 的 问题 在 加 密 整 个 数据 库 时 该 如 何 避 人 免 。 

9.10 ”假设 某 人 假冒 一 个 公司 并 得 到 了 一 个 证 书 授予 机 构 颁发 的 证 书 。 这 对 于 被 假冒 公司 认证 的 事物 (例如 
购买 订单 或 者 程序 等 ) ， 以 及 对 于 其 他 公司 认证 的 事物 有 什么 影响 ? 

9.11 在 任何 数据 库 系 统 中 ， 最 重要 的 数据 项 或 许 都 是 用 来 控制 数据 库 访 问 的 密码 。 为 密码 的 安全 存储 设计 
一 个 机 制 ， 确 保 你 的 机 制 允 许 系统 检测 由 试图 登录 系统 的 用 户 所 提供 的 密码 。 

习题 

9.12 为 下 面 这 个 非常 简单 的 应 用 写 一 个 servlet 以 及 关联 的 HTML 代码 : 允许 用 户 提交 一 个 表单 ， 该 表单 包 
含 一 1 T * "号 。 

9.13 为 下 面 这 个 简单 应 用 写 一 个 servlet 以 及 关联 的 HTML 代码 : 允许 用 户 提交 一 个 表单 ， 该 表单 包含 一 个 
数字 ， 比 如 说 n， 然 后 得 到 一 个 响应 说 出 数值 n 在 此 前 提交 的 次 数 。 每 个 数值 此 前 提交 的 次 数 应 当 存 
储 在 数据 库 中 。 

9.14 写 一 个 对 用 户 进 行 认证 的 servlet( 基于 存储 在 数据 库 关系 中 的 用 户 名 和 密码 ) ， 并 在 验证 通过 之 后 设置 
一 个 名 为 userid 的 会 话 变量 。 

9.15 什么 是 SQL 注入 攻击 ? 解释 它 的 工作 原理 ， 以 及 必须 采取 什么 措施 以 预防 SQL 注入 攻击 。 

9. 16 编写 管理 连接 池 的 伪 码 。 你 的 伪 码 必须 包括 一 个 创建 连接 池 的 函数 ( 以 数据 库 连 接 字符 串 、 数 据 库 用 
户 名 和 密码 作为 输入 参数 ) ， 一 个 向 连接 池 请 求 连接 的 函数 ， 一 个 将 连接 归还 连接 池 的 函数 以 及 关闭 
连接 池 的 函数 。 

9.17 解释 术语 CRUD All REST, 

9.18 目前 ,许多 网 站 都 使 用 Ajax 提供 丰富 的 用 户 界面 。 列 出 两 个 不 需要 看 源码 即 可 表明 站 点 使 用 Ajax 的 
特点 。 利 用 上 述 特点 ， 找 到 三 个 使 用 Ajax 的 站 点 ; 你 可 以 查看 网 页 的 HTML 源码 以 检验 该 网 站 是 否 
真正 使 用 了 Ajax。 

9.19 XSS 攻击 : 

a. XSS 攻击 是 什么 ? 
b. 如何 使 用 引用 页 域 以 探查 XSS 攻击 ? 
9.20 什么 是 多 因素 认证 ? 它 是 如 何 帮助 防止 密码 被 盗 的 ? 
9.21 考虑 9.7.5 节 所 述 的 Oracle 虚拟 私有 数据 库 ( VPD ) 功能 ， 以 及 一 个 基于 大 学 模式 的 应 用 


© 应 该 生成 什么 谓词 (使 用 子 查询 ) 以 使 每 个 教员 只 看 见 和 他 们 所 教 课程 相关 联 的 takes 元 组 。 

。 给 出 一 个 SQL 查询 ， 使 得 添加 了 谓词 的 查询 的 结果 是 未 添加 谓词 的 原始 查询 的 结果 的 子 集 。 

。 给 出 一 个 SQL 查询 ， 使 得 添加 了 谓词 的 查询 的 结果 包含 一 条 不 在 未 添加 谓词 的 原始 查询 的 结果 中 
的 元 组 。 
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9. 22 ”对 存储 在 数据 库 中 的 数据 加 密 有 哪 两 个 好 处 ? 

9.23 ”假定 你 希望 对 关系 takes 的 变化 建立 审计 追踪 ; 

a 定义 触发 器 来 建立 审计 追踪 ， 把 日 志 信 息 记 入 一 个 关系 ， 例 如 takes_trail。 日 志 信 息 应 包括 用 户 i 
(假设 函数 user_id( ) 提供 该 信息 ) 和 一 个 时 间 惟 ， 以 及 旧 的 和 新 的 值 。 你 还 要 提供 takes_trail 关系 
的 模式 。 

b. 以 上 实现 方法 是 否 能 保证 由 恶意 数据 库 管理 员 ( 或 者 那些 设法 得 到 管理 员 密 码 的 人 ) 所 做 的 更 新 也 
会 被 审计 追踪 。 解 释 你 的 答案 。 

9.24 ”黑客 能 够 欺骗 你 相信 他 们 的 Web 站 点 实际 上 是 你 所 信任 的 一 个 Web 站 点 ( 比如 一 家 银行 或 者 信用 卡 
Web 站 点 ) 。 他 们 可 以 使 用 误导 性 的 电子 邮件 ， 或 者 甚至 通过 入 侵 网 络 基础 设施 将 目的 地 为 ( 比如 ) 
mybank. com 的 网 络 传输 重新 路 由 到 黑客 的 网 站 。 如 果 你 在 黑客 的 站 点 上 输入 用 户 名 和 密码 ， 该 站 点 
就 会 把 它 记录 下 来 ， 以 后 就 能 用 它 来 侵入 你 在 真实 站 点 的 账户 。 当 你 使 用 一 个 URL， 比 如 https: // 
mybank. com，HTTPS 协议 可 以 用 来 防止 这 样 的 攻击 。 解 释 该 协议 如 何 使 用 数字 证 书 来 验证 站 点 的 合 


法 性 。 


9.25 解释 什么 是 用 于 验证 的 询问 - 应 答 系 统 。 为 什么 它 比 传统 的 基于 密码 的 系统 更 安全 ? 


项 目 建 议 


下 面 都 是 较 大 的 项 目 ， 可 以 由 一 组 学 生 在 一 个 学 期 内 完成 。 项 目的 难度 可 以 通过 增加 或 者 减少 功能 来 


项 目 9.1 


项 目 9.2 


项 目 9.3 


项 目 9.4 


项 目 9.5 


项 目 9.6 
项 目 9.7 


选 一 个 你 最 喜爱 的 交互 网 站 ， 比 如 Bebo, Blogger, Facebook, Flickr, Last. FM, Twitter, 
WikiPedia; 这 只 是 一 些 例子 ， 还 有 更 多 其 他 的 交互 网 站 。 这 些 网 站 中 的 大 部 分 都 管理 大 量 
的 数据 ， 并 使 用 数据 库存 储 并 处 理 这 些 数据 。 实 现 你 挑选 的 一 个 网 站 的 功能 的 子 集 。 需 要 
明确 的 是 ， 即 使 实现 这 种 网 站 的 功能 的 一 个 有 意义 的 子 集 也 远 超 过 了 一 个 课程 设计 要 求 的 
工作 量 ， 不 过 可 以 找 一 些 有 趣 的 功能 来 实现 ， 足 够 满足 课程 设计 的 工作 量 即 可 

目前 流行 的 网 站 大 部 分 都 大 量 使 用 JavaScript 创建 丰富 的 界面 。 搭 建 这 种 界面 非常 耗 时 ， 
所 以 至 少 在 最 初 你 可 能 会 希望 用 它 实 现 你 的 项 目的 界面 ， 然 后 在 时 间 人 允许 的 情况 下 再 添加 
更 多 的 功能 。 利 用 Web 应 用 开发 框架 或 网 上 的 Javascript 库 ， 比 如 Yahoo 用 户 界 面 库 ， 来 加 
快 你 的 开发 。 
创建 一 个 “混合 网 站 ”， 即 用 诸如 Google 或 Yahoo 地 图 API 的 Web 服务 创建 一 个 交互 网 站 。 
例如 ， 这 些 地 图 API 提供 一 种 在 网 页 上 展示 地 图 及 在 地 图 上 重 释 的 其 他 信息 的 方法 。 你 可 以 
实现 一 个 餐厅 推荐 系统 ， 使 用 用 户 提交 的 餐厅 信息 ， 比 如 位 置 、 美 食 、 价 格 范围 以 及 评分 信 
息 。 用 户 搜索 的 结果 可 以 在 地 图 上 显示 。 你 可 以 允许 类 Wikipedia 的 功能 ， 比 如 让 用 户 可 以 
添加 信息 并 编辑 其 他 用 户 添 加 的 信息 ， 并 安排 可 以 删除 恶意 更 新 的 审阅 人 。 你 还 可 以 实现 社 
区 功能 ， 比 如 给 你 的 朋友 提供 的 评分 更 高 的 权重 。 
你 的 学 校 可 能 使 用 了 一 个 课程 管理 系统 ， 比 如 Moodle, Blackboard 或 WebCT。 实 现 这 样 一 种 
课程 管理 系统 的 功能 的 子 集 。 例 如 ， 你 可 以 提供 作业 提交 和 评分 功能 ， 包括 为 学 生 和 老师 / 
助教 提供 讨论 作业 的 评分 的 机 制 。 你 还 可 以 提供 问卷 调查 或 其 他 机 制 以 获得 反馈 。 
考虑 实践 习题 7.3( 第 7 章 ) 中 的 E-R 模型 ， 它 表示 一 个 联赛 中 各 队 的 信息 。 设 计 并 实现 一 个 
基于 Web 的 系统 来 输入 、 更 新 和 查看 这 些 数据 。 
设计 并 实现 一 个 购物 车 系统 ， 该 系统 可 以 让 购买 者 将 商品 放置 到 购物 车 中 ( 你 可 以 决定 为 每 
件 商 品 提供 的 信息 ) ， 最 后 一 起 购买 。 你 可 以 扩展 并 使 用 第 7 章 中 习题 7. 20 中 的 E-R 模式 
你 应 该 检查 商品 是 否 有 货 并 用 你 觉得 适合 的 方式 处 理 商 品 缺 货 的 情况 。 
设计 并 实现 一 个 基于 Web 的 系统 为 一 所 大 学 的 课程 记录 学 生 注 册 信息 和 成 绩 信息 。 
设计 并 实现 一 个 系统 记录 课程 表现 信息 一 一 具体 来 说 ， 即 每 个 学 生 在 每 门 课程 中 的 每 次 作业 
或 考试 中 所 获得 的 分 数 ， 以 及 对 各 项 成 绩 进 行 ( 加权) 求 和 以 得 到 课程 总 成 绩 。 作 业 / 考 试 的 
数量 不 可 以 预先 定义 ; 即 ， 任 何 时 候 都 可 以 加 入 更 多 的 作业 或 考试 。 该 系统 还 应 该 可 以 支持 
等 级 评定 ， 人 允许 对 于 不 同 的 级 别 指定 分 隔 点 。 

你 也 可 以 将 它 与 项 目 9.6 中 的 学 生 注册 系统 ( 可 能 由 另 一 个 项 目 组 实现 ) 相 结合 。 
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项 目 9.8 


项 目 9.9 


项 目 9. 10 


项 目 9.11 


项 目 9. 12 


项 目 9. 13 


项 目 9. 14 


项 目 9. 15 


项 目 9. 16 


设计 和 实现 一 个 基于 Web 的 系统 ， 用 来 在 你 的 学 校 中 预订 教室 。 它 必须 支持 周期 性 的 预订 
(整个 学 期 中 每 周 固定 的 天 /时 间 ) ， 也 要 支持 在 周期 性 预订 中 取消 某 个 指定 的 讲座 。 

你 也 可 以 将 它 与 项 目 9.6 中 的 学 生 注册 系统 (可 能 由 另 一 个 项 目 组 实现 ) 相 结合 ， 这 样 可 
以 为 课程 预订 教室 ， 取 消 讲座 或 新 增 额外 讲座 可 以 通过 一 个 单独 的 界面 来 记录 ， 并 且 要 将 其 
反映 到 教室 预订 情况 中 ， 然 后 通过 电子 邮件 通知 给 所 有 的 学 生 。 
设计 并 实现 一 个 系统 ， 管 理 在 线 的 多 选 题 考试 。 你 应 该 支持 分 布 式 的 考题 提交 ( 由 助教 提 
交 ) ， 负 责 该 课程 的 人 可 以 编辑 题目 ， 并 且 可 以 从 已 有 的 考题 集合 中 创建 试卷 。 你 还 应 该 能 
够 在 线 管理 考试 ， 可 以 让 所 有 学 生 都 在 一 个 固定 的 时 间 参 加 考试 ;或 者 让 学 生 在 任何 时 间 都 
可 以 开始 考试 ， 但 是 从 开始 到 结束 有 一 个 时 间 限 制 ( 支持 一 种 或 者 两 种 方案 都 支持 ) ， 并 且 规 
定时 间 结 束 时 将 成 绩 反 馈 给 学 生 。 
设计 并 实现 一 个 系统 ， 管 理 电子 邮件 顾客 服务 。 到 达 的 电子 邮件 进入 一 个 公用 的 缓冲 池 中 。 
一 组 顾客 服务 代理 人 负责 答复 电子 邮件 。 如 果 某 封 电子 邮件 是 正在 答复 的 序列 的 一 部 分 (用 
电子 邮件 的 in-reply-to 域 来 跟踪 ) ， 这 个 邮件 应 该 由 早先 答复 它 的 那个 代理 人 来 答复 。 系 统 
应 该 追踪 所 有 到 达 的 邮件 和 答复 ， 这 样 代理 人 可 以 在 答复 一 封 电 子 邮件 之 前 看 到 顾客 以 前 
问 过 的 所 有 问题 。 
设计 并 实现 一 个 简单 的 电子 商场 ， 该 电子 商场 可 以 按照 不 同 的 类 别 ( 应 该 形成 一 个 层次 结 
构 ) 列 出 用 于 销售 或 购买 的 商品 。 你 可 能 还 希望 支持 提醒 服务 : 一 个 用 户 可 以 在 某 一 个 特定 
类 别 中 注册 自己 感 兴趣 的 商品 ， 也 许 还 有 一 些 其 他 限制 ， 而 不 公开 她 的 兴趣 ， 当 这 样 的 商 
品 促销 时 ， 系 统 会 通知 该 用 户 。 
设计 并 实现 一 个 基于 Web 的 新 闻 组 系统 ， 用 户 应 该 可 以 订阅 新 闻 组 ， 并 且 浏 览 新 闻 组 中 的 
文章 。 该 系统 跟踪 用 户 阅 读 过 的 文章 使 它们 不 会 再 次 显示 。 该 系统 还 提供 对 旧 文 章 的 搜索 
支持 。 你 可 能 还 希望 提供 文章 的 评分 服务 ， 这 样 ， 高 分 的 文章 高 亮度 显示 ， 从 而 使 繁忙 的 
用 户 可 以 跳 过 低 分 的 文章 。 
设计 并 实现 一 个 基于 Web 的 系统 ， 管 理 一 个 运动 “梯子 "。 许 多 人 来 注册 ， 并 给 予 初始 的 排 
名 (可 能 基于 以 前 的 表现 )。 任 何人 可 以 通过 比赛 挑战 其 他 人 ， 而 排名 按照 比赛 结果 进行 相 
应 的 调整 。 一 个 调整 排名 的 简单 系统 仅 是 当 胜 者 原先 排 在 败 者 后 面 时 ， 在 排名 中 将 胜 者 移 
到 败 者 的 前 面 。 你 也 可 以 尝试 实现 更 加 复杂 的 排名 调整 系统 。 
设计 并 实现 一 个 出 版 物 列表 服务 。 这 个 服务 应 该 允许 输入 有 关 出 版 物 的 信息 ， 例 如 书号 、 
作者 、 年 份 、 出 版 物 出 现 地 点 、 页 数 等 。 作 者 应 该 是 一 个 具有 属性 (如 名 字 、 机 构 、 部 门 、 
电子 邮件 、 地 址 和 主页 ) 的 单独 实体 。 

你 的 应 用 应 该 支持 同一 数据 的 多 个 视图 。 例 如 ， 你 应 该 提供 某 个 给 定 作者 的 所 有 出 版 
物 ( 比如 按 年 份 排序 ) ， 或 者 提供 来 自 某 个 给 定 机 构 或 部 门 的 作者 的 所 有 出 版 物 。 你 也 应 该 
支持 在 整个 数据 库 或 每 个 视图 上 按 关键 词 搜索 。 
所 有 组 织 中 的 一 项 常见 任务 是 收集 一 组 人 的 结构 化 信息 。 例 如 ， 一 个 经 理 可 能 需要 要 求职 
员 输 入 他 们 的 休假 计划 ; 一 个 教授 可 能 希望 从 学 生 中 收集 关于 某 个 特定 主题 的 反馈 ; 或 者 
一 个 组 织 活动 的 学 生 和 希望 允许 其 他 学 生 注 册 活 动 ， 或 者 某 人 和 希望 针对 某 个 主题 进行 一 个 在 
线 投票 。 

建立 一 个 允许 用 户 很 容易 创建 信息 收集 活动 的 系统 。 当 创建 一 个 活动 时 ， 该 活动 的 创 
建 人 必须 定义 谁 是 有 资格 参加 的 ， 为 了 达到 这 个 目的 ， 你 的 系统 必须 维护 用 户 信息 ， 并 且 
允许 定义 一 个 用 户 子 集 的 谓词 。 活 动 的 创建 人 应 当 能 够 指定 一 组 用 户 需 要 提供 的 输入 (有 类 
型 、 默 认 值 和 有 效 性 检查 ) 。 活 动 应 当 关联 一 个 截止 时 间 ， 并 能 够 向 尚未 提交 信息 的 用 户 发 
送 通知 。 活 动 创建 者 可 以 选择 是 在 指定 的 日 期 或 时 间 自 动 执行 截止 ,还 是 登录 系统 然后 宣 
布 截止 。 提 交 信 息 的 统计 信息 能 够 生成 一 一 为 了 达到 这 个 目的 ， 应当 允许 活动 创建 者 对 输 
入 的 信息 建立 简单 的 汇总 。 活 动 创建 者 可 以 选择 将 部 分 汇总 信息 公开 以 让 所 有 用 户 都 能 查 
看 ， 要 么 持续 地 ( 比如 有 多 少 人 已 经 响应 ) ， 要 么 在 截止 期 之 后 ( 比如 平均 回馈 分 值 ) 。 
建立 一 个 函数 库 以 简化 Web 界面 的 生成 。 你 必须 至 少 实现 以 下 函数 : 显示 JDBC 结果 集 ( 以 
表格 形式 ) 的 函数 ， 创 建 不 同 种 类 的 文本 和 数字 输入 ( 带 有 验证 规则 ， 比 如 输入 类 型 和 可 选 


HIS 应 用 设计 和 开发 239 


范围 ， 在 客户 端 用 适当 的 Javascript 代码 执行 ) 的 函数 ,输入 日 期 和 时 间 值 ( 带 有 默认 值 ) 的 
函数 ， 基 于 结果 和 集 生 成 菜单 项 的 函数 。 要 得 到 加 分 ， 可 以 允许 用 户 设 置 格式 参数 ， 比 如 颜 
色 和 字体 ， 以 及 在 表格 中 提供 分 页 支持 (隐藏 的 表单 参数 可 以 用 来 指示 需要 显示 的 页 ) 。 建 
立 一 个 数据 库 应 用 样 例 以 展示 这 些 函 数 的 使 用 。 

项 目 9.17 设计 并 实现 一 个 基于 Web 的 多 用 户 日 历 系统 。 该 系统 需 追 踪 每 个 用 户 的 约会 ， 包 括 多 发 事 
件 ， 如 周 会 ， 及 共享 事件 (事件 创建 者 更 新 事件 将 反映 至 所 有 分 享 该 事件 的 用 户 ) 。 系 统 需 
提供 安排 多 用 户 事件 的 界面 ， 该 界面 允许 事件 创建 者 添加 受 邀 请 的 用 户 。 系 统 需 提 供 事件 
的 电子 邮件 通知 。 要 得 到 加 分 ， 可 以 实现 一 个 Web 服务 ， 该 服务 可 以 用 在 客户 端 上 运行 的 
提醒 程序 中 。 


工具 


开发 一 个 Web 应 用 需要 多 个 软件 工具 ， 比 如 应 用 服务 器 、 编 译 器 、 像 Java 或 C# 这 样 的 程序 设计 语言 的 
编辑 器 以 及 其 他 可 选 的 工具 ， 比 如 Web 服务 器 。 有 一 些 对 Web 应 用 开发 提供 支持 的 集成 开发 环境 。 两 款 最 
流行 的 开源 IDE 为 [BM 开发 的 Eclipse 以 及 Sun 微 系统 开发 的 Netheans。 微 软 的 Visual Studio 是 在 Windows 环 
境 中 使 用 最 为 广泛 的 IDE。 

支持 servlet 和 JSP 的 应 用 服务 器 包括 Apache Tomcat ( jakarta. apache. org), Glassfish ( glassfish. 
dev. java. net) , JBoss( jboss. org) 以 及 Caucho 的 Resin ( www. caucho. com), Apache Web 服务 器 (apache. org) 
是 目前 使 用 最 为 广泛 的 Web 服务器。 微软 的 IIS( Internet Information Services ) 是 一 款 广 泛 用 于 微软 Windows 
平台 并 支持 微软 的 ASP. NET( msdn. microsoft. com/asp. net ) 的 Web 兼 应 用 服务 器 - 

IBM 的 WebSphere( www. software. ibm. com) 为 Web 应 用 开发 和 部 署 提供 了 许多 软件 工具 ， 包 括 应 用 服务 
器 、IDE、 应 用 集成 中 间 件 、 业 务 流程 管理 软件 以 及 系统 管理 工具 。 

上 述 工具 中 有 些 是 开源 软件 可 以 免费 使 用 ， 有 些 对 于 非 商 业 用 途 或 个 人 使 用 是 免费 的 ， 而 另外 一 些 则 
需要 付费 。 更 多 信息 可 查看 各 相关 网 站 。 

Yahoo! 用 户 界面 (YUI) 的 JavaScript 库 ( developer. yahoo. com/yui) 广 泛 用 于 创建 跨 浏 览 器 的 JavaScript 
程序 。 


文献 注解 


AX servlet 的 信息 ， 包 括 指南 、 标 准 说 明和 软件 ， 可 以 在 java. sun. con/products/servlet 上 找到 。 有 关 
JSP 的 信息 可 以 在 java. sun. com/ products/jsp 上 找到 。 关 于 JSP 标签 库 的 信息 也 能 在 该 URL 上 找到 。 关 于 
. NET 框架 的 信息 以 及 关于 使 用 ASP. NET 进行 Web 应 用 开发 的 信息 可 以 在 msdn. microsoft. com 上 找到 

Atreya [2002 | 提供 了 涵盖 数字 签名 的 教科 书 ， 其 中 包括 X. 509 数字 证 书 以 及 公 钥 基础 设施 。 
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数据 存储 和 查询 





虽然 数据 库 系 统 提 供 了 数据 的 高 层 视图 ， 但 最 终 数据 必须 以 比特 的 形式 存储 在 一 个 或 多 
个 存储 设备 上 。 如 今 ， 绝 大 多 数 的 数据 库 将 数据 存储 在 磁盘 上 (而 且 越 来 越 多 地 在 闪存 上 )， 

并 将 数据 取 入 内 存 用 于 处 理 ， 或 者 将 数据 拷贝 到 磁带 和 其 他 备份 设备 上 用 于 归档 存储 。 存 储 
设备 的 物理 特性 对 数据 的 存储 方式 影响 重大 ， 这 尤其 是 因为 对 磁盘 上 随机 数据 片段 的 访问 比 
内 存 访问 慢 得 多 : 磁盘 访问 需要 几 十 毫秒 ， 而 内 存 访 问 只 需 十 分 之 一 微 秒 。 

第 10 章 从 物理 存储 介质 的 概览 开始 ， 包 括 将 由 于 故障 而 引起 数据 委 失 的 可 能 性 最 小 化 的 
机 制 。 然 后 ， 该 章 描述 记录 是 如 何 映射 到 文件 ， 然 后 又 如 何 映射 到 磁盘 中 的 比特 的 。 

许多 查询 只 涉及 了 文件 中 一 小 部 分 的 记录 。 索 引 是 一 种 有 助 于 无 须 检查 所 有 记录 而 快速 
定位 所 需 关 系 记录 的 结构 ， 本 教材 的 索引 就 是 一 个 索引 的 实例 ， 尽 管 它 是 为 人 使 用 的 ， 这 与 
数据 库 索 引 不 同 。 第 11 章 描 述 数据 库 系 统 使 用 的 几 种 索引 类 型 。 

用 户 查询 的 执行 必须 基于 存放 在 存储 设备 中 的 数据 库 的 内 容 。 我 们 可 以 方便 地 将 查询 分 
成 一 些 更 小 的 操作 ， 这 些 操作 可 以 大 致 对 应 于 关系 代数 操作 。 第 12 章 描 述 如 何 处 理 查询 ， 并 
给 出 用 于 实现 单独 操作 的 算法 ， 然 后 概述 为 了 处 理 查询 ， 这 些 操作 是 如 何 同步 执行 的 。 

处 理 一 个 查询 有 许多 可 选 的 方法 ， 这 些 方法 的 执行 代价 有 很 大 的 不 同 。 查 询 优化 是 指 寻 [427] 
找 执行 一 个 给 定 查询 的 最 低 代 价 方法 的 过 程 。 第 13 章 描 述 查 询 优 化 过 程 。 |428 
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前 面 各 章 强调 了 数据 库 的 较 高 层 模型 。 例 如 ， 在 概念 层 或 逻辑 层 上 ， 我 们 认为 关系 模型 中 的 数 
据 库 是 表 的 集合 。 的 确 ， 数 据 库 用 户 需要 关注 的 层次 正 是 数据 库 的 逻辑 模型 。 因 为 数据 库 系统 的 目 
标 是 简化 和 协助 对 数据 的 访问 ， 数 据 库 系统 的 用 户 不 必 被 系统 实现 的 物理 细节 所 困扰 。 

但 是 ， 在 本 章 以 及 第 11 章 、 第 12 章 和 第 13 章 ， 作 为 对 较 低层 的 研究 ， 我 们 将 描述 实现 前 几 章 
给 出 的 数据 模型 和 语言 的 不 同方 法 。 我 们 将 从 基本 存储 介质 (如 磁盘 和 磁带 系统 ) 的 特性 开始 ， 然 后 
我 们 将 定义 不 同 的 数据 结构 ， 这 些 数据 结构 使 我 们 能 够 快速 地 访问 数据 。 我 们 将 考虑 几 种 可 供 选择 
的 数据 结构 ， 各 种 数据 结构 适合 于 不 同类 型 的 数据 访问 。 数 据 结构 的 最 终 选 择 依赖 于 系统 的 使 用 方 
式 和 特定 机 器 的 物理 特性 。 


10.1 物理 存储 介质 概述 


大 多 数 计算 机 系统 中 存在 多 种 数据 存储 类 型 。 可 以 根据 访问 数据 的 速度 ， 购 买 介质 时 每 单位 数 
据 的 成 本 ， 以 及 介质 的 可 靠 性 对 这 些 存储 介质 进行 分 类 。 以 下 是 几 种 有 代表 性 的 介质 : 

。 高 速 缓冲 存储 器 ( cache) 。 高 速 缓冲 存储 器 是 最 快 最 昂贵 的 存储 介质 。 高 速 缓冲 存储 器 一 般 很 

小 ， 由 计算 机 系统 硬件 来 管理 它 的 使 用 。 在 数据 库 系统 中 ， 我们 不 需要 考虑 高 速 缓冲 存储 器 
的 存储 管理 。 但 值得 注意 的 是 ， 在 设计 查询 处 理 的 数据 结构 和 算法 时 ,数据库 实现 者 也 会 注 
意 高 速 缓冲 存储 器 的 影响 。 

o 主 存储 器 ( main memory ) 。 主 存储 器 是 用 于 存放 可 处 理 的 数据 的 存储 介质 。 通 用 机 器 指令 在 主 
存储 器 上 执行 。 尽 管 在 个 人 电脑 上 的 主 存储 器 可 以 包含 几 个 GB 的 数据 ， 甚 至 在 大 型 服务 器 
系统 中 包含 数 百 个 GB 的 数据 ， 但 是 一 般 情况 下 它 对 于 存储 整个 数据 库 来 说 还 是 太 小 (或 太 昂 
贵 )。 如 果 发 生 电 源 故 障 或 者 系统 崩 演 ， 主 存储 器 中 的 内 容 通 常会 丢失 。 

© 快 闪存 储 器 (flash memory) 。 快 内 存储 器 不 同 于 主 存 储 器 的 地 方 是 在 电源 关闭 (或 故障 ) 时 数 
据 可 保存 下 来 。 目 前 有 两 种 类 型 的 快 闪 存储 器 ， 称 作 NAND 和 NOR 快 闪 。 对 于 既定 价格 ， 
NAND 快 内 拥有 更 高 的 存储 容量 ， 并 且 广 泛 作 为 一 些 设备 的 数据 存储 使 用 ,例如 照相 机 、 音 
乐 播放 器 和 手机 ， 同 时 也 越 来 越 多 地 用 于 笔记 本 电脑 。 相 比 于 主 存储 器 ， 快 闪存 储 器 拥有 每 
字 节 更 低 的 价格 ， 以 及 具有 非 易 失 性 ， 即 便 电 源 切断 ， 它 也 能 保留 存储 的 数据 。 

快 闪 存储 器 还 广泛 地 用 于 在 “USB 盘 " 中 存储 数据 ,， 它 可 以 插入 电脑 设备 的 通用 串 行 总 线 
( Universal Serial Bus，USB ) 槽 。 这 种 USB 盘 已 经 成 为 在 计算 机 系统 之 间 传 输 数据 的 流行 手段 (以 前 的 
软盘 起 相同 的 作用 ， 但 如 今 它 因 有 限 的 容量 而 废弃 ) 。 

在 存储 中 等 数量 数据 时 ， 快 内 存储 器 也 在 作为 磁盘 存储 器 的 替代 品 越 来 越 多 地 使 用 。 这 种 磁盘 
驱动 器 替代 品 就 是 所 谓 的 固态 驱动 器 (solid-state drive) 。 在 2009 年 ,一 个 64GB 的 固态 硬盘 驱动 器 售 
价 不 到 200 美元 ， 并 且 容 量 范围 可 达 160CB。 此 外 ， 快 内 存储 器 广泛 使 用 在 服务 器 系统 中 ， 通 过 组 
存 经 常 使 用 的 数据 来 提高 性 能 ， 因 为 它 提 供 比 磁盘 更 快 的 访问 速度 ， 和 比 主 存储 器 更 大 的 存储 容量 
(对 于 既定 价格 )。 

© 磁盘 存储 器 ( magnetic-disk storage) 。 用 于 长 期 联机 数据 存储 的 主要 介质 是 磁盘 。 通 常 整个 数 

据 库 都 存储 在 磁盘 上 。 为 了 能 够 访问 数据 ， 系 统 必 须 将 数据 从 磁盘 移 到 主 存储 器 。 在 完成 指 
定 的 操作 后 ， 修 改过 的 数据 必须 写 回 磁盘 。 
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在 2009 年 ， 磁盘 容量 从 80GB 到 1. 5TB， 并 且 1TB 的 磁盘 价格 约 为 100 美元 。 磁 盘 容 量 
以 大 约 每 年 50% 的 速度 增长 ， 而 且 每 年 我 们 都 可 以 预期 有 更 大 容量 的 磁盘 出 现 。 磁 盘存 储 器 
不 会 因为 系统 故障 和 系统 崩溃 丢失 数据 。 磁 盘存 储 设备 本 身 有 时 可 能 会 发 生 故 障 ， 导 致 数据 
的 毁坏 ,但 是 发 生 磁盘 故障 的 概率 比 发 生 系统 崩 演 的 概率 小 得 多 。 
光学 存储 器 ( optical storage) 。 光 学 存储 器 最 流行 的 形式 是 光盘 ( Compact Disk, CD), CTAR 
纳 大 约 700MB 的 数据 ， 播 放 约 80 分 钟 。 数 字 视 频 光 盘 (Digital Video Disk, DVD) 的 每 一 盘面 
可 以 容纳 4.7GB 或 者 8.5GB 的 数据 (一 张 双 面 盘 最 多 可 以 容纳 17GB 的 数据 ) 。 可 以 用 数字 万 
能 光盘 ( digital versatile disk ) 代替 数字 视频 光盘 (digital video disk) 作为 DVD 的 全 称 ， 因 为 DVD 
可 以 存储 任何 数字 数据 ， 而 不 仅仅 是 视频 数据 。 数 据 通过 光学 的 方法 存储 到 光盘 上 ， 并 通过 
激光 器 读 取 。 一 种 称 作 蓝光 (Bi -ray)DVD 的 更 高 容量 格式 可 以 单 层 存储 27GB 或 双 层 存储 
54GB 数据 。 

用 于 只 读 光 盘 (CD-ROM) 和 只 读 DVD( DVD-ROM) 的 光盘 是 不 可 写 的 ， 但 是 提供 预先 记 
录 的 数据 。 有 些 “ 记 录 一 次 ”的 光盘 (CD-R) 和 DVD(DVD-R 和 DVD+R) 只 可 以 写 一 次 ， 这 样 
的 光盘 也 称 为 写 一 次 读 多 次 ( Write-Once，Read-Many , WORM) 光盘。 也 有 “ 写 多 次 "的 光盘 
(CD-RW) 和 DVD(DVD-RW, DVD + RW 和 DVD-RAM) ， 它 们 都 可 以 多 次 写 人 数据 。 

自动 光盘 机 (jukebox) 系统 包含 少量 驱动 器 和 大 量 可 按 要 求 (通过 机 械 手 ) 自动 装 人 某 一 驱 
动 器 的 光盘 。 
磁带 存储 器 (tape storage) 。 磁 带 存储 器 主要 用 于 备份 数据 和 归档 数据 。 尽 管 磁带 比 磁盘 便宜 
得 多 ， 但 是 访问 数据 也 比 磁 盘 慢 得 多 ， 这 是 因为 磁带 必须 从 头 顺 序 访问 。 因 为 这 个 原因 ， 磁 
带 存储 器 称 为 顺序 访问 (sequential-access ) 的 存储 器 。 相 对 而 言 ， 磁 盘存 储 器 称 为 直接 访问 
(direct-access) 的 存储 器 ， 因 为 它 可 以 从 磁盘 的 任何 位 置 读 取 数 据 。 

磁带 具有 很 大 的 容量 (现在 的 磁带 可 以 容纳 40 ~300GB 的 数据 ) ， 并 且 可 以 从 磁带 设备 中 
移出 ， 因 此 它们 非常 适合 进行 便宜 的 归档 存储 。 磁 带 库 ( 自动 磁带 机 ) 用 于 存储 异常 巨大 的 数 
据 集 合 ， 比 如 可 能 有 几 百 TB(1TB = 1075447) 的 卫星 数据 ， 或 少数 情况 下 甚至 是 若干 PB 的 数 





据 (1PB = 10° 字 节 ) 。 


根据 不 同 存储 介质 的 速度 和 成 本 ， 可 以 把 它们 按 层次 结构 组 织 起 来 ( 见 图 10-1) 。 层 次 越 


种 存储 介质 的 成 本 就 越 贵 , 但 是 速度 
就 越 快 。 当 我 们 沿 着 层次 结构 向 下 ， 
存储 介质 每 比特 的 成 本 下 降 , 但 是 访 
问 时 间 会 增加 。 这 种 权衡 是 合理 的 : 
如 果 某 一 存储 系统 比 另 一 种 存储 系统 
快 并 且 便 宜 ( 其 他 特性 相同 ) ， 那 么 就 
没有 理由 使 用 那 种 又 慢 又 昂贵 的 存储 
系统 。 实 际 上 ， 当 磁带 和 半导体 存储 
器 变 得 更 快 更 便宜 时 ， 很 多 早期 存储 
设备 ， 包 括 纸 带 机 和 磁 心 存储 器 ， 都 
进 了 博物 馆 。 当 磁盘 还 很 昂贵 并 且 只 
有 很 小 的 存储 容量 时 ， 我 们 用 磁带 存 
储 正在 使 用 的 数据 。 但 是 在 今天 ， 几 









































乎 所 有 正在 使 用 的 数据 都 存储 在 磁盘 

上 ， 只 在 极 少数 情况 下 存储 在 磁带 或 人 i: 

自动 光盘 机 中 。 es 
最 快 的 存储 介质 ( 例如 高 速 缓冲 存 ES Aeneas 





储 器 和 主 存储 器 ) 称 为 基本 存储 (primary storage) 。 层 次 结构 中 基本 存储 介质 的 下 一 层 介 质 ( 例如 磁 
盘 ) 称 为 辅助 存储 ( secondary storage ) 或 联机 存储 ( online storage) 。 层 次 结构 中 最 底层 的 介质 (如 磁带 
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机 和 自动 光盘 机 ) 称 为 三 级 存储 (tertiary storage) 或 脱 机 存储 (offline storage ) 。 

不 同 存 储 系统 除了 速度 和 成 本 不 同 之 外 ， 还 存在 一 个 存储 易 失 性 的 问题 。 易 失 性 存储 (volatile 

storage) 在 设备 断 电 后 将 丢失 所 有 内 容 。 在 图 10-1 所 示 的 层次 结构 中 ， 从 主 存储 器 向 上 的 存储 系统 都 

是 易 失 性 存储 ， 而 主 存储 器 之 下 的 存储 系统 都 是 非 易 失 性 存储 。 为 了 保护 数据 ， 必 须 将 数据 写 到 非 
易 失 性 存储 (nonvolatile storage) 中 去 。 我 们 将 在 第 16 章 重 新 闻 述 这 个 问题 。 


10.2 磁盘 和 快 内 存储 器 


磁盘 为 现代 计算 机 系统 提供 了 绝 大 部 分 的 辅助 存储 。 尽 管 磁盘 容量 每 年 都 在 增长 ,但 是 大 型 应 
用 对 存储 容量 的 需求 也 在 快速 增长 ， 在 有 些 情况 下 其 至 比 磁盘 容量 的 增长 还 要 快 。 一 个 非常 大 型 的 
数据 库 可 能 需要 上 百 张 磁盘 。 近 几 年 来 ， 快 闪存 储 器 存储 容量 快速 增加 ， 并 且 在 一 些 应 用 中 逐渐 成 
为 磁盘 存储 的 竞争 者 。 
10.2.1 磁盘 的 物理 特性 

磁盘 在 物理 上 是 相对 简单 的 ( 见 图 10-2) 。 磁 盘 的 每 一 个 盘 片 (platter) 是 扁平 的 圆 盘 。 它 的 两 个 
表面 都 覆盖 着 磁性 物质 ， 信 息 就 记录 在 表面 上 。 盘 片 由 硬 金 属 或 玻璃 制 成 。 








图 10-2 ”磁盘 移动 头 机 制 


当 磁 盘 被 使 用 时 ， 驱 动 马 达 使 磁盘 以 很 高 的 恒定 速度 旋转 (通常 为 每 秒 60、90 或 120 转 ， 也 可 
达到 每 秒 250 转 ) 。 有 一 个 读 写 头 恰好 位 于 盘 片 表面 的 上 方 。 盘 片 的 表面 从 逻辑 上 划分 为 磁道 
(track) ， 磁 道 又 划分 为 扇 区 (sector) 。 扇 区 是 从 磁盘 读 出 和 写 和 人 信息 的 最 小 单位 。 对 于 现在 的 磁盘 ， 
扇 区 大 小 一 般 为 $12 字 节 ， 每 一 个 盘 片 有 约 50 000 ~ 100 000 条 磁道 ， 每 条 磁盘 有 1 ~5 个 盘 片 。 内 
侧 的 磁道 ( 离 转 轴 近 的 地 方 ) 长度 较 短 ， 在 现代 的 磁盘 中 ， 外 侧 的 磁道 比 内 侧 的 磁道 拥有 更 多 的 扇 
区 。 一 般 而 言 ， 内 侧 每 磁道 大 约 包含 500 ~ 1000 个 扇 区 ， 而 外 侧 每 磁道 大 约 包 含 1000 ~ 2000 + 
区 。 对 于 不 同 模式 的 磁盘 ， 上 面 的 数字 会 有 变化 ， 高 容量 的 模式 通常 在 每 条 磁道 上 含有 更 多 的 扇 区 ， 
而 且 在 每 个 盘 片 上 有 更 多 的 磁道 。 

通过 反 转 磁性 物质 磁化 的 方向 ， 读 写 头 (read-write head) 将 信息 磁化 存储 到 扇 区 中 。 

磁盘 的 每 个 盘 片 的 每 一 面 都 有 一 个 读 写 头 ， 读 写 头 通过 在 盘 片 上 移动 来 访问 不 同 的 磁道 。 一 张 
磁盘 通常 包括 很 多 个 盘 片 ， 所 有 磁道 的 读 写 头 安装 在 一 个 称 为 磁盘 筑 ( disk arm) 的 单独 装置 上 ， 并 且 
一 起 移动 。 安 装 在 转轴 上 的 所 有 磁盘 盘 片 和 安装 在 磁盘 臂 上 的 所 有 读 写 头 统称 为 磁头 - 磁盘 装置 
(head-disk assembly) 。 因 为 所 有 盘 片 上 的 读 写 头 一 起 移动 ， 所 以 当 某 一 个 盘 片 的 读 写 头 在 第 i 条 磁道 
上 时 ， 所 有 其 他 盘 片 的 读 写 头 也 都 在 各 自 盘 片 的 第 i 条 磁道 上 。 因 此 ， 所 有 盘 片 的 第 i 条 磁道 合 在 一 
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起 称 为 第 i 个 柱 面 (cylinder) 。 

现在 ,市 场 上 占 主导 地 位 的 是 盘 片 直径 为 3.5 英寸 的 磁盘 。 它 们 比 早先 流行 的 大 直径 磁盘 (可 以 
达到 14 英寸 ) 成 本 低 、 寻 道 时 间 快 (由 于 寻 道 距离 变 短 ) ， 而 且 还 可 以 提供 更 大 的 存储 容量 。 小 直径 
磁盘 用 于 便携 设备 (如 笔记 本 电脑 ， 以 及 手持 电脑 和 便携 音乐 播放 器 ) 。 

为 了 增 大 记录 密度 ， 读 写 头 尽 可 能 地 靠近 磁盘 盘 片 的 表面 。 读 写 头 一 般 浮 于 盘 片 表面 之 上 几 微 
米 ; 磁盘 的 旋转 产生 微风 ， 而 磁头 装置 的 形状 使 其 在 微风 作用 下 恰好 浮 于 盘 片 表面 之 上 。 因 为 读 写 
头 离 盘 片 表面 非常 近 ， 所 以 盘 片 必须 制作 得 非常 平 。 

读 写 头 损 坏 是 一 个 问题 。 如 果 读 写 头 接触 到 盘 片 的 表面 ， 读 写 头 会 刮 掉 磁 盘 上 的 记录 介质 ， 破 
坏 存放 在 那里 的 数据 。 在 早期 的 磁盘 上 ， 读 写 头 接触 盘 片 表面 所 刊 掉 的 介质 将 散落 到 其 他 盘 片 及 其 
读 写 头 之 间 ， 引 起 更 多 的 损坏 ， 因 此 一 个 读 写 头 的 损坏 可 能 导致 整 张 磁盘 失效 。 目 前 使 用 的 磁盘 驱 
动 器 使 用 一 层 磁 金 属 薄膜 作为 存储 记录 的 介质 。 这 样 的 磁盘 和 以 前 的 涂 氧 化 膜 的 磁盘 相 比 ， 不 易 因 
为 读 写 头 损坏 而 产生 故障 。 

磁盘 控制 器 ( disk controller) 作为 计算 机 系统 和 实际 的 磁盘 驱动 器 硬件 之 间 的 接口 。 在 现代 磁盘 
系统 中 ， 磁 盘 控 制 器 在 磁盘 驱动 单元 内 部 实现 。 它 接受 高 层次 的 读 写 扇 区 的 命令 ， 然 后 开始 动作 ， 
如 移动 磁盘 臂 到 正确 的 磁道 ， 并 实际 地 读 写 数据 。 磁 盘 控 制 器 为 它 所 写 的 每 个 扇 区 附加 校 验 和 
(checksum ) ， 校 验 和 是 从 写 到 扇 区 中 的 数据 计算 得 到 的 。 当 读 取 一 个 扇 区 时 ， 磁 盘 控 制 器 用 读 到 的 
数据 再 一 次 计算 校 验 和 ， 并 且 把 它 与 存储 的 校 验 和 比较 。 如 果 数 据 被 破坏 ， 则 新 计算 出 的 校 验 和 与 
存储 的 校 验 和 不 一 致 的 可 能 性 就 很 高 。 如 果 发 生 了 这 样 的 错误 ， 磁 盘 控 制 器 就 会 重读 几 次 ; 如 果 错 
误 继续 发 生 ， 磁 盘 控制 器 就 会 发 出 一 个 读 操作 失败 的 信和 号。 

磁盘 控制 器 执行 的 另 一 个 有 趣 的 任务 是 坏 扇 区 的 重 映射 (remapping of bad sector) 。 当 磁盘 初始 格 
式 化 时 ， 或 试图 写 一 个 扇 区 时 ， 如 果 磁 盘 控 制 器 检测 到 一 个 损坏 的 扇 区 ， 它 会 把 这 个 扇 区 在 逻辑 上 
映射 到 另 一 个 物理 位 置 ( 从 为 此 目的 而 留 出 的 额外 扇 区 中 分 配 ) 。 重 映射 记录 在 磁盘 或 非 易 失 性 存储 
器 中 ， 而 写 操作 在 新 的 位 置 上 执行 。 

磁盘 通过 一 个 高 速 互 连 通道 连接 到 计算 机 系统 。 有 大 量 的 通用 接口 用 于 将 磁盘 连接 到 计算 机 ， 
现今 一 般 使 用 的 接口 是 : (1)SATA， 也 叫 串 行 ATA ( serial ATA S)， 最 新 版 本 的 SATA 称 作 SATA II 
或 者 SATA3 Gb( ATA 标准 的 旧版 本 称 作 PATA， 或 并 行 ATA, 或 者 IDE， 在 早期 广泛 地 使 用 ， 并且 现 
在 依旧 可 用 )，(2) 小 型 计算 机 系统 互联 (Small-Computer-System Interconnect，SCSI， 发 音 为 
“scuzzy”) ，(3)SAS， 也 叫 串 行 附着 SCSI( serial attached SCSI), ， 和 (4 ) 光纤 通道 接口 (Fibre Channel 
Interface ) 。 便 携 式 外 部 磁盘 系统 经 常 使 用 USB 接口 或 在 EE 1394 火线 接口 。 

磁盘 通常 可 以 通过 电缆 直接 与 计算 机 系统 的 磁盘 接口 相连 ， 也 可 以 放置 到 远 端 并 通过 高 速 网 络 
与 磁盘 控制 器 相连 。 在 存储 区 域 网 (Storage Area Network, SAN) 体系 结构 中 ， 大 量 的 磁盘 通过 高 速 网 
络 与 许多 计算 机 服务 器 相连 。 通 常 磁盘 采用 独立 磁盘 宛 余 阵列 ( Redundant Array of Independent Disk , 
RAID, 将 在 10. 3 节 介 绍 ) 技 术 进 行 本 地 化 组 织 ， 从 而 给 服务 器 一 个 很 大 且 非 常 可 靠 的 磁盘 的 逻辑 视 
图 。 尽 管 可 能 被 网 络 分 开 ， 计算 机 和 磁盘 子 系统 继续 通过 SCSI, SAS 和 光纤 通道 接口 互相 通信 。 通 
过 存储 区 域 网 对 磁盘 的 远程 访问 ， 意 味 着 磁盘 可 以 由 并 行 运行 一 个 应 用 程序 的 不 同 部 分 的 多 台 计 算 
机 所 共享 。 远 程 访问 同时 也 意味 着 包含 重要 数据 的 磁盘 可 以 存放 在 有 系统 管理 员 监 视 和 维护 的 集中 
式 服务 器 房间 中 ， 而 不 是 将 它们 分 散在 一 个 组 织 的 不 同 部 分 中 。 

网 络 附加 存储 ( Network Attached Storage, NAS) H SAN 发 展 而 来 。NAS 很 像 SAN， 但 是 它 通 过 使 
用 网 络 文件 系统 协议 (如 NFS 或 CIFS ) 提供 文件 系统 接口 ， 而 不 是 看 似 一 张大 磁盘 的 网 络 存储 器 . 


10.2.2 磁盘 性 能 的 度量 
磁盘 质量 的 主要 度量 指标 是 容量 、 访 问 时 间 、 数 据 传输 率 和 可 靠 性 。 
访问 时 间 (access time) 是 从 发 出 读 写 请 求 到 数据 开始 传输 之 间 的 时 间 。 为 了 访问 ( 即 读 或 写 ) 磁 
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盘 上 指定 肩 区 的 数据 ， 磁 盘 臂 首先 必须 移动 ， 以 定位 到 正确 的 磁道 ， 然 后 等 待 磁盘 旋转 ， 直 到 指定 
的 扇 区 出 现在 它 下 方 。 磁 盘 臂 重 定 位 的 时 间 称 为 寻 道 时 间 (seek time) ， 它 随 磁盘 臂 移动 距离 的 增 大 
而 增 大 。 典 型 的 寻 道 时 间 在 2 ~ 30 毫秒 之 间 ， 依 赖 于 目的 磁道 距离 磁盘 臂 的 初始 位 置 有 多 远 。 较 小 
的 磁盘 因为 移动 距离 较 短 而 寻 道 时 间 较 短 。 

平均 寻 道 时 间 ( average seek time) 是 寻 道 时 间 的 平均 值 ， 是 在 一 个 (均匀 分 布 的 ) 随机 请 求 的 序列 
上 计算 得 到 的 。 假 设 所 有 的 磁道 包含 相同 的 扇 区 数 ， 同 时 我 们 忽略 读 写 头 开始 移动 和 结束 移动 所 花 
费 的 时 间 ， 我 们 可 以 得 到 平均 寻 道 时 间 是 最 坏 情 况 下 寻 道 时 间 的 1/3。 考 虑 到 前 面 忽略 的 这 些 因 素 ， 
平均 寻 道 时 间 大 约 是 最 长 寻 道 时 间 的 1/2。 现 在 , 平均 寻 道 时 间 在 4 ~ 10 SHS lal, 依赖 于 磁盘 
模式 。 

一 旦 读 写 头 到 达 了 所 需 的 磁道 ， 等 待 访问 的 扇 区 出 现在 读 写 头 下 所 花费 的 时 间 称 为 旋转 等 待 时 
间 ( rotational latency time) 。 现 在 一 般 的 磁盘 转速 在 每 分 钟 5400 转 ( 每 秒 90 转 ) 到 每 分 钟 15 000 转 (每 


秒 250 转 ) 之 间 ， 或 者 等 价 地 ， 在 每 转 4 毫秒 到 每 转 11 上 毫秒 之 间 。 平均 情况 下 ,磁盘 需要 旋转 半 周 
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才能 使 所 要 访问 的 扇 区 开始 处 于 读 写 头 的 下 方 。 因 此 磁盘 的 平均 旋转 等 待 时 间 是 磁盘 旋转 一 周 时 间 
的 1/2。 

访问 时 间 是 寻 道 时 间 和 旋转 等 待 时 间 的 总 和 ,范围 在 8 ~ 20 毫秒 之 间 。 一 旦 待 访问 数据 的 第 一 
个 扇 区 来 到 读 写 头 下 方 ， 数 据 传 输 就 开始 了 。 数 据 传 输 率 ( data-transfer rate) 是 从 磁盘 获得 数据 或 者 
向 磁盘 存储 数据 的 速率 。 目 前 的 磁盘 系统 支持 每 秒 25 ~ 100MB 的 数据 最 大 传输 率 。 对 于 磁盘 的 内 侧 
磁道 ， 数 据 传 输 率 明 显 低 于 最 大 传输 率 ， 例如， 一 张 最 大 传输 率 为 每 秒 100MB 的 磁盘 ， 其 内 侧 磁 道 
持续 传输 率 约 为 每 秒 30MB 。 

最 后 一 个 经 常 使 用 的 磁盘 度量 标准 是 平均 故障 时 间 ( Mean Time To Failure, MTTF), ， 这 是 磁盘 可 
靠 性 的 度量 标准 。 磁 盘 ( 或 其 他 任何 系统 ) 的 平均 故障 时 间 是 ， 平 均 说 来 我 们 可 以 期 望 系统 无 故障 连 
续 运 行 的 时 间 量 。 据 生产 商 声称 ， 现 代 磁 盘 的 平均 故障 时 间 在 500 000 ~ 1 200 000 小 时 之 间 ( 大 约 
57 ~ 136 年 ) 。 事 实 上 ， 这 里 声称 的 平均 故障 时 间 是 基于 全 新 磁盘 发 生 故 障 的 可 能 性 计算 的 。 这 里 给 
出 的 数据 的 意思 是 说 ， 对 于 给 定 的 1 000 张 相 对 较 新 的 磁盘 ， 如 果 MTTF 是 1 200 000 小 时 ， 则 平均 
来 说 ， 在 1200 小 时 内 这 些 磁 盘 中 将 会 有 一 张 发 生 故 障 。 平 均 故 障 时 间 为 1 200 000 小 时 并 不 意味 着 
该 磁盘 预期 可 以 工作 136 E! 大 多 数 磁盘 预期 可 以 工作 5 年 左右 ,但 是 使 用 了 几 年 之 后 ， 其 故障 发 
生 率 会 显著 提高 。 

台式 机 的 磁盘 驱动 器 通常 支持 每 秒 150MB 传输 率 的 串 行 ATA(SATA ) 接口 ， 或 者 支持 每 秒 
300MB 传输 率 的 SATA-II 3Gb 接口 。PATA5 接口 支持 每 秒 133MB 的 传输 率 。 为 服务 器 系统 设计 的 磁 
盘 驱 动 器 大 都 支持 提供 最 高 可 达 每 秒 320MB 传输 率 的 Ultra320 SCSI 接口 ， 或 者 是 提供 每 秒 3GB 或 者 
6GB 传输 率 的 串 行 附着 SCSI(SAS) 接 口 。 通 过 网 络 连接 到 服务 器 的 存储 区 域 网 络 (SAN ) 设备 通常 使 
用 光纤 通道 FC -2Gb 或 4 - Gb 接口 ， 该 接口 提供 最 高 可 达 每 秒 256 或 512MB 的 传输 率 。 一 个 接口 的 
传输 率 由 连接 到 这 个 接口 的 所 有 磁盘 所 共享 ， 除 了 某 些 只 允许 一 张 磁盘 连接 一 个 接口 的 串口 。 
10.2.3 磁盘 块 访问 的 优化 

磁盘 VO 请 求 是 由 文件 系统 和 大 多 数 操作 系统 具有 的 虚拟 内 存 管理 器 产生 的 。 每 个 请 求 指 定 了 
要 访问 的 磁盘 地 址 ， 这 个 地 址 是 以 块 号 的 形式 提供 的 。 一 个 块 (block ) 是 一 个 逻辑 单元 ， 它 包含 固定 
数目 的 连续 扇 区 。 块 大 小 在 512 字 节 到 几 KB 之 间 。 数 据 在 磁盘 和 主 存储 器 之 间 以 块 为 单位 传输 。 术 
语 页 (page) 常 用 来 指 块 ， 尽 管 在 有 些 语 境 (例如 闪存 ) 中 指 的 是 另外 的 含义 。 

来 自 磁盘 的 连续 请 求 有 可 以 归 类 成 顺序 访问 模式 或 随机 访问 模式 。 在 一 个 顺序 访问 ( sequential 
access) 模式 中 ， 连 续 的 请 求 会 请 求 处 于 相同 的 磁道 或 是 相 邻 的 磁道 上 连续 的 块 。 在 顺序 访问 中 读 取 
块 时 ， 第 一 块 可 能 需要 一 次 磁盘 寻 道 ， 但 是 相继 的 请 求 既 不 需要 寻 道 ， 也 不 需要 对 相 邻 磁道 的 寻 道 ， 
这 比 对 一 条 更 远 处 的 磁道 寻 道 要 快 。 

与 之 相反 ， 在 随机 访问 (random access) 模式 中 ， 相 继 的 请 求 会 请 求 那些 随机 位 于 磁盘 上 的 块 。 
每 一 个 请 求 都 需要 一 次 磁盘 寻 道 。 一 张 磁盘 在 一 秒 钟 内 能 满足 的 随机 块 访问 的 数量 取决 于 寻 道 时 间 ， 
并 且 通 常 是 每 秒 100 ~ 200 的 访问 次 数 。 由 于 每 次 寻 道 只 有 少量 的 数据 (一 块 数据 ) 被 读 取 ， 因 此 随机 
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访问 模式 的 数据 传输 率 明显 低 于 顺序 访问 模式 。 
为 了 提高 访问 块 的 速度 ， 产 生 了 许多 技术 。 


缓冲 (buffering) 。 从 磁盘 读 取 的 块 暂时 存储 在 内 存 缓冲 区 中 ， 以 满足 将 来 的 要 求 。 缓 冲 通 过 
操作 系统 和 数据 库 系统 共同 运作 。 关 于 数据 库 缓 冲 将 在 10. 8 节 进 行 更 详细 的 讨论 。 

预 读 (read-ahead) 。 当 一 个 磁盘 块 被 访问 时 ， 相 同 磁道 的 连续 块 也 被 读 入 内 存 缓冲 区 中 ， 即 
便 没 有 针对 这 些 块 的 即将 来 临 的 请 求 。 在 顺序 访问 的 情况 下 ， 当 它们 被 请 求 时 ， 这 种 预 读 可 
以 确保 许多 块 已 经 在 内 存 中 ， 减 少 了 磁盘 寻 道 和 读 取 每 块 的 旋转 等 竺 时间。 操作 系 统 也 经 常 
对 操作 系统 文件 预先 读 取 连续 的 块 。 但 是 ， 预 读 对 于 随机 块 访问 并 不 是 很 有 用 。 
调度 ( scheduling) 。 如 果 需 要 把 一 个 柱 面 上 的 几 个 块 从 磁盘 传输 到 主 存储 器 ， 我 们 可 以 按 块 经 
过 读 写 头 的 顺序 发 出 访问 块 的 请 求 ， 从 而 节省 访问 时 间 。 如 果 所 需 的 块 在 不 同 的 柱 面 上 ， 按 
照 使 磁盘 臂 移 动 最 短 距 离 的 顺序 发 出 访问 块 的 请 求 是 非常 有 利 的 。 磁 盘 臂 调度 ( disk- arm- 
scheduling) 算法 试图 把 对 磁道 的 访问 按照 能 增加 可 以 处 理 的 访问 数量 的 方式 排序 。 通 常 使 用 
的 算法 是 电梯 算法 (elevator algorithm)， 这 种 算法 的 工作 方式 与 许多 电梯 的 工作 方式 非常 相 
似 。 假 设 一 开始 ， 磁 盘 臂 从 最 内 端的 磁道 向 磁盘 的 最 外 端 移 动 。 在 电梯 算法 的 控制 下 ， 对 每 
条 有 访问 请 求 的 磁道 ， 磁 盘 辟 都 在 那 条 磁道 停 下 ， 为 这 条 磁道 的 请 求 提供 服务 ， 然 后 继续 向 
外 移动 ， 直 到 没有 对 更 外 层 磁 道 的 等 待 请 求 。 这 时， 磁盘 臂 掉 转 方向 ， 开 始 向 内 侧 移动 ， 同 
样 在 每 条 有 请 求 的 磁道 处 停 下 ， 直 到 没有 更 靠近 中 心 的 磁道 上 有 请 求 在 等 待 。 接 着 ， 它 掉 转 
方向 ， 开 始 一 个 新 的 周期 。 磁 盘 控 制 器 通常 对 读 请 求 进行 重新 排序 以 提高 性 能 ， 因 为 它 最 清 
楚 磁 盘 块 的 组 织 、 磁 盘 盘 片 的 旋转 位 置 和 磁盘 辟 的 位置 。 

文件 组 织 (file organization) 。 为 了 减少 块 访问 时 间 ， 我 们 可 以 按照 与 预期 的 数据 访问 方式 最 接 
近 的 方式 来 组 织 磁盘 上 的 块 。 例 如 ， 如 果 我 们 预计 一 个 文件 将 顺序 地 访问 ， 那 么 理想 情况 下 
我 们 应 该 使 文件 的 所 有 块 存储 在 连续 的 相 邻 柱 面 上 。 老 的 操作 系统 ， 如 IBM 大 型 机 的 操作 系 
统 ， 给 程序 员 提 供 了 对 文件 位 置 的 精确 控制 ， 允 许 程序 员 保 留 一 组 柱 面 来 存储 一 个 文件 。 然 
而 ， 这 种 控制 给 程序 员 或 系统 管理 员 带 来 了 决策 上 的 负担 ， 例 如 要 决定 给 一 个 文件 分 配 多 少 
柱 面 ， 并 且 当 数据 插入 文件 或 从 文件 中 删除 时 ， 重 新 组 织 文件 需要 昂贵 的 代价 。 

随后 的 操作 系统 ， 如 UNIX 和 Windows 操作 系统 ， 对 用 户 隐藏 了 磁盘 的 组 织 ， 并 且 由 操 

作 系 统 内 部 来 管理 空间 的 分 配 。 尽 管 它们 不 能 保证 一 个 文件 的 所 有 块 顺序 分 布 ， 但 它们 一 次 
为 一 个 文件 分 配 多 个 连续 的 块 (一 个 区 (extent) ) 。 然 后 ,文件 的 顺序 访问 只 需 每 个 区 寻 道 一 
次 ， 而 不 是 每 个 块 寻 道 一 次 。 经 过 一 段 时 间 ， 一 个 连续 的 文件 将 变 得 碎片 化 (fragmented ) , 
即 它 的 块 散布 在 整 张 磁盘 上 。 为 了 减少 碎片 ， 系 统 可 以 对 磁盘 上 的 数据 进行 一 次 备份 ， 然 后 
再 恢复 整 张 磁盘 。 恢 复 操作 将 每 个 文件 的 块 连续 地 (或 几乎 连续 地 ) 写 回 。 一些 系统 (如 
Windows 操作 系统 的 不 同 版 本 ) 提供 扫描 整 张 磁盘 然后 移动 块 以 减少 碎片 的 工具 。 这 种 技术 所 
实现 的 性 能 提高 非常 显著 。 
非 易 失 性 写 缓 冲 区 nonvolatile write buffer) 。 因 为 主 存储 器 中 的 内 容 在 发 生 电 源 故 障 时 将 全 部 
丢失 ， 所 以 关于 数据 库 更 新 的 信息 必须 记录 到 磁盘 上 ， 这 样 才 能 在 系统 崩溃 时 得 以 保存 。 因 
此 ， 更 新 操作 密集 的 数据 库 应 用 的 性 能 ， 如 事务 处 理 系统 的 性 能 ， 高 度 依赖 于 磁盘 写 操作 的 
速度 。 

我 们 可 以 使 用 非 易 失 性 随机 访问 存储 器 ( NonVolatile Random-Access Memory，NV-RAM ) 大 
幅度 地 加 速写 磁盘 的 操作 。NV-RAM 的 内 容 在 发 生 电源 故障 时 不 会 丢失 。 一 种 实现 NV-RAM 
的 常用 方法 是 使 用 有 备用 电池 的 RAM。 其 思想 是 ， 当 数据 库 系统 (或 操作 系统 ) 请 求 往 磁盘 
上 写 一 个 块 时 ,磁盘 控制 器 将 这 个 块 写 到 NV-RAM 缓冲 区 中 ， 然 后 立即 通知 操作 系统 写 操 作 
已 成 功 完成 。 当 磁盘 上 没有 其 他 请 求 时 ,或 者 当 NV-RAM 缓冲 区 满 时 ， 磁 盘 控 制 器 将 这 些 数 
据 写 到 磁盘 上 相应 的 目标 地 址 处 。 当 数据 库 系统 请 求 写 一 个 块 时 ， 只 有 在 NV-RAM 缓冲 区 满 
时 ， 才 会 有 一 个 延迟 。 从 系统 崩溃 中 进行 恢复 时 ，NV-RAM 中 所 有 缓冲 的 未 完成 的 写 操作 将 
写 回 到 磁盘 。 某 些 特定 的 高 端 磁盘 会 使 用 NV-RAM 缓冲 区 ， 但 是 NV-RAM 更 多 应 用 于 “ RAID 
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控制 器 ”， 我 们 将 在 10.3 节 研 究 RAID, 
© 日 志 磁 盘 (log disk), 减少 写 等 待 时 间 的 男 一 种 方法 是 使 用 日 志 磁 盘 ， 即 一 种 专门 用 于 写 顺 序 
日 志 的 磁盘 ， 这 和 非 易 失 性 RAM 缓冲 区 的 使 用 非常 相似 。 对 日 志 磁 盘 的 所 有 访问 都 是 顺序 
的 ， 这 从 根本 上 消除 了 寻 道 时 间 ， 并 且 一 次 可 以 写 几 个 连续 的 块 ， 使 得 写 日 志 磁 盘 比 随机 的 
写 要 快 许多 倍 。 和 前 面 一 样 ， 数 据 也 必须 写 到 它们 在 磁盘 上 的 实际 位 置 ， 但 是 数据 库 系统 不 
需要 等 待 这 种 写 操作 的 完成 ， 日 志 磁 盘 会 在 以 后 完成 写 操作 。 进 一 步 说 ， 日 志 磁 盘 可 以 为 了 
最 少 化 磁盘 臂 的 移动 而 重 排 写 操作 的 顺序 。 如 果 系 统 在 实际 磁盘 写 操作 完成 以 前 骨 溃 ， 在 系 
统 恢复 后 ， 系 统 可 以 读 取 日 志 磁 盘 ， 找 到 那些 还 没有 完成 的 写 操作 并 将 它们 完成 。 
支持 上 述 日 志 磁 盘 的 文件 系统 称 作 日 志文 件 系统 (journaling file system) 。 日 志文 件 系 统 甚 
至 可 以 在 没有 单独 的 日 志 磁 盘 的 情况 下 实现 ， 此 时 它 将 数据 和 日 志 存 储 在 同一 张 磁盘 上 。 这 
样 做 可 以 节省 财政 开支 ， 但 是 会 降低 系统 性 能 。 
大 多 现代 文件 系统 都 实现 了 日 志 ， 并 在 写 和 人 内 部 文件 系统 的 信息 (如 文件 分 配 信息 ) 时 使 
用 日 志 磁 盘 。 早 期 文件 系统 允许 在 不 使 用 日 志 磁 盘 的 情况 下 对 写 操作 重新 排序 一旦 系统 崩 
溃 ， 磁 盘 上 的 文件 系统 数据 结构 将 会 有 被 破坏 的 风险 。 例 如 ， 假 定 一 个 使 用 链表 的 文件 系 
统 ， 在 链表 的 末端 插入 一 个 新 结 点 时 ， 先 写 人 新 结 点 的 数据 ， 然 后 更 新 来 自前 面 的 结 点 的 指 
针 。 还 假设 写 操作 重新 排序 ， 使 得 指针 先 更 新 ， 而 系统 在 写 人 新 结 点 之 前 崩溃 ， 那 么 结 点 的 
内 容 将 会 是 此 前 磁盘 上 的 废 数据 ， 从 而 导致 数据 结构 的 破坏 。 
为 了 处 理 这 种 数据 结构 破坏 的 可 能 性 ， 早 期 文件 系统 必须 在 系统 重新 启动 时 执行 一 个 文 
件 系 统一 致 性 检验 ， 以 保证 数据 结构 是 一 致 的 。 且 如 果 它 们 不 一 致 ， 必 须 执 行 额 外 的 步骤 还 
原 它们 以 保证 一 致 性 。 这 些 检验 会 使 得 系统 崩溃 后 的 重启 动 有 较 长 的 延 时 ,而 且 这 个 延 时 随 
着 磁盘 系统 容量 的 增加 而 变 得 更 加 严重 。 日 志文 件 系 统 允 许 快速 重启 动 而 不 需要 这 样 的 一 致 
性 检验 。 
但 是 ， 由 应 用 程序 执行 的 写 操作 一 般 不 写 信 日志 磁盘 中 。 数 据 库 系统 实现 它们 自己 形式 
的 日 志 ， 我 们 将 在 第 16 章 研究 。 
10.2.4 RAGE 
正如 10. 1 节 所 提 到 的 ， 一 共有 两 种 快 闪 存储 器 ， 即 NOR NA NAND RA, NOR 快 闪 允许 随 
机 访问 闪存 中 的 单个 字 ， 并 且 拥 有 和 主 存 可 媲美 的 读 取 速 度 。 而 NAND RAA NOR RAAT, EM 
读 取 需 要 将 整个 数据 页 从 NAND 快 闪 取 到 主 存储 器 中 ， 该 数据 页 通常 包括 512 ~ 4096 字 节 。NAND 
快 闪 中 的 页 和 磁盘 中 的 扇 区 十 分 相似 。 但 是 NAND 快 闪 明显 比 NOR 快 闪 便 宜 ， 并 且 拥 有 更 高 的 存储 
容量 ， 且 目前 更 广泛 使 用 。 
采用 NAND 快 闪 构建 的 存储 系统 提供 与 磁盘 存储 器 相同 的 面向 块 的 接口 。 与 磁盘 相 比 ， 闪 存 可 
以 提供 更 快 的 随机 存 取 : 一 个 数据 页 ， 从 闪存 中 可 以 在 约 1 ~ 2 微 秒 内 检索 到 ， 而 从 磁盘 上 的 一 个 随 
机 访问 则 需要 5 ~ 10 毫秒 。 闪 存 具 有 上 比 磁 盘 低 的 传输 速率 ， 一 般 来 说 为 每 秒 20MB。 最 近 的 一 些 闪 存 
的 传输 速率 增加 到 每 秒 100 ~200MB。 然 而 ， 固 态 驱 动 器 并 行 地 使 用 多 块 闪存 芯片 ， 将 传输 速率 提高 
到 每 秒 200MB 以 上 ， 这 上 比 大 多 数 磁 盘 的 传输 速率 更 快 。 
闪存 的 写 人 稍 有 些 复杂 。 写 一 个 闪存 页 面 通常 需要 几 微 秒 。 然 而 ,一旦 写 入 ,闪存 的 页 面 不 能 
直接 覆盖 。 它 必须 先 擦 除 然后 再 重 写 。 一 次 擦 除 操 作 可 以 在 多 个 页 面 执行 称 为 擦 除 块 (erase 
block) ， 这 种 操作 需 时 约 1 ~ 2 毫秒。 一 个 擦 除 块 的 大 小 (在 闪存 文献 中 通常 描述 为 “ 块 ") 通 常 明 显 比 
存储 系统 的 块 大 很 多 。 此 外 ， 对 一 个 闪存 页 可 以 擦 除 多 少 次 存在 限制 ,通常 大 约 为 10 万 ~100 万 次 
一 旦 达到 此 限制 ， 在 存储 位 就 可 能 发 生 错 误 。 
闪存 系统 通过 映射 逻辑 页 码 到 物理 页 码 ， 限 制 了 慢 擦 除 速度 和 更 新 限制 的 影响 。 当 一 个 逻辑 页 
更 新 时 ， 它 可 以 重新 映射 到 任何 已 擦 除 的 物理 页 ， 它 原来 的 位 置 可 以 随后 擦 除 。 每 个 物理 页 都 有 一 
个 小 的 存储 区 域 来 保存 它 的 逻辑 地 址 ; 如 果 逻 辑 地 址 重新 映射 到 一 个 不 同 的 物理 页 ， 则 原来 的 物理 
页 被 标记 为 已 删除 。 因 此 ， 通 过 扫描 物理 页 ， 我 们 可 以 发 现 每 个 逻辑 页 的 位 置 。 为 了 快速 访问 ， 逻 
辑 到 物理 的 页 面 映射 被 复制 到 内 存 的 转换 表 ( translation table) 中 。 
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包含 多 个 删除 页 面 的 块 将 会 定期 清除 ， 并 注意 先 复 制 这 些 块 中 未 删除 的 页 面 到 不 同 块 (转换 表 中 
对 这 些 未 删除 的 页 面 进 行 更 新 ) 中。 由 于 每 个 物理 页 面 只 能 更 新 园 定 次 数 ， 因 此 擦 除 多 次 的 物理 页 面 
被 标记 成 “ 冷 数据 ”， 换 句 话 说 ， 数 据 很 少 更 新 ; 没有 擦 除 多 次 的 页 用 来 存储 “ 热 数据 "， 即 ， 频 繁 更 
新 的 数据 。 这 种 在 物理 块 中 均匀 分 布 擦 除 操作 的 原则 称 作 损耗 均衡 (wear leveling) ， 而 且 通 常 是 由 闪 
存 控制 器 透明 地 执行 。 如 果 一 个 物理 页 由 于 过 多 次 更 新 而 损坏 ， 它 可 以 不 再 使 用 ， 而 不 影响 整个 
闪存 。 

所 有 的 上 述 动作 通过 一 个 叫做 闪存 转换 层 ( flash translation layer) 的 软件 层 完成 。 在 这 一 层 之 上 ， 
闪存 存储 器 看 起 来 和 磁盘 存储 器 一 样 ， 都 提供 同样 的 面向 页 / 扇 区 的 接口 ， 除 了 闪存 存储 器 快 得 多 。 
因此 ， 文 件 系 统 和 数据 库存 储 结构 可 以 看 到 相同 的 底层 存储 结构 逻辑 视图 ， 无 论 是 闪存 存储 器 或 磁 
盘存 储 器 。 

混合 硬盘 驱动 器 (hybird disk drive) 是 结合 了 小 容量 闪存 存储 器 的 硬盘 系统 ， 对 频繁 访问 的 数据 ， 
该 驱动 器 作为 缓存 使 用 。 频 繁 访问 但 很 少 更 新 的 数据 最 适合 于 缓存 在 闪存 存储 器 中 。 


10.3 RAID 


虽然 磁盘 的 存储 容量 在 迅速 增长 ， 但 是 ， 有 些 应 用 (特别 是 Web、 数 据 库 和 多 媒体 应 用 ) 的 数据 
存储 需求 增长 太 快 ， 以 致 在 这 些 应 用 中 需要 大 量 的 磁盘 来 存储 数据 。 

在 一 个 系统 中 使 用 大 量 的 磁盘 为 提高 数据 读 写 速率 提供 了 机 会 ， 如 果 并 行 访问 磁盘 的 话 。 很 多 
独立 的 读 和 写 操作 也 可 以 并 行 执行 。 此 外 ， 这 种 组 织 方式 提供 了 提高 数据 存储 可 靠 性 的 潜力 ， 因 为 
可 以 在 多 张 磁盘 中 存储 宛 余 信息 。 因 此 一 个 磁盘 的 故障 不 会 导致 数据 的 丢失 。 

为 了 提高 性 能 和 可 靠 性 ， 人 们 提出 了 统称 为 独立 磁盘 宛 余 阵列 ( Redundant Array of Independent 
Disk, RAID) 的 多 种 磁盘 组 织 技术 。 

在 过 去 ， 系 统 设计 者 认为 用 多 张 较 小 且 廉 价 的 磁盘 构成 的 系统 替代 大 而 昂贵 的 磁盘 是 一 种 合算 
的 方法 : 小 磁盘 系统 的 每 兆 字 节 的 价格 比 大 磁盘 系统 便宜 。 事 实 上 ，RAID 中 的 I 现在 代表 的 意思 是 
独立 (independent) ， 原 先 代 表 的 意思 是 廉价 (inexpensive) 。 然 而 现在 ， 所 有 的 磁盘 物理 上 都 比较 小 ， 
大 容量 磁盘 每 兆 字 节 的 价格 实际 上 也 降低 了 。 使 用 RAID 是 因为 它 有 更 高 的 可 靠 性 和 更 高 的 执行 效 
率 ， 而 不 再 是 因为 经 济 原因 。 使 用 RAID 的 另 一 个 关键 理由 是 它 易于 管理 和 操作 。 

10.3.1 通过 宛 余 提高 可 靠 性 

让 我 们 首先 考虑 可 靠 性 问题 。N 张 磁盘 组 成 的 集合 中 某 张 磁盘 发 生 故 障 的 概率 比特 定 的 一 张 磁 
盘 发 生 故 障 的 概率 要 高 。 假 设 一 张 磁盘 发 生 故障 的 平均 时 间 为 100 000 小 时 ( 稍 大 于 11 年 )。 这 样 ， 
由 100 张 磁盘 组 成 的 阵列 发 生 磁盘 故障 的 平均 时 间 为 100 000/100 = 1000 小 时 ( 约 为 42 天 ) ， 这 个 时 
间 一 点 也 不 长 ! 如 果 我 们 只 存储 了 数据 的 一 个 拷贝 ,那么 任何 一 张 磁盘 发 生 故 障 都 将 导致 大 量 数据 
的 丢失 (正如 10. 2. 1 节 讨 论 的 那样 )。 这 样 高 的 数据 丢失 率 是 无 法 接受 的 。 

JIA TR (redundancy) 是 解决 这 个 可 靠 性 问题 的 方法 ， 即 存储 正常 情况 下 不 需要 的 额外 信息 ， 但 
这 些 信息 可 在 发 生 磁盘 故障 时 用 于 重建 丢失 的 信息 。 这 样 ， 即 使 有 一 张 磁盘 发 生 了 故障 ， 数 据 也 不 
会 丢失 ， 从 而 延长 了 磁盘 发 生 故 障 的 有 效 平均 时 间 ( 这 里 只 计 导 致 数据 丢失 或 数据 不 可 用 的 磁盘 故 
障 ) 。 

实现 元 余 最 简单 (但 最 昂贵 ) 的 方法 是 复制 每 一 张 磁盘 。 这 种 技术 称 为 镜像 (mirroring) (或 者 有 时 


称 为 影子 ) 。 这 样 ， 一 张 逻 辑 磁盘 由 两 张 物理 磁盘 组 成 ， 并 且 每 一 次 写 操作 都 要 在 两 张 磁盘 上 执行 。[4 


如 果 其 中 一 张 磁盘 发 生 了 故障 ， 数 据 可 以 从 另 一 张 磁盘 读 出 。 只 有 当 第 一 张 磁盘 的 故障 被 修复 之 前 ， 
第 二 张 磁盘 也 发 生 了 故障 时 ， 数 据 才 会 丢失 。 

采用 镜像 技术 的 磁盘 的 平均 故障 时 间 ( 这 里 的 故障 是 指数 据 的 丢失 ) 依赖 于 单 张 磁盘 的 平均 故障 
时 间 和 平均 修复 时 间 ( mean time to repair) ， 平 均 修复 时 间 是 替换 发 生 故 障 的 磁盘 并 且 恢复 这 张 磁盘 
上 的 数据 所 花费 的 (平均 ) 时 间 。 假 设 两 张 磁盘 发 生 故 障 是 相互 独立 的 ， 即 一 张 磁盘 的 故障 和 男 一 张 
磁盘 的 故障 之 间 没 有 联系 。 那 么 ， 如 果 一 张 单独 磁盘 的 平均 故障 时 间 是 100 000 小 时 ,平均 修复 时 间 
是 10 小 时 ， 则 镜像 磁盘 系统 的 平均 数据 丢失 时 间 ( mean time to data loss) 为 100 000°/ (2 * 10) = 


[440 | 
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500 * 10 小 时 ， 即 57 000 年 ! (这 里 就 不 再 探究 推导 过 程 ， 文 献 注解 中 的 参考 文献 里 提供 了 细节 。 ) 

读者 应 该 意识 到 磁盘 故障 之 间 的 独立 性 假设 是 不 合理 的 。 电 源 故 障 和 自然 灾害 ， 如 地 震 、 火 灾 
和 洪水 ， 将 导致 两 张 磁盘 在 同一 时 间 毁 坏 。 当 磁盘 逐渐 老化 ， 发 生 故 障 的 可 能 性 将 随 之 增加 ， 同 时 
增加 了 在 第 一 张 磁盘 被 修复 时 ， 第 二 张 磁盘 也 发 生 故障 的 机 会 。 尽 管 有 这 些 方面 需要 考虑 ， 镜 像 磁 
盘 系 统 仍然 比 单一 磁盘 系统 提供 了 更 高 的 可 靠 性 。 现 在 已 有 平均 数据 丢失 时 间 在 500 000 ~ 1 000 000 
小 时 (或 55 ~ 110 年 ) 的 镜像 磁盘 系统 。 

电源 故障 是 特别 需要 考虑 的 问题 ， 因 为 它们 比 自然 灾害 的 发 生 频 繁 得 多 。 如 果 在 电源 发 生 故 障 
时 没有 正在 向 磁盘 传输 数据 ， 那 么 电源 故障 就 不 必 考 虑 。 然 而 ， 即 使 有 磁盘 镜像 ， 如 果 正 在 对 两 张 
磁盘 上 相同 的 块 进行 写 操作 ， 并 且 在 两 个 块 完 全 写 完 之 前 电源 发 生 故障 ,那么 这 两 个 块 将 处 于 不 一 
致 的 状态 。 解 决 这 个 问题 的 方法 是 ， 先 写 一 个 拷贝 ， 再 写 另 一 个 。 这 样 ， 两 个 拷贝 中 有 一 个 总 是 一 
致 的 。 当 我 们 在 电源 发 生 故 障 后 重新 启动 时 ， 需 要 做 一 些 额外 的 动作 ， 以 从 不 完全 的 写 操作 中 恢复 ， 
这 个 问题 将 在 习题 10. 3 中 讨论 。 
10.3.2 通过 并 行 提高 性 能 

现在 让 我 们 考虑 对 多 张 磁盘 进行 并 行 访 问 的 好 处 。 通 过 磁盘 镜像 ， 处 理 读 请 求 的 速度 将 翻 倍 ， 
因为 读 请 求 可 以 发 送 到 任意 一 张 磁盘 上 (只 要 组 成 一 对 的 两 张 磁盘 都 是 可 用 的 ， 而 且 一 般 情 况 下 总 是 
如 此 ) 。 每 个 读 操 作 的 传输 速率 和 单一 磁盘 系统 中 的 传输 速率 是 一 样 的 ， 但 是 每 单位 时 间 内 读 操 作 的 
数目 将 翻 倍 。 

我 们 可 以 通过 在 多 张 磁盘 上 进行 数据 拆 分 (striping data) 来 提高 传输 速率 。 数 据 拆 分 最 简单 的 形 
式 是 将 每 个 字 节 按 比特 分 开 ， 存储 到 多 个 磁盘 上 。 这 种 拆 分 称 为 比特 级 拆 分 ( bit-level striping) 。 例 
如 ， 如 果 我 们 有 一 个 由 8 张 磁盘 组 成 的 阵列 ,我们 将 每 个 字 节 的 第 i 位 写 到 第 i 张 磁盘 上 。 这 8 张 磁 
盘 组 成 的 阵列 可 以 被 看 成 一 张 单一 的 磁盘 ， 这 张 磁盘 的 一 个 扇 区 的 大 小 是 通常 大 小 的 8 倍 ， 并 且 更 重 
要 的 是 它 的 传输 速率 是 通常 速率 的 8 倍 。 在 这 样 的 组 织 结构 中 ， 每 张 磁盘 都 参与 每 次 的 访问 ( 读 或 写 ) , 

所 以 它 每 秒 所 处 理 的 访问 操作 的 总 数 和 一 张 磁盘 所 处 理 的 是 一 样 的 ， 但 是 在 相同 时 间 内 ， 它 每 次 访问 

所 读 取 的 数据 量 是 一 张 磁盘 上 的 8 倍 。 位 级 拆 分 可 以 推广 到 磁盘 总 数 为 8 的 倍数 或 8 的 因子 的 情况 
例如 ， 如 果 我 们 使 用 由 4 张 磁盘 组 成 的 阵列 ， 每 个 字 节 的 第 i 位 和 第 4 +i 位 写 到 第 i 张 磁 盘 上 。 

块 级 拆 分 ( block-level striping ) 是 将 块 拆 分 到 多 张 磁盘 。 它 把 磁盘 阵列 看 成 一 张 单独 的 大 磁盘 ， 并 
且 给 块 进行 逻辑 编号 ， 这 里 我 们 假设 块 的 逻辑 编号 从 0 开始 。 对 于 n 张 磁盘 的 阵列 ， 块 级 拆 分 将 磁 
盘 阵 列 逻 辑 上 的 第 ;个 块 存储 到 第 (imod n) + 1 张 磁盘 上 : 即 用 第 | zj 个 物理 块 存储 逻辑 块 志 例 
如 ， 有 8 张 磁盘 ， 逻 辑 磁盘 块 0 存储 在 磁盘 1 的 第 0 个 物理 块 上 ; 逻辑 磁盘 块 11 存储 在 磁盘 4 的 第 1 
个 物理 块 上 。 当 读 一 个 大 文件 时 ， 块 级 拆 分 可 以 同时 从 张 磁盘 上 并 行 地 读 取 个 块 ， 从 而 获得 对 
于 大 的 读 操 作 的 高 数据 传输 率 。 当 读 取 单 块 数据 时 ， 其 数据 传输 率 与 单个 磁盘 上 的 数据 传输 率 相同 ， 
但 是 剩 下 的 n-1 张 磁盘 可 以 自由 地 进行 其 他 操作 。 

块 级 拆 分 是 最 常用 的 数据 拆 分 形式 。 其 他 层次 的 拆 分 ， 例 如 将 扇 区 按 字 节 拆 分 或 者 将 块 按 导 区 
拆 分 ， 也 是 可 以 实现 的 。 

总 之 ， 磁 盘 系 统 中 的 并 行 有 两 个 主要 的 目的 : 

1. 负载 平衡 多 个 小 的 访问 操作 ( 块 访问 ) ， 以 提高 这 种 访问 操作 的 吞吐 量 。 

2. 并 行 执行 大 的 访问 操作 ， 以 减少 大 访问 操作 的 响应 时 间 。 
10.3.3 RAID 级 别 


镜像 提供 了 高 可 靠 性 ， 但 它 十 分 昂贵 。 拆 分 提供 了 高 数据 传输 率 ， 但 不 能 提高 可 靠 性 。 通 过 结 
合 “奇偶 校 验 位 ”( 在 下 文 描述 ) 和 磁盘 拆 分 思想 ， 从 而 以 较 低 的 代价 提供 数据 元 余 ， 人 们 已 经 提出 了 
一 些 不 同 的 替换 方案 。 这 些 方案 具有 不 同 的 成 本 和 性 能 之 间 的 权衡 ， 并 且 分 为 若干 RAID 级 别 ( RAID 
level) 。 图 10-3 表示 这 些 级 别 (在 图 10-3 中 ，P 表示 纠 错位 ，C 表示 数据 的 第 二 个 拷贝 ) 。 对 于 所 有 
的 级 别 ， 该 图 描绘 了 4 张 磁盘 的 数据 ， 而 其 中 描绘 的 其 余 磁盘 用 于 存储 故障 恢复 时 所 使 用 的 的 元 余 
信息 。 
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RAID 0 级 ( RAID level 0) ， 指 块 级 拆 分 但 没有 任何 元 余 ( 例 如 镜像 或 奇偶 校 验 位 ) 的 磁盘 阵列 。 
10-3a 给 出 了 一 个 大 小 为 4 的 磁盘 阵列 。 

















RAID 1 级 ( RAID level 1) ， 指 的 是 使 用 块 级 拆 分 

BREESE. M 10-35 i TASBARE TEYS 

Hy, 存储 4 张 磁盘 的 数据 。 a) RAID 0: 无 元 余 拆 分 
注意 一 些 厂商 使 用 RAID 1 +0 级 或 RAID 10 级 

来 指 代 使 用 拆 分 的 镜像 ， 使 用 RAID 1 级 指 代 不 使 pogo 

用 拆 分 的 镜像 。 不 使 用 拆 分 的 镜像 可 以 与 磁盘 阵列 b) RAID 1: 镜像 磁盘 

一 起 使 用 ， 以 呈现 为 一 张 单一 的 大 型 可 靠 磁盘 : 如 > 5 < 

果 每 张 磁盘 有 MER, 逻辑 块 0 ~ M -1 存储 在 磁盘 0 EEFI POT 

E, BHIk M ~2M -1 存储 在 磁盘 1( 第 二 张 磁盘 ) c) RAID 2: 内 存 风格 的 纠 错 码 


上 ， 依 次 类 推 ， 且 每 张 磁盘 都 有 镜像 。 


RAID 2 级 ( RAID level 2) ， 也 称 为 内 存 风格 的 纠 错 Ca 


#5 ( Error-Correcting-Code，ECC ) 组 织 结 构 ， 使 用 奇 ` 
d) RAID 3: 位 交叉 校 
偶 校 验 位 。 长 期 以 来 ， 内 存 系统 使 用 奇偶 校 验 位 来 OD 

















实现 错误 检测 和 纠正 。 内 存 系 统 中 的 每 个 字 节 都 有 > 

一 个 与 之 相 联 系 的 奇偶 校 验 位 ， 它 记录 了 这 个 字 节 DEEA 
中 为 1 的 位 数 是 偶数 (奇偶 校 验 位 = 0) 还 是 奇数 e) RAID 4: 块 交叉 奇偶 校 验 

(奇偶 校 验 位 =1) 。 如 果 这 个 字 节 中 有 一 位 被 破坏 

(1 变 成 0, 或 0 变 成 1) ， 那 么 这 个 字 节 的 奇偶 校 [FE 
验 位 就 会 改变 ， 而 与 存储 的 奇偶 校 验 位 不 匹配 。 同 f) RAID 5: 块 交叉 的 分 布 奇偶 校 验 


样 地 ， 如 果 存 储 的 奇偶 校 验 位 被 破坏 ， 它 就 不 能 和 
计算 出 的 奇偶 校 验 位 相 匹配 。 因 此 ， 内 存 系统 可 以 pia 
检测 到 所 有 的 1 位 错误 。 纠 错 码 机 制 存储 两 个 或 更 2 
多 的 附加 位 ， 并 且 如 果 有 一 位 被 破坏 ， 它 可 以 重建 aN SES 
数据 。 图 10-3 RAID 级别 

通过 把 字 节 拆 分 存储 到 多 张 磁盘 上 ， 纠 错 码 的 
思想 可 以 直接 用 于 磁盘 阵列 。 例 如 ， 每 个 字 节 的 第 一 位 存储 在 磁盘 0 中 ,第 二 位 存储 在 磁盘 1 
中 ， 如 此 下 去 ， 直 到 第 8 位 存储 在 磁盘 7 中 ， 纠 错位 存储 在 其 余 的 磁盘 中 。 

图 10-3c 显示 了 2 级 方案 。 标 记 为 P 的 磁盘 存储 了 纠 错位 。 如 果 其 中 一 张 磁盘 发 生 了 故障 ， 
可 以 从 其 他 磁盘 中 读 出 字 节 的 其 余 位 和 相关 的 纠 错位 ， 并 用 它们 来 重建 被 破坏 的 数据 。 图 10- 
3c 显示 了 一 个 大 小 为 4 的 磁盘 阵列 。 注 意 ， 对 于 4 张 磁盘 的 数据 ，RAID 2 级 方案 只 需要 3 张 磁 
盘 的 开销 ， 而 不 像 RAID 1 级 需要 4 张 磁盘 的 开销 。 
RAID 3 级 ( RAID level 3) ， 位 交叉 的 奇偶 校 验 组 织 结构 。RAID 3 级 在 RAID 2 级 的 基础 上 进行 
了 改进 。 与 内 存 系统 不 同 ， 磁 盘 控制 器 能 够 检测 一 个 扇 区 是 否 正 确 地 读 出 ， 所 以 可 以 使 用 一 个 
单一 的 奇偶 校 验 位 来 检 错 和 纠 错 。 它 的 思想 如 下 : 如 果 一 个 扇 区 被 破坏 ， 系 统 能 准确 地 知道 是 
哪个 扁 区 坏 了 ， 并 且 对 扇 区 中 的 每 一 位 ， 系 统 可 以 通过 计算 其 他 磁盘 上 对 应 扇 区 的 对 应 位 的 奇 
偶 值 来 推断 出 该 位 是 1 还 是 0。 如 果 其 余 位 的 奇偶 校 验 位 等 于 存储 的 奇偶 校 验 位 ， 则 丢失 的 位 
是 0， 反 之 为 1。 











注意 一 些 厂商 使 用 术语 RAID 0 + 1 来 指 代 RAID 的 一 个 版 本 ， 该 版 本 用 拆 分 创建 一 个 RAID 0 阵列 ， 并 用 另 一 个 
阵列 作为 该 阵列 的 镜像 。 它 与 RAID 1 的 区 别 在 于 如 果 一 张 磁盘 发 生 错误 ， 包 含 该 磁盘 的 RAID 0 阵列 变 为 不 可 
用 ， 镜 像 的 阵列 仍然 可 以 使 用 ， 因 此 没有 数据 丢失 。 在 一 张 磁盘 发 生 错误 时 ， 这 一 安排 不 如 RAID 1， 因 为 RAD 
0 阵列 中 的 其 他 磁盘 在 RAID 1 中 可 以 继续 使 用 ,但 是 在 RAID 0 +1 中 仍然 是 无 用 的 - 
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RAID 3 级 和 RAID 2 级 一 样 好 ， 但 是 在 额外 磁盘 的 数目 方面 更 加 节省 ( 它 只 有 一 张 磁盘 的 
开销 ) ， 所 以 在 实际 中 并 不 使 用 RAID 2。 图 10-3d 表示 RAID 3 级 方案 。 

RAID 3 级 与 RAID 1 级 相 比 有 两 个 好 处 。RAID 3 级 对 多 张 常规 磁盘 只 需要 一 个 奇偶 校 验 磁 
盘 ， 而 RAID 1 级 对 每 张 磁盘 都 需要 一 张 镜像 磁盘 ， 因 此 RAID 3 级 减少 了 存储 的 开销 ; 因为 使 
H N 道 数据 拆 分 的 RAID 3 级 对 一 个 字 节 的 读 写 散布 在 多 张 磁盘 中 ， 所 以 它 使 用 NN 道 数 据 拆 分 
读 写 一 个 块 的 传输 率 是 RAID 1 级 的 N 倍 。 但 男 一 方面 ， 因 为 每 张 磁盘 都 要 参与 每 个 /0 请 求 ， 
所 以 RAID 3 级 每 秒 钟 支持 的 VO 操作 数 较 少 。 

RAID 4 级 ( RAID level 4) ， 块 交叉 的 奇偶 校 验 组 织 结构 。 它 像 RAID 0 级 一 样 使 用 块 级 拆 分 ， 此 
外 在 一 张 独立 的 磁盘 上 为 其 他 N 张 磁盘 上 对 应 的 块 保留 一 个 奇偶 校 验 块 。 图 10-3e 表示 了 这 种 
方法 。 如 果 一 张 磁盘 发 生 故 障 ， 可 以 使 用 奇偶 校 验 块 和 其 他 磁盘 上 对 应 的 块 来 恢复 发 生 故 障 的 
磁盘 上 的 块 。 

它 读 取 一 个 块 只 访问 一 张 磁盘 ， 因 此 允许 其 他 的 请 求 在 其 他 磁盘 上 执行 。 这 样 ， 每 个 访问 
操作 的 数据 传输 率 较 低 ， 但 可 以 并 行 地 执行 多 个 读 操作 ， 从 而 能 产生 较 高 的 总 LO 传输 率 。 由 
于 所 有 磁盘 可 以 并 行 地 读 ， 因 此 读 取 大 量 数据 的 操作 有 很 高 的 传输 率 。 写 人 大 量 数据 的 操作 也 
有 很 高 的 传输 率 ， 因 为 数据 和 奇偶 校 验 位 可 以 并 行 地 写 。 

但 是 ， 小 的 独立 的 写 操作 不 能 并 行 地 执行 。 写 一 个 块 需要 访问 存储 这 个 块 的 磁盘 和 存储 奇 

偶 校 验 位 的 磁盘 ， 因 为 存储 奇偶 校 验 位 的 块 需要 更 新 。 另 外 ， 为 了 计算 新 的 奇偶 校 验 位 ， 需 要 
读 出 存储 奇偶 校 验 位 的 块 的 旧 值 和 要 写 人 的 块 的 旧 值 。 因 此 ， 一 个 单独 的 写 操作 需要 4 次 磁盘 
访问 : 两 次 读 操作 以 读 取 两 个 旧 块 ， 两 次 写 操 作 以 写 入 两 个 新 块 。 
RAID 5 级 (RAID level 5) ， 块 交叉 的 分 布 奇偶 校 验 位 的 组 织 结构 。RAID 5 级 在 RAID 4 级 的 基 
础 上 进行 了 改进 ， 将 数据 和 奇偶 校 验 位 都 分 布 到 所 有 的 N +1 张 磁盘 中 ， 而 不 是 在 N 张 磁盘 上 
存储 数据 并 在 一 张 磁盘 上 存储 奇偶 校 验 位 。 在 RAID 5 级 中 ， 所 有 磁盘 都 能 参与 对 读 请 求 的 服 
务 ， 而 不 像 RAID 4 级 中 存储 奇偶 校 验 位 的 磁盘 不 参与 读 操 作 ， 所 以 RAID 5 级 增加 了 在 一 段 给 
定 的 时 间 中 能 处 理 的 请 求 总 数 。 对 每 个 由 V 个 逻辑 磁盘 块 组 成 的 集合 来 说 ， 其 中 一 张 磁 盘存 储 
奇偶 校 验 块 ， 而 其 余 的 N 张 磁盘 存储 逻辑 磁盘 块 。 

图 10-3f 表示 了 这 种 方法 的 设置 ， 校 验 块 P 分布 到 所 有 磁盘 上 。 例如， 在 5 张 磁 盘 组 成 的 
阵列 中 ， 逻 辑 块 45、45+1、45+2、45 +3 对 应 的 奇偶 校 验 块 P,， 存 储 在 第 mod 5 张 磁盘 中 ; 
余下 的 4 张 磁盘 中 对 应 的 块 存储 4k ~4k+3 这 四 个 数据 块 。 下 面 的 表 描 述 了 0 ~ 19 这 前 20 个 块 
和 它们 的 奇偶 校 验 块 在 磁盘 中 是 如 何 排列 的 。 对 于 以 后 的 块 重复 这 样 的 存储 模式 。 

PO] oJ 1] 2] 3 
4 | P1 5 6 7 
8| 9|P |10 | 1 
12 | 13 | 14 | P3 | 15 
16 | 17 | 18 | 19 | P4 

注意 奇偶 校 验 块 不 能 和 其 所 对 应 的 数据 块 存 储 在 同一 张 磁盘 上 ， 如 果 这 样 ， 一 张 磁盘 发 生 

故障 会 导致 数据 和 奇偶 校 验 位 的 丢失 ， 数 据 将 是 不 可 恢复 的 。RAID 5 级 包含 RAID 4 级 ， 因 为 
它 在 相同 的 成 本 下 提供 了 更 好 的 读 写 性 能 ， 所 以 RAID 4 级 在 实际 中 未 使 用 。 
RAID 6 级 (RAID level 6) ，P + Q 宛 余 方案 。 它 和 RAIDS 级 非常 相似 ， 但 是 存储 了 额外 的 元 余 
信息 ， 以 应 对 多 张 磁盘 发 生 故 障 的 情况 。RAID 6 不 使 用 奇偶 校 验 的 方法 ， 而 是 使 用 像 Reed- 
Solomon 码 (参见 文献 注解 ) 之 类 的 纠 错 码 。 如 图 10-3g 所 示 ， 这 种 方法 与 RAID 5 级 对 每 4 位 数 
据 存储 1 个 奇偶 校 验 位 不 同 ， 它 为 每 4 位 数据 存储 2 位 的 元 余 信息 ， 这 样 系统 可 容忍 两 张 磁盘 
发 生 故 障 。 

















最 后 我 们 要 注意 的 是 ， 对 于 这 里 描述 的 基本 RAID 策略 ， 人 们 提出 了 许多 变种 ， 不 同 的 厂商 采用 
不 同 的 术语 来 描述 其 变种 。 
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10.3.4 RAID 级 别 的 选择 

选择 RAID 级 别 应 该 考虑 以 下 的 因素 : 

。 所 需 的 额外 磁盘 存储 带 来 的 花费 。 

。 在 IO 操作 数量 方面 的 性 能 需求 。 

。 磁盘 故障 时 的 性 能 。 

o 数据 重建 过 程 ( 即 ， 故 障 磁 盘 上 的 数据 在 新 磁盘 上 重建 的 过 程 ) 中 的 性 能 。 

重建 故障 磁盘 上 数据 的 时 间 可 能 很 长 ， 并 且 时 间 随 着 使 用 的 RAID 级 别 不 同 而 不 同 。RAID 1 级 的 
数据 重建 是 最 简单 的 ， 因 为 数据 可 以 从 另 一 张 磁盘 中 拷贝 得 到 。 对 其 他 级 别 ， 我们 需要 访问 磁盘 阵列 
中 所 有 其 他 磁盘 来 重建 故障 磁盘 上 的 数据 。 如 果 需 要 提供 连续 的 可 用 数据 ， 如 高 性 能 数据 库 所 做 的 那 
HE, IBA RAID 系统 的 重建 性 能 ( rebuild performance) 将 是 一 个 重要 因素 。 此 外 ， 因 为 重建 时 间 占 了 大 
部 分 的 恢复 时 间 ， 所 以 重建 性 能 也 会 影响 平均 数据 丢失 时 间 。 

RAID 0 级 用 于 数据 安全 性 不 是 很 重要 的 高 性 能 应 用 。 因 为 RAID 2 级 和 RAID 4 级 被 RAID 3 级 和 
RAID 5 级 所 包含 ， 所 以 RAID 级 别 的 选择 只 限于 在 剩 下 的 级 别 中 进行 。 比 特级 拆 分 (RAID 3 级 ) 不 如 块 
级 拆 分 (RAID 5 级 ) ， 这 是 因为 块 级 拆 分 对 于 大 量 数据 的 传输 有 与 RAID 3 级 同样 好 的 数据 传输 率 ， 同 
时 对 于 小 量 数据 的 传输 使 用 更 少 的 磁盘 。 对 于 小 量 数据 传输 ， 磁 盘 访 问 时 间 占 主要 地 位 ， 所 以 并 行 读 
取 并 没有 带 来 好 处 。 事 实 上 ， 对 于 小 量 数据 传输 ，RAID 3 级 可 能 比 RAID 5 级 的 性 能 更 差 ， 这 是 由 于 
只 有 当 所 有 磁盘 上 的 相关 扇 区 都 读 出 后 传输 才 算 完成 , 因此 采用 RAID 3 级 的 磁盘 阵列 的 平均 延迟 变 得 
非常 接近 于 单 张 磁盘 在 最 坏 情况 下 的 延迟 ， 从 而 抵消 了 其 较 高 传输 速率 的 长 处 。 当 前 ， 许 多 RAID 的 
实现 并 不 支持 RAID 6 级 ,但 是 RAID 6 级 提供 比 RAID 5 级 更 高 的 可 靠 性 ， 可 以 用 于 数据 安全 十 分 重要 
的 应 用 。 

在 RAID 1 级 和 RAID 5 级 中 做 出 选择 十 分 困难 。 由 于 RAID 1 级 提供 最 好 的 写 操作 的 性 能 ， 因 此 在 
例如 数据 库 系统 日 志文 件 的 存储 这 样 的 应 用 中 使 用 广泛 。RAID 5 级 与 RAID 1 级 相 比 具有 较 低 的 存储 
负载 ， 但 写 操作 需要 更 高 的 时 间 开 销 。 对 于 经 常 进行 读 操作 而 很 少 进行 写 操作 的 应 用 ，RAID 5 级 是 
首选 。 

许多 年 以 来 ， 磁 盘 的 存储 容量 以 每 年 超过 50% 的 速度 增长 ， 每 字 节 的 价格 却 以 相同 的 速率 下 降 。 
因而 ， 对 许多 现存 的 具有 中 等 存储 要 求 的 数据 库 应 用 而 言 ， 磁 盘 镜像 所 需 的 额外 磁盘 存储 的 开销 相对 
变 小 了 (但 是 ， 对 于 像 视 频数 据 存 储 这 样 的 高 强度 存储 的 应 用 而 言 ， 额 外 磁盘 存储 的 开销 仍然 是 一 个 重 
要 问题 )。 存 取 速 度 的 增长 相对 缓慢 (大 约 每 10 年 翻 三 倍 ) ， 但 是 每 秒 所 需 的 VO 操作 数 飞速 增长 ， 特 
别 是 对 Web 应 用 服务 器 。 

RAID 5 级 增加 了 写 单 个 逻辑 块 所 需 的 IO 操作 数 ， 在 写 性 能 方面 付出 了 较 长 时 间 的 代价 。 因 而 ， 
RAID 1 级 成 为 许多 具有 中 等 存储 需求 和 高 VO 需求 的 应 用 的 RAID 级 别 选择 。 

RAID 系统 的 设计 者 还 需要 做 出 一 些 其 他 决定 。 例 如 ， 一 个 阵列 中 应 该 有 多 少 磁盘 ? 每 个 奇偶 校 验 
位 应 保护 几 位 数据 ? 如 果 阵 列 中 的 磁盘 越 多 ， 数 据 传 输 率 就 越 高 ， 但 是 系统 将 会 越 昂 贵 。 如 果 一 个 奇 
偶 校 验 位 保护 的 数据 位 越 多 ， 存 储 奇 偶 校 验 位 的 空间 开销 就 会 越 小 ， 但 是 这 会 增加 在 第 一 张 发 生 故 障 
的 磁盘 被 修复 前 第 二 张 磁盘 也 发 生 故 障 的 机 会 ， 从 而 导致 数据 丢失 .， 

10. 3.5 硬件 问题 

选择 RAID 实现 要 考虑 的 另 一 个 因素 在 硬件 层 上 。RAID 可 以 在 不 改变 硬件 层 ， 只 修改 软件 的 基础 
上 实现 ， 这 样 的 RAID 称 为 软件 RAID( software RAID)。 然 而 ， 建 立 支 持 RAID 的 专用 硬件 也 会 带 来 下 
面 所 介绍 的 很 大 的 好 处 。 具 有 专用 硬件 支持 的 系统 称 为 硬件 RAID( hardware RAID) 系统 。 

硬件 RAID 实现 能 够 使 用 非 易 失 性 RAM 在 需要 执行 的 写 操作 执行 之 前 记录 它们 。 如 果 发 生 电 源 故 
障 ， 在 系统 恢复 时 ， 它 可 以 从 非 易 失 性 RAM 中 获得 有 关 未 完成 的 写 操 作 的 信息 ， 并 完成 它们 。 如 果 没 
有 这 种 硬件 支持 ， 就 需要 做 一 些 额 外 的 工作 ， 检 测 在 电源 故障 前 只 有 部 分 写 人 的 块 (参看 实践 习题 
10.3). 
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前 它 已 经 成 功 写 信 了。 个 别 扇 区 数据 流失 的 原因 可 能 是 多 种 多 样 的 ， 包 括 制 造 缺陷 或 者 一 条 轨道 在 相 
邻 轨道 重复 写 入 时 发 生 数据 损坏 。 这 样 丢失 的 数据 是 先前 成 功 写 入 的， 有 时 称 为 潜在 故障 (latent 
failure ) 或 位 腐 (bit rot) 。 当 发 生 这 样 的 故障 时 ， 如 果 发 现 得 早 ， 则 数据 可 以 通过 RAID 组 织 中 的 其 他 磁 
盘 进 行 恢复 。 但 是 ， 如 果 该 故障 未 被 发 现 ， 并 且 在 其 他 磁盘 的 一 个 扇 区 存在 潜在 故障 时 ， 那 么 单个 磁 
盘 故 障 可 能 导致 数据 丢失 

为 了 尽量 减少 数据 丢失 的 可 能 ， 良 好 的 RAID 控制 器 会 进行 擦洗 ( scrubbing) ， 也 就 是 说 ， 在 磁盘 
空闲 时 期 ， 对 每 张 磁盘 的 每 一 个 扇 区 进行 读 取 ， 如 果 发 现 某 个 扇 区 无 法 读 取 ， 则 数据 从 RAID 组 织 
其 余 磁 盘 中 进行 恢复 ， 并 写 回 到 扇 区 中 。( 如 果 物 理 扇 区 损坏 ， 磁 盘 控 制 器 将 逻辑 扇 区 地 址 重新 映射 到 
磁盘 上 其 他 的 物理 扇 区 地 址 。) 

一 些 硬件 RAID 实现 允许 热 交换 ( hot swapping) ， 就 是 在 不 切断 电源 的 情况 下 将 出 错 磁盘 用 新 的 磁 
盘 蔡 换 。 由 于 磁盘 的 替换 不 需要 等 待 系统 关 闭 这 段 时 间 ， 因 此 热 交换 减少 了 平均 恢复 时 间 。 事 实 上 ， 
现在 的 许多 关键 系统 都 以 24 x7 的 时 间 表 运行 ， 即 : 一 天 运行 24 小 时 ， 一 周 运行 7 天 。 因 而 没有 时 间 
关闭 系统 和 替换 故障 磁盘 。 进 一 步 而 言 ， 许 多 RAID 实现 给 每 一 个 磁盘 阵列 (或 一 个 磁盘 阵列 集 ) 分 配 
一 张 空闲 磁盘 。 当 系统 中 有 磁盘 发 生 了 故障 ， 空 闲 磁盘 会 立即 代替 故障 磁盘 工作 。 这 样 可 以 显著 降低 
平均 修复 时 间 ， 减 小 数据 丢失 的 机 会 。 可 以 从 容 地 替换 掉 故 障 磁盘 。 

在 RAID 系统 中 ， 电 源 、 磁 盘 控 制 器 甚或 系统 互 连 都 可 能 成 为 使 RAID 系统 停止 工作 的 单个 故障 发 
生 点 。 为 了 避免 这 种 可 能 性 ， 好 的 RAID 实现 提供 多 个 备用 电源 (有 电池 备份 ， 可 以 使 RAID 在 电源 故 
障 后 仍 能 继续 工作 ) 。 这 样 的 RAID 系统 还 拥有 多 个 磁盘 接口 ， 和 RAD 系统 与 计算 机 系统 的 多 个 互 连 
(或 者 与 计算 机 系统 网 络 的 连接 ) 。 因 而 ， 任 何 单个 部 件 的 故障 不 会 使 RAID 系统 停止 工作 。 

10.3.6 其 他 的 RAID 应 用 

RAID 的 概念 已 经 推广 到 其 他 的 存储 设备 上 ， 包 括 磁带 阵列 和 无 线 系统 上 的 数据 广播 。 在 运用 于 磁 
带 阵列 时 ，RAID 可 以 在 磁带 阵列 中 的 一 盘 磁 带 毁 坏 后 恢复 磁带 上 的 数据 。 当 运用 于 数据 广播 时 ， 数 据 
块 分 成 小 单元 ， 连 同 奇偶 校 验 单元 一 起 传播 。 如 果 其 中 一 个 单元 由 于 某 种 原因 没有 接收 到 ， 它 可 以 从 
其 他 的 单元 中 重新 构造 出 来 。 

10.4 第 三 级 存储 

在 大 型 数据 库 系统 中 ， 一 些 数据 可 能 要 放置 在 第 三 级 存储 中 。 两 种 最 常用 的 第 三 级 存储 介质 是 光 
盘 和 磁带 。 

10.4.1 光盘 

在 发 布 软件 、 多 媒体 数据 (如 声音 和 图 像 ) 和 其 他 电子 出 版 物 方面 ， 光 盘 已 经 成 为 一 种 流行 的 介 
质 。 光 盘 具 有 640 ~700MB 的 存储 容量 。 此 外 ， 光 盘 的 大 批量 生产 十 分 便宜 。 在 一 些 需 要 大 量 数据 的 
应 用 中 ， 数 字 视 频 光 盘 (DVD) 正 在 代替 光盘 。DVD-5 格式 的 光盘 可 以 存储 4.7GB 的 数据 (在 一 个 记录 
层 ) ， 而 DVD-9 格式 的 光盘 可 以 存储 8.5GB 的 数据 (在 两 个 记录 层 ) 。 在 光盘 的 两 面 都 存储 就 具有 更 大 
的 容量 ; 如 ， 作 为 DVD-5 格式 和 DVD-9 格式 的 双 面 存储 版 本 ，DVD-10 格式 和 DVD-18 格式 分 别 可 以 


存储 9.4GB 和 17GB 的 数据 ， 蓝 光 DVD 格式 具有 27 ~54GB 的 更 高 的 单 碟 存储 容量 。 


由 于 CD A DVD 驱动 器 的 激光 头 组件 更 重 ， 因 此 比 一 般 的 磁盘 驱动 器 需要 更 长 的 寻 道 时 间 ( 通 常 
是 100 毫秒 ) 。 虽 然 最 快 的 CD 和 DVD 驱动 器 转速 和 低档 的 磁盘 驱动 器 转速 接近 ， 大 约 是 每 分 钟 
3000 转 ， 但 是 仍 比 一 般 的 磁盘 驱动 器 转速 慢 。CD 驱动 器 的 旋转 速度 原来 是 和 音频 CD 的 标准 一 致 ， 
DVD 驱动 器 的 旋转 速度 原来 是 和 DVD 视频 标准 一 致 ， 但 是 ， 现 在 的 驱动 器 旋转 速度 比 标 准 速度 高 很 
BAR o 

CD All DVD 的 数据 传输 率 比 磁盘 的 数据 传输 率 要 慢 一 些 。 目 前 的 CD 驱动 器 的 读 取 速 度 大 约 是 每 
秒 3 ~6MB， 而 DVD 是 每 秒 8 ~20MB。 与 磁盘 一 样 ， 光 盘 在 外 侧 轨道 存储 的 数据 比 内 侧 轨道 要 多 。 光 
盘 的 数据 传输 率 用 n x 表示 ， 意 思 是 驱动 器 支持 的 传输 速率 是 标准 速率 的 n 倍 ,现在 常用 的 CD 是 50 
倍速 ，DVD 是 16 倍速 。 
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因为 可 记录 一 次 的 光盘 (CD-R、DVD-R 和 DVD +R) 容 量 大 ， 比 磁盘 有 更 长 的 寿命 ， 而 且 可 以 在 远 
程 存储 和 移 除 ， 所 以 适合 于 数据 分 发 ， 尤 其 适合 于 数据 的 归档 存储 。 因 为 它们 不 能 重 写 ， 所 以 它们 可 
用 于 存储 不 应 更 改 的 信息 ， 比 如 审计 追踪 信息 。 可 多 次 重 写 的 版 本 ( 像 CD-RW、DVD-RW、DVD + RW 
和 DVD-RAM) 也 可 用 于 数据 归档 。 

自动 光盘 机 (jukebox) 是 存储 大 量 的 光盘 (可 以 达到 几 百 张 ) 的 设备 ， 它 可 以 按照 需求 自动 将 光盘 装 
载 到 少量 驱动 器 (通常 是 1 ~ 10 个 驱动 器 ) 中 的 一 个 上 。 这 样 一 个 系统 的 总 计 存 储 总 量 可 以 是 若干 个 
TB。 当 光盘 被 访问 时 ， 机 械 手 把 它 从 架子 移 到 驱动 器 上 (在 驱动 器 中 的 光盘 首先 要 放 回 到 架子 上 )。 光 
盘 的 装载 和 钊 载 时 间 通 常 是 几 秒 的 数量 级 ， 这 上 比 光 盘 的 访问 时 间 要 长 得 多 。 
10.4.2 磁带 

尽管 相对 而 言 磁 带 的 保存 时 间 更 长 久 些 ， 并 且 能 够 存储 大 量 的 数据 ， 但 是 它 与 磁盘 和 光盘 相 比 速 
度 较 慢 。 更 重要 的 是 ， 磁 带 只 能 进行 顺序 存 取 。 因 此 磁带 不 能 提供 辅助 存储 所 需 的 随机 访问 ， 虽 然 在 
历史 上 ， 磁带 是 先 于 磁盘 被 作为 辅助 存储 介质 使 用 的 。 

磁带 主要 用 于 备份 ， 存 储 不 经 常 使 用 的 数据 ， 以 及 作为 将 数据 从 一 个 系统 转 到 另 一 个 系统 的 脱 机 
介质 。 磁 带 还 应 用 于 存储 大 量 数据 ， 例 如 视频 和 图 像 数 据 ， 它 们 不 需要 迅速 地 访问 ， 或 者 因为 数据 量 
太 大 以 至 于 磁盘 存储 太 昂 贵 。 

磁带 绕 在 一 条 轴 上 ， 通 过 卷 绕 或 反 卷 来 经 过 读 写 头 。 移 动 到 磁带 上 正确 的 位 置 可 能 需要 几 秒 钟 其 
至 几 分 钟 ， 而 不 是 几 毫 秒 。 然 而 一 旦 定位 完成 ， 磁 带 设 备 能 够 以 接近 磁盘 设备 的 密度 和 速度 来 写 数据 。[450 | 
磁带 的 容量 取决 于 磁带 的 长 度 、 宽 度 和 读 写 头 所 能 读 写 的 密度 。 当 前 市 场 上 的 磁带 格式 千差万别 。 当 
前 磁带 的 容量 也 相差 甚 远 ， 有 几 个 GB 的 数字 音频 磁带 ( Digital Audio Tape，DAT) 格 式 ，10 ~ 40GB 的 数 
字 线 性 磁带 ( Digital Linear Tape, DLT) 格式 ，100GB 或 者 更 高 的 Ultrium 格式 ， 以 及 330GB 的 Ampex 
螺旋 扫描 ( Ampex helical scan) 磁带 格式 。 数 据 传 输 率 在 每 秒 几 到 几 十 MB 的 数量 级 。 

磁带 设备 是 相当 可 靠 的 ， 好 的 磁带 驱动 系统 对 刚 写 的 数据 执行 一 次 读 操作 以 确保 数据 正确 记录 。 
但 是 磁带 能 可 靠 地 读 写 的 次 数 是 有 限 的 。 

自动 磁带 机 (tape jukebox) ， 像 自动 光盘 机 一 样 ， 存 放大 量 的 磁带 ， 并 有 少量 可 用 于 安装 磁带 的 驱 
动 器 。 它 用 于 存储 大 量 数 据 ， 存 储 范围 最 大 可 达 若 干 -PB(10 字 节 ) ， 而 存 取 时 间 在 几 秒 到 几 分钟 的 数 
量 级 。 需 要 如 此 巨大 的 数据 存储 的 应 用 包括 通过 遥感 卫星 搜集 数据 的 影像 系统 和 用 于 电视 广播 的 大 型 
视频 库 。 

一 些 磁 带 格式 (如 Accelis 格式 ) 支 持 更 快 的 寻 道 时 间 ( 是 几 十 秒 的 数量 级 )， 是 为 那些 从 自动 磁带 
机 获取 数据 的 应 用 设计 的 。 许 多 其 他 的 磁带 格式 提供 更 大 的 容量 , 但 是 以 更 慢 的 存 取 速 度 为 代价 ， 这 
样 的 格式 对 于 不 需要 快速 访问 的 数据 备份 是 很 理想 的 。 

磁带 驱动 器 已 经 无 法 跟 上 磁盘 驱动 器 容量 的 巨大 增长 和 对 应 的 存储 代价 的 降低 。 尽 管 磁带 的 成 
本 很 低 ， 但 磁带 驱动 器 和 磁带 库 的 成 本 明显 高 于 一 张 磁盘 的 成 本 : 一 个 能 存储 几 TB 数据 的 磁带 库 可 
能 价值 几 万 美元 。 对 于 大 量 应 用 而 言 ， 较 之 磁带 备份 ， 备 份 数据 到 磁盘 驱动 器 已 经 成 为 一 种 划算 的 
选择 。 
10.5 文件 组 织 


一 个 数据 库 被 映射 到 多 个 不 同 的 文件 ， 这 些 文件 由 底层 的 操作 系统 来 维护 。 这 些 文件 永久 地 存在 
于 磁盘 上 。 一 个 文件 (file) 在 逻辑 上 组 织 成 为 记录 的 一 个 序列 。 这 些 记录 映射 到 磁盘 块 上 。 因 为 文件 由 
操作 系统 作为 一 种 基本 结构 提供 ， 所 以 我 们 将 假定 作为 基础 的 文件 系统 是 存在 的 。 我 们 需要 考虑 用 文 
件 表示 逻辑 数据 模型 的 不 同方 式 。 

每 个 文件 分 成 定 长 的 存储 单元 ， 称 为 块 (block) 。 块 是 存储 分 配 和 数据 传输 的 基本 单元 。 大 多 数 数 
据 库 默 认 使 用 4 ~8KB 的 块 大 小 ， 但 是 当 创建 数据 库 实例 时 ， 许 多 数据 库 允 许 指 定 块 大 小 。 更 大 的 块 
在 一 些 数 据 库 应 用 中 是 很 有 用 的 。 
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一 个 块 可 能 包括 很 多 条 记录 。 一 个 块 所 包含 的 确切 的 记录 集合 是 由 使 用 的 物理 数据 组 织 形式 所 
本 

大 学 例子 。 当 然 ， 数 据 库 中 会 有 几 种 大 数据 项 ， 例 如 图 片 ， 可 能 比 一 个 块 要 大 很 多 。10. 5. 2 节 会 
要 地 讨论 如 何 通过 单独 地 存储 大 数据 项 ， 并 且 存储 指向 这 录 中 大 数据 项 的 指针 来 处 理 类 似 的 大 数 
据 项 。 

此 外 ， 我们 需要 要 求 每 条 记录 包含 在 单个 块 中 ， 换 名 话 说 ,没有 记录 是 部 分 包含 在 一 个 块 中 ， 部 
分 包含 在 另 一 个 块 中 。 这 个 限制 简化 并 加 速 数据 项 访问 。 

在 关系 数据 库 中 ， 不 同 关系 的 元 组 通常 具有 不 同 的 大 小 。 把 数据 库 映 射 到 文件 的 一 种 方法 是 使 用 
多 个 文件 ， 在 任意 一 个 文件 中 只 存储 一 个 固定 长 度 的 记录 。 男 一 种 选择 是 构造 自己 的 文件 ， 使 之 能 够 容 
纳 多 种 长 度 的 记录 。 然 而 ， 定 长 记录 文件 比 变 长 记录 文件 更 容易 实现 。 很 多 用 于 定 长 记录 文件 的 技术 可 
以 应 用 到 变 长 的 情况 。 因 此 ， 我 们 首先 考虑 定 长 记录 文件 ， 并 且 随 后 考虑 变 长 记录 存储 。 
10.5.1 定 长 记录 

例如 ， 让 我 们 考虑 由 大 学 数据 库 中 的 instructor 记录 组 成 的 一 个 文件 。 文 件 中 的 每 个 记录 定义 (使 用 
伪 代 码 ) 如 下 : 





type instructor = record 
ID varchar(5) ; 
name varchar ( 20) ; 
dept_name varchar(20) ; 
salary numeric(8, 2) ; 
end 


假设 每 个 字符 占 1 个 字 节 ，numeric(8，2) 占 8 个 
字 节 。 假 设 我 们 为 每 个 属性 ID, name 和 dept_name 分 
配 可 以 容纳 的 最 大 字 节 数 ， 而 不 是 分 配 可 变 的 字 节 
数 。 于 是 instuctor 记录 占 53 个 字 节 。 一 个 简单 的 方法 
是 使 用 前 53 个 字 节 来 存储 第 一 条 记录 ， 接 下 来 的 53 
个 字 节 存储 第 二 条 记录 ， 以 此 类 推 ( 如 图 10-4 RAR) 。 
然而 这 种 简单 的 方法 有 两 个 问题 : 
。 除非 块 的 大 小 恰好 是 53 的 倍数 (一 般 是 不 太 
可 能 的 ) ， 否 则 一 些 记录 会 跨 过 块 的 边界 ， 即 
一 条 记录 的 一 部 分 存储 在 一 个 块 中 ， 而 另 一 
部 分 存储 在 另 一 个 块 中 。 于 是 ， 读 写 这 样 一 图 10-4， 包 售 account 记录 的 文件 
条 记录 需要 两 次 块 访问 。 
。 从 这 个 结构 中 删除 一 条 记录 十 分 困难 。 删 除 的 记录 所 占据 的 空间 必须 由 文件 中 的 其 他 记录 来 填 
充 ， 或 者 我 们 必须 用 一 种 方法 标记 删除 的 记录 使 得 它 可 以 被 忽略 。 
为 了 避免 第 一 个 问题 ， 我 们 在 一 个 块 中 只 分 配 。 “记录 0 
它 能 完整 容纳 下 的 最 大 的 记录 数 (这 个 数字 可 以 很 ”记录 
容易 通过 块 大 小 除 以 记录 大 小 计算 出 来 ， 并 废弃 小 ER 
数 部 分 ) 。 每 个 块 中 余下 的 字 节 就 不 使 用 了 。 记录 5 
当 一 条 记录 被 删除 时 ， 我 们 可 以 把 紧 跟 其 后 的 。 ”记录 6 | 
记录 移动 到 被 删 记录 先前 占据 的 空间 ， 依 次 类 推 ， A Tee Tsm 
直到 被 删 记录 后 面 的 每 一 条 记录 都 向 前 做 了 移动 记录 9 See ae Me 
( 见 图 10-5) 。 这 种 方法 需要 移动 大 量 的 记录 。 简 单 WRO et T Brard f Comp SEE 92000 
地 将 文件 的 最 后 一 条 记录 移 到 被 删 记 录 所 占据 空间 E" 
中 可 能 更 容易 一 些 ( 如 图 10-6 所 示 ) 。 图 10-5 图 10-4 中 的 文件 : 删除 了 记录 3 
移动 记录 以 占据 被 删 记录 所 释放 空间 的 做 法 并 并 且 移 动 所 有 记录 

















人 ee A 


录 占 据 的 空间 空 着 , 一直 等 到 随后 进行 的 插入 操作 重 
用 这 个 空间 ， 这 样 做 是 可 以 接受 的 。 仅 在 被 删 记录 上 
做 一 个 标记 是 不 够 的 ， 因 为 当 插入 操作 执行 时 ， 找 到 
这 个 可 用 空间 十 分 困难 。 因 此 我 们 需要 引入 额外 的 
结构 。 





在 文件 的 开始 处 ， 我 们 分 配 一 定数 量 的 字 节 作为 
文件 头 (file header) 。 文 件 头 将 包含 有 关 文 件 的 各 种 
信息 。 到 目前 为 止 ， 我 们 需要 在 文件 头 中 存储 的 只 有 
内 容 被 删除 的 第 一 个 记录 的 地 址 。 我 们 用 这 第 一 个 记 
录 来 存储 第 二 个 可 用 记录 的 地 址 ， 依 次 类 推 。 我 们 可 
以 直观 地 把 这 些 存储 的 地 址 看 作 指 针 ， 因 为 它们 指向 


一 个 记录 的 位 置 。 于 是 ， 被 删除 的 记录 形成 了 一 条 链表 ， 
是 图 10-4 中 的 文件 在 删除 第 1、4 和 6 条 记录 后 的 情况 。 
在 插入 一 条 新 记录 时 ， 我 们 使 用 文件 头头 文 件 


所 指向 的 记录 ， 并 改变 文件 头 的 指针 以 指向 ”记录 0 
下 一 个 可 用 记录 。 如 果 没有 可 用 的 空间 ， 我 。 WRI 
们 就 把 这 条 新 记录 添加 到 文件 未 尾 。 en 
对 定 长 记录 文件 的 插入 和 删除 是 容易 实 。 ”记录 4 
现 的 ， 因 为 被 删除 记录 留 出 的 可 用 空间 恰好 记录 5 
是 插入 记录 所 需要 的 空间 。 如 果 我 们 允许 文 
件 中 包含 不 同 长 度 的 记录 ， 这 样 的 匹配 将 不 。 记录 8 
再 成 立 。 插 入 的 记录 可 能 无 法 放 入 一 条 被 删 ”记录 9 


除 记录 所 释放 的 空间 中 ， 或 者 只 能 占用 这 个 “记录 10 | 83821 


空间 的 一 部 分 。 
10.5.2 KEF pe 
变 长 记录 以 下 面 几 种 方式 出 现在 数据 库 系统 中 : 
。 多 种 记录 类 型 在 一 个 文件 中 存储 。 
© 允许 一 个 或 多 个 字段 是 变 长 的 记录 类 型 。 


记录 10 


图 10-6 图 10-5 中 的 文件 ， 


经 常 称 为 空闲 列表 (free list), 
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因此 让 已 被 删 记 
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并 且 移 动 最 后 一 条 记录 


删除 了 记录 3 


图 10-7 给 出 的 
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删除 了 第 1、 


o 人 允许 可 重复 字段 的 记录 类 型 ， 例 如 数组 或 多 重 集合 。 
实现 变 长 记录 存在 不 同 的 技术 ,任何 这 样 的 技术 都 必须 解决 两 个 不 同 的 问题 :; 
。 如 何 描述 一 条 记录 ， 使 得 单个 属性 可 以 轻松 地 抽取 。 
o 在 块 中 如 何 存储 变 长 记录 ， 使 得 块 中 的 记录 可 以 轻松 地 抽取 。 
一 条 有 变 长 度 属性 的 记录 表示 通常 具有 两 个 部 分 : 初始 部 分 是 定 长 属性 ， 接 下 来 是 变 长 属性 。 对 


于 定 长 属性 ， 如 数字 值 、 日 期 或 定 长 字符 串 ， 分 配 存储 它们 的 值 所 需 的 


字 节 数 。 对 于 变 长 


4 和 6 条 记录 的 图 10-4 中 的 文件 





属性 ， 如 


varchar 类 型 ， 在 记录 的 初始 部 分 中 表示 为 一 个 对 ( 偏 移 量 ， 长 度 ) 值 ， 其 中 偏 移 量 表示 在 记录 中 该 属性 
的 数据 开始 的 位 置 ， 长 度 表示 变 长 属性 的 字 节 长 度 。 在 记录 的 初始 定 长 部 分 之 后 ， 这 些 属性 的 值 是 连 
续 存 储 的 。 因 此 ， 无 论 是 定 长 还 是 变 长 ， 记 录 初 始 部 分 存储 有 关 每 个 属性 的 固定 长 度 的 信息 。 

图 10-8 描述 这 样 一 个 记录 表示 的 例子 。 该 图 显示 了 一 个 instuctor 记录 ， 它 的 前 三 个 属性 ID, name 
和 dept_name 是 变 长 字符 串 ， 其 第 4 个 属性 salary 是 一 个 大 小 固定 的 数值 。 我 们 假设 偏 移 量 和 长 度 值 存 
储 在 两 个 字 节 中 ， 即 每 个 属性 占 4 个 字 节 。salary 属性 假设 用 8 个 字 节 存储 ， 并 且 每 个 字符 串 占用 和 其 


拥有 字符 数 一 样 多 的 字 节 数 。 





454 | 
| 


258 ”第 三 部 分 数据 存储 和 查询 


00 


um 空 位 图 ( 存 于 1 个 字 节 中 ) 
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E 10-8 变 长 记录 的 表示 
这 个 图 也 说 明了 空位 图 (null bitmap ) 的 使 用 ， 它 用 来 表示 记录 的 哪个 属性 是 空 值 。 在 这 个 特定 的 
记录 中 ， 如 果 salary 是 空 值 ， 该 位 图 的 第 4 位 将 置 1， 存 储 在 12 ~ 19 字 节 的 salary 值 将 被 忽略 。 由 于 记 
录 有 4 个 属性 ， 尽 管 更 多 属性 需要 更 多 字 节 ， 但 该 记录 的 空位 图 只 占用 1 个 字 节 。 在 一 些 表 示 中 ， 空 
位 图 存储 在 记录 的 开头 ， 并 且 对 于 空 属性 不 存储 数据 ( 值 或 偏 移 量 /长 度 ) 。 这 种 表示 以 抽取 记录 属性 
的 额外 工作 为 代价 来 节省 存储 空间 。 对 于 记录 拥有 大 量 字段 ， 并 且 大 多 数 都 是 空 的 特定 应 用 ， 这 样 的 
表示 特别 有 用 。 
记录 




















空闲 空间 的 尾部 
图 10-9 分 槽 的 页 结构 


我 们 接 下 来 处 理 在 块 中 存储 变 长 记录 的 问题 ， 分 杠 的 页 结构 ( slotted-page structure) 一 般 用 于 在 块 中 
组 织 记录 ， 如 图 10-9 “所 示 。 每 个 块 的 开始 处 有 一 个 块头 ， 其 中 包含 以 下 信息 : 

1. 块头 中 记录 条 目的 个 数 。 

2. 块 中 空闲 空间 的 末尾 处 。 

3. 一 个 由 包含 记录 位 置 和 大 小 的 记录 条 目 组 成 的 数组 。 

实际 记录 从 块 的 尾部 开始 连续 排列 。 块 中 空闲 空间 是 连续 的 ， 在 块头 数组 的 最 后 一 个 条 目 和 第 一 
条 记录 之 间 。 如 果 插 入 一 条 记录 ， 在 空闲 空间 的 尾部 给 这 条 记录 分 配 空 间 ， 并 且 将 包含 这 条 记录 大 小 
和 位 置 的 条 目 添 加 到 块头 中 。 

如 果 一 条 记录 被 删除 ， 它 所 占用 的 空间 被 释放 ， 并 且 它 的 条 目 被 设置 成 被 删除 状态 (例如 这 条 记录 
的 大 小 被 设置 为 -1)。 此 外 ， 块 中 在 被 删除 记录 之 前 的 记录 将 被 移动 ， 使 得 由 删除 而 产生 的 空闲 空间 
被 重用 ， 并 且 所 有 空闲 空间 仍然 存在 于 块头 数组 的 最 后 一 个 条 目 和 第 一 条 记录 之 间 。 块 头 中 的 空闲 空 
间 末 尾 指针 也 要 做 适当 修改 。 只 要 块 中 有 空间 ， 使 用 类 似 的 技术 可 以 使 记录 增长 或 缩短 。 移 动 记录 的 
代价 并 不 高 ， 因 为 块 的 大 小 是 有 限制 的 : 典型 的 值 为 4 ~8KB。 

分 槽 的 页 结构 要 求 没 有 指针 直接 指向 记录 。 取 而 代 之 ， 指 针 必 须 指 向 块头 中 记 有 记录 实际 位 置 的 
条 目 。 在 支持 指向 记录 的 间接 指针 的 同时 ， 这 种 间接 层次 允许 移动 记录 以 防止 在 块 的 内 部 出 现 碎 片 
空间 。 

数据 库 常 常 要 存储 比 磁盘 块 大 得 多 的 数据 ， 例 如 ， 一 张 图 片 或 一 个 音频 记录 的 大 小 可 能 是 几 MB, 
而 一 个 视频 文件 可 能 达到 几 个 GB。 回 忆 一 下 我 们 以 前 讲 过 SQL 支持 blob 和 clob 类 型 ， 它 们 存储 二 进 
制 大 对 象 和 字符 大 对 象 。 

大 多 数 关系 数据 库 限 制 记 录 不 大 于 一 个 块 的 大 小 以 简化 缓冲 区 管理 和 空闲 空间 管理 。 大 对 象 常常 
存储 到 一 个 特殊 文件 (或 文件 的 集合 ) 中 而 不 是 与 记录 的 其 他 ( 短 ) 属 性 存储 在 一 起 。 然 后 一 个 指向 该 对 
象 的 (逻辑 ) 指针 存储 到 包含 该 大 对 象 的 记录 中 。 大 对 象 常常 表示 我 们 在 11. 4. 1 节 要 学 习 的 B 树 文 件 
组 织 。B' 树 文件 组 织 允 许 我 们 读 取 一 个 完整 的 对 象 ， 或 对 象 中 指定 的 字 节 范围 ， 以 及 插入 和 删除 对 象 
的 部 分 。 
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10.6 文件 中 记录 的 组 织 


迄今 为 止 ， 我 们 研究 了 如 何在 一 个 文件 结构 中 表示 记录 。 关 系 是 记录 的 集合 。 给 定 一 个 记录 的 集 
合 之 后 ， 下 一 个 问题 就 是 如 何在 文件 中 组 织 它 们 。 下 面 是 在 文件 中 组 织 记录 的 几 种 可 能 的 方法 : 
© 堆 文 件 组 织 ( heap file organization) 。 一 条 记录 可 以 放 在 文件 中 的 任何 地 方 ， 只 要 那个 地 方 有 空 
间 存 放 这 条 记录 。 记 录 是 没有 顺序 的 。 通 常 每 个 关系 使 用 一 个 单独 的 文件 。 
© 顺序 文件 组 织 ( sequential file organization ) 。 记 录 根 据 其 "搜索 码 " 的 值 顺 序 存 储 。10. 6. 1 节 描 述 
了 这 种 组 织 方式 。 
© 散 列 文件 组 织 (hashing file organization) 。 在 每 条 记录 的 某 些 属性 上 计算 一 个 散 列 函 数 。 散 列 函 
数 的 结果 确定 了 记录 应 放 到 文件 的 哪个 块 中 。 第 11 章 描 述 这 种 组 织 方式 。 它 与 那 一 章 所 描述 [456 | 
的 索引 结构 密切 相关 。 457 
通常 ， 每 个 关系 的 记录 用 一 个 单独 的 文件 存储 。 但 是 在 多 表 聚 簇 文件 组 织 ( multitable clustering file 
organization) 中 ， 几 个 不 同 关系 的 记录 存储 在 同一 个 文件 中 。 而 且 ， 不同 关系 的 相关 记录 存储 在 相同 的 
块 中 ， 于 是 一 个 V0 操作 可 以 从 所 有 关系 中 取 到 相关 的 记录 。 例 如 ， 两 个 关系 做 连接 运算 时 相 匹 配 的 
记录 被 认为 是 相关 的 。10. 6. 2 节 描 述 这 种 组 织 方 式 。 
10. 6. 1 顺序 文件 组 织 
顺序 文件 ( sequential file ) 是 为 了 高 效 处 理 按 某 个 搜索 码 的 顺序 排序 的 记录 而 设计 的 。 搜 索 码 
(search key) 是 任何 一 个 属性 或 者 属性 的 集合 。 它 没有 必要 是 主 码 ， 甚 至 也 无 须 是 超 码 。 为 了 快速 地 按 
搜索 码 的 顺序 获取 记录 ， 我 们 通过 指针 把 记录 链接 [10101 [Srinivasan | Comp.Sa | 65000 | 
起 来 。 每 条 记录 的 指针 指向 按 搜索 码 顺序 排列 的 下 90000 
一 条 记录 。 此 外 ， 为 了 减少 顺序 文件 处 理 中 的 块 访 
问 数 ， 我 们 在 物理 上 按 搜索 码 顺序 或 者 尽 可 能 地 接 
近 按 搜索 码 顺序 存储 记录 。 
图 10-10 表示 了 在 大 学 例子 中 由 instructor 记录 
组 成 的 顺序 文件 。 在 该 例子 中 ， 记 录 按 搜索 码 顺序 
存储 ， 这 里 使 用 ID 作为 搜索 码 。 
顺序 文件 组 织 形式 允许 记录 按 排 序 的 顺序 读 取 ; 
这 对 于 显示 以 及 第 12 章 将 研究 的 特定 查询 处 理 算法 = 
非常 有 用 。 图 10-10 instructor 记录 组 成 的 顺序 文件 
然而 ， 在 插入 和 删除 记录 时 维护 记录 的 物理 顺 
序 是 十 分 困难 的 ， 因 为 一 次 单独 的 插入 或 删除 操作 导致 移动 很 多 记录 是 代价 很 高 的 。 我 们 可 以 按照 前 [458] 
面 看 到 的 那样 ， 使 用 指针 链表 来 管理 删除 。 对 插入 操作 ， 应 用 如 下 规则 : 














1. 在 文件 中 定位 按 搜索 码 顺序 处 于 待 插入 IPT 
记录 之 前 的 那 条 记录 。 





2. 如 果 这 条 记录 所 在 块 中 有 一 条 空闲 记录 1 | Mozar 
( 即 删 除 后 留 下 来 的 空间 ) ， 就 在 这 里 插入 新 的 


El Said History 
记录 。 否 则 ,将 新 记录 插入 到 一 个 溢出 块 中 。 Physics | 
不 管 哪 种 情况 ， 都 要 调整 指针 ， 使 其 能 按 搜索 | 45565 [Katz | Comp. Sei > | 

Califieri History 一 

码 顺序 把 记录 链接 在 一 起 。 Fishes i | 

图 10-11 表示 图 10-10 所 示 文 件 在 插入 记录 | 
(32222, Verdi, Music, 48000) 之 后 的 情况 。 图 
10-11 中 的 结构 允许 快速 插入 新 的 记录 ， 但 是 迫 
使 顺序 处 理 文件 的 应 用 程序 不 得 不 按 与 记录 的 
物理 顺序 不 一 样 的 顺序 来 处 理 记录 。 

如 果 需 要 存储 在 溢出 块 中 的 记录 相当 少 ， 图 10-11 执行 插入 后 的 顺序 文件 


























32222 [Verdi [Music | 48000 ed 
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459 


这 种 方法 会 工作 得 很 好 。 然 而 ， 搜 索 码 顺序 和 物理 顺序 之 间 的 一 致 性 可 能 会 完全 丧失 ， 在 这 种 情况 下 ， 
顺序 处 理 将 变 得 效率 十 分 低下 。 此 时 ,文件 应 该 重组 (reorganized) ， 使 得 它 再 一 次 在 物理 上 顺序 存放 。 
这 种 重组 的 代价 是 很 高 的 ， 并且 必 须 在 系统 负载 很 低 的 时 候 执行 。 需 要 重组 的 频率 依赖 于 新 记录 插入 
的 频率 。 在 插入 很 少 发 生 的 极端 情况 下 ， 使 文件 在 物理 上 总 保持 排序 的 顺序 是 可 能 的 ， 在 这 种 情况 下 ， 
图 10-10 中 的 指针 域 是 不 需要 的 。 
10.6.2 SRRRNAAR 

很 多 关系 数据 库 系统 将 每 个 关系 存储 在 单独 的 文件 中 ， 以 便 它 们 可 以 利用 操作 系统 所 提供 的 文件 
系统 的 所 有 好 处 。 通 常 ， 关 系 的 元 组 可 以 表示 成 定 长 记录 。 因 此 ， 关 系 可 以 映射 到 一 个 简单 的 文件 结 
构 上 。 关 系数 据 库 系统 的 这 种 简单 实现 非常 适合 于 廉价 的 数据 库 实 现 ， 例 如 ， 艇 入 式 系统 和 便携 式 设 
备 中 的 数据 库 实现 。 在 这 种 系统 中 ， 数 据 库 的 规模 很 小 ， 因 此 复杂 的 文件 结构 不 会 带 来 什么 好 处 。 而 
且 ， 在 这 样 的 环境 中 ， 必 须 使 数据 库 系统 目标 代码 总 量 非常 小 。 简 单 的 文件 结构 可 以 减少 实现 这 个 系 
统 的 代码 量 。 

这 种 简单 的 关系 数据 库 实现 在 数据 库 的 规模 增 大 时 就 不 令 人 满意 了 。 我 们 已 经 看 到 ,仔细 地 设计 
记录 在 块 中 的 分 配 和 块 自身 的 组 织 方式 可 以 获得 性 能 上 的 好 处 。 显 而 易 见 ， 一 个 更 复杂 的 文件 结构 将 
更 有 效 ， 即 使 我 们 保留 在 一 个 独立 的 文件 中 存储 一 个 关系 的 策略 。 

然而 ， 很 多 大 型 数据 库 系统 在 文件 管理 方面 并 不 直接 依赖 于 下 层 的 操作 系统 ， 而 是 让 操作 系统 分 
配给 数据 库 系 统一 个 大 的 操作 系统 文件 。 数 据 库 系统 把 所 有 关系 存储 在 这 个 文件 中 ,并且 自己 管理 这 
Pa 

即使 一 个 文件 中 有 多 个 关系 ， 默 认 情 况 下 ， 多 数 数据 库 在 一 个 给 定 块 中 只 存储 一 个 关系 的 记录 。 
这 简化 了 数据 管理 。 但 是 ,在 某 些 情况 下 ， 在 一 个 块 中 存储 多 个 关系 的 记录 会 很 有 用 。 为 了 理解 在 一 
个 块 中 存储 多 个 关系 的 记录 的 的 好 处 ， 我 们 考虑 对 大 学 数据 库 的 如 下 SQL 查询 : 


. select dept_name, building, budget, ID, name, salary 
from department natural join instructor 


这 个 查询 计算 department 关系 和 instructor 关系 的 连接 。 因 此 ， 对 department 的 每 个 元 组 ， 系 统 必 须 找 到 
具有 相同 dept_name 的 instructor 元 组 。 理 想 情 况 下 ， 这 些 记录 通过 索引 的 帮助 来 定位 ， 这 将 在 第 11 章 
讨论 。 然 而 ， 不 管 这 些 记 录 如 何 定位 ， 它 们 都 需要 从 磁盘 上 传输 到 主 存储 器 中 。 在 最 坏 的 情况 下 ， 每 
个 记录 将 处 于 不 同 的 块 中 ,迫使 我 们 为 查询 所 需 的 每 条 记录 执行 一 次 读 块 操作 。 

作为 一 个 具体 的 例子 ， 考 虑 分 别 在 图 10-12 和 图 10-13 中 的 department 和 instructor 关系 (简化 起 见 ， 
我 们 只 包括 了 前 面 所 用 到 的 关系 中 元 组 的 一 个 子 集 ) 。 在 图 10-14 中 ， 我 们 给 出 了 一 个 为 高 效 执行 涉及 
department 自然 连接 instructor 的 查询 而 设计 的 文件 结构 。 每 个 系 的 instructor 元 组 存储 在 具有 相应 dept_ 
name 的 department 元 组 附近 。 这 种 结构 将 两 个 关系 的 元 组 混合 在 一 起 ， 而 允许 对 连接 的 高 效 处 理 。 当 
读 取 department 关系 的 一 个 元 组 时 ， 包 含 这 个 元 组 的 整个 块 从 磁盘 拷贝 到 主 存储 器 中 。 因 为 相应 的 
instructor 元 组 存储 在 靠近 department 元 组 的 磁盘 上 ， 所 以 包含 department 元 组 的 块 包含 处 理 查询 所 需 的 
instructor 关系 的 元 组 。 如 果 一 个 系 有 太 多 的 教师 ， 以 至 于 instructor 记录 不 能 存储 在 一 个 块 中 ， 则 其 余 
的 记录 出 现在 临近 的 块 中 。 









































ID | name | dept-name | salary | 
as 10101 | Srinivasan | Comp. Sci. | 65000 | 
| deptname | building | budget 33456 | Gold Physics | 87000 | 
Comp. Sci. | Taylor 100000 45565 | Katz Comp. Sci. | 75000 | 
Physics | Watson 70000 83821 | Brandt Comp. Sci. | 92000 
图 10-12 department 关系 图 10-13 instructor 关系 


Z FRE MW FAA ( multitable clustering file organization) 是 一 种 在 每 一 块 中 存储 两 个 或 者 更 多 个 关系 
的 相关 记录 的 文件 结构 ， 如 图 10-14 所 示 。 这 样 的 文件 组 织 允许 我 们 使 用 一 次 块 的 读 操作 来 读 取 满足 
连接 条 件 的 记录 。 因 此 ， 我 们 可 以 更 高 效 地 处 理 这 种 特殊 的 查询 。 

在 图 10-14 所 示 的 例子 中 , 来 自 instructor 记录 的 dept_name 属性 被 省 略 掉 ， 这 是 因为 它 可 以 从 相关 
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department 记录 中 推断 出 来 ， 该 属性 可 能 会 在 一 些 实现 中 保留 ， 以 简化 属性 的 访问 。 我 们 假定 每 条 记录 
包含 它 所 属 关系 的 标识 符 ， 尽 管 这 没有 在 图 10-14 中 表示 出 来 。 

我 们 对 将 多 个 表 聚 集 到 一 个 文件 中 的 使 用 加 速 了 对 特定 连接 ( departiment 和 instructor 的 连接 ) 的 处 
H, 但 是 它 导致 其 他 类 型 查询 的 处 理 变 慢 。 例 如 : 


select ` 
from department 


与 在 单一 文件 中 存储 单一 关系 的 策略 相 比 ， 这 个 查询 需要 访问 更 多 的 块 ， 因 为 每 个 块 现在 明显 包含 更 
少 的 department 记录 。 为 了 在 图 10-14 的 结构 中 找到 department 关系 的 所 有 元 组 ， 我 们 可 以 用 指针 把 这 
个 关系 的 所 有 记录 链接 起 来 ， 如 图 10-15 所 示 。 

何 时 使 用 多 表 聚 簇 依赖 于 数据 库 设计 者 所 认为 的 最 频繁 的 查询 类 型 。 多 表 聚 簇 的 谨慎 使 用 可 以 在 
查询 处 理 中 产生 明显 的 性 能 提高 。 





















图 10-15 带 指针 链 的 多 表 上 聚 簇 文件 结构 


10.7 数据 字典 存储 


到 目前 为 止 ， 我 们 只 考虑 了 关系 本 身 的 表示 。 一 个 关系 数据 库 系 统 需 要 维护 关于 关系 的 数据 ， 如 
关系 的 模式 等 。 一 般 来 说 ， 这 样 的 “关于 数据 的 数据 ” 称 为 元 数据 (metadata ) 。 

关于 关系 的 关系 模式 和 其 他 元 数据 存储 在 称 为 数据 字典 (data dictionary ) 或 系统 目录 ( system 
catalog) 的 结构 中 。 系 统 必 须 存 储 的 信息 类 型 有 : 

。 关系 的 名 字 。 

。 每 个 关系 中 属性 的 名 字 。 

。 属性 的 域 和 长 度 。 

。 在 数据 库 上 定义 的 视图 的 名 字 和 这 些 视图 的 定义 。 

。 完整 性 约束 (例如 ， 码 约束 ) 。 

此 外 ， 很 多 系统 为 系统 的 用 户 保 存 了 下 列 数据 : 

。 授权 用 户 的 名 字 。 

。 关于 用 户 的 授权 和 账户 信息 。 

。 用 于 认证 用 户 的 密码 或 其 他 信息 。 

数据 库 可 能 还 会 存储 关于 关系 的 统计 数据 和 描述 数据 。 例 如 : 

。 每 个 关系 中 元 组 的 总 数 。 

© 每 个 关系 所 使 用 的 存储 方法 (例如 ， 聚 簇 或 非 聚 簇 ) 。 

数据 字典 也 会 记录 关系 的 存储 组 织 (顺序 、 散 列 或 堆 ) ， 和 每 个 关系 的 存储 位 置 : 

© 如 果 关 系 存储 在 操作 系统 文件 中 ， 数 据 字典 将 会 记录 包含 每 个 关系 的 文件 名 。 

。 如 果 数 据 库 把 所 有 关系 存储 在 一 个 文件 中 ， 数 据 字 典 可 能 将 包含 每 个 关系 中 记录 的 块 记 在 如 链 

表 这 样 的 数据 结构 中 。 
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第 11 章 研究 索引 ， 在 那 一 章 中 ， 我 们 将 看 到 有 必要 存储 关于 每 个 关系 的 每 个 索引 的 信息 : 

。 索引 的 名 字 。 

。 被 索引 的 关系 的 名 字 。 

。 在 其 上 定义 索引 的 属性 。 

。 构造 的 索引 的 类 型 。 

实际 上 ， 所 有 这 些 元 数据 信息 组 成 了 一 个 微型 数据 库 。 一 些 数据 库 系统 使 用 专用 的 数据 结构 和 代 
码 来 存储 这 些 信息 。 通 常人 们 更 倾向 于 在 数据 库 中 存储 关于 数据 库 本 身 的 数据 。 通 过 使 用 数据 库 来 存 
储 系统 数据 ， 我 们 简化 了 系统 的 总 体 结构 ， 并 且 人 允许 使 用 数据 库 的 全 部 能 力 来 对 系统 数据 进行 快速 
访问 。 

关于 如 何 使 用 关系 来 表示 系统 元 数据 的 确切 选择 必须 由 系统 设计 者 来 决定 。 图 10- 16 是 一 种 可 选 
的 表示 ， 加 下 划 线 的 为 主 码 。 在 这 种 表达 方式 中 ,关系 Index_metadata 中 的 属性 index_attributes 假定 包 
含 由 一 个 或 多 个 属性 组 成 的 列表 ， 这 些 属性 可 以 表示 成 形 如 “dept_name，building” 的 字符 串 。 因 此 ， 
Index_metadata 不 符合 第 一 范式 。 尽 管 它 可 以 规范 化 ,但 是 上 面 的 表示 可 能 对 于 存 取 数 据 而 言 会 更 加 有 
效 。 数 据 字典 通常 存储 成 非 规范 化 的 形式 ,以便 进 行 快速 的 存 取 。 




















当 数 据 库 系统 从 关系 中 查找 记录 时 ， 它 必须 首先 通 。 [Rm | aan] 

过 Relation_metadata 关系 来 查找 关系 的 位 置 和 存储 组 织 ， | relation name |p relation name 

然后 通过 该 信息 取 回 记录 。 但 是 ，Relation_metadata 关 | Weg Rao men ee 

系 自身 的 存储 组 织 和 位 置 必须 记录 在 其 他 地 方 (例如 ， 一 一 一 一 一 ~ | 

在 数据 库 自身 的 代码 段 中 ， 或 者 数据 库 中 的 一 个 固定 — 一 

位 置 ) ， 这 是 因为 我 们 需要 使 用 这 些 信息 找到 Relation [ee | | 

ae 

10.8 ”数据 库 缓冲 区 eee ae 

encrypted_password 

数据 库 系统 的 一 个 主要 目标 就 是 尽量 减少 磁盘 和 [View metadata lm | 

存储 器 之 间 传输 的 块 数目 。 减 少 磁盘 访问 次 数 的 一 种 。 | Uae 





方法 是 在 主 存储 器 中 保留 尽 可 能 多 的 块 。 这 样 做 的 目 O O 
标 是 最 大 化 要 访问 的 块 已 经 在 主 存储 器 中 的 几率 ,这 图 10-16 描述 系统 元 数据 的 关系 模式 
样 就 不 再 需要 访问 磁盘 。 
因为 在 主 存储 器 中 保留 所 有 的 块 是 不 可 能 的 ， 所 以 需要 管理 主 存储 器 中 用 于 存储 块 的 可 用 空间 的 
分 配 。 缓 冲 区 (buffer) 是 主 存储 器 中 用 于 存储 磁盘 块 的 拷贝 的 那 一 部 分 。 每 个 块 总 有 一 个 拷贝 存放 在 磁 
盘 上 ， 但 是 在 磁盘 上 的 拷贝 可 能 比 在 缓冲 区 中 的 拷贝 日 。 负 责 缓冲 区 空间 分 配 的 子 系统 称 为 缓冲 区 管 
理 器 (buffer manager) 。 
10.8.1 缓冲 区 管理 器 
463 当 数 据 库 系统 中 的 程序 需要 磁盘 上 的 块 时 ， 它 向 缓冲 区 管理 器 发 出 请 求 ( 即 调用 ) 。 如 果 这 个 块 已 
aoa | 经 在 缓冲 区 中 ， 缓 冲 区 管理 器 将 这 个 块 在 主 存储 器 中 的 地 址 传 给 请 求 者 。 如 果 这 个 块 不 在 缓冲 区 中 ， 
缓冲 区 管理 器 首先 在 缓冲 区 中 为 这 个 块 分 配 空间 ， 如 果 需 要 的 话 ， 会 把 其 他 块 移出 主 存储 器 ， 为 这 个 
新 块 腾 出 空间 。 移 出 的 块 仅 当 它 自从 最 近 一 次 写 回 磁盘 后 被 修改 过 才 被 写 回 磁盘 。 然 后 缓冲 区 管理 器 
把 请 求 的 块 从 磁盘 读 和 缓冲 区 ， 并 将 这 个 块 在 主 存储 器 中 的 地 址 传 给 请 求 者 。 缓 冲 区 管理 器 的 内 部 动 
作对 发 出 磁盘 块 请 求 的 程序 是 透明 的 。 
如 果 你 熟悉 操作 系统 的 概念 ， 你 会 发 现 缓冲 区 管理 器 几乎 和 大 多 数 操作 系统 中 的 虚拟 存储 管理 器 
是 一 样 的 。 它 们 的 一 点 区 别 是 数据 库 的 大 小 会 比 机 器 的 硬件 地 址 空间 大 得 多 ， 因 此 存储 器 地 址 不 足以 
对 所 有 磁盘 块 进行 寻 址 。 此 外 ， 为 了 更 好 地 为 数据 库 系统 服务 ， 缓 冲 区 管理 器 必须 使 用 比 典 型 的 虚拟 
存储 器 管理 策略 更 加 复杂 的 技术 : 
。 缓冲 区 替换 策略 (buffer replacement strategy) 。 当 缓冲 区 中 没有 剩余 空间 时 ， 在 新 块 读 入 缓冲 区 
之 前 ， 必 须 把 一 个 块 从 缓冲 区 中 移出 。 多 数 操作 系统 使 用 最 近 最 少 使 用 ( Least Recently Used, 
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LRU) 策略， 即 最 近 访问 最 少 的 块 被 写 回 磁盘 ， 并 从 缓冲 区 中 移 走 。 这 种 简单 的 方法 可 以 加 以 
改进 以 用 于 数据 库 应 用 。 
© 被 钉 住 的 块 (pinned block)。 为 了 使 数据 库 系 统 能 够 从 系统 崩溃 中 恢复 ( 见 第 16 章 ) ， 限 制 一 个 
块 写 回 磁盘 的 时 间 是 十 分 必要 的 。 例 如 : 当 一 个 块 上 的 更 新 操作 正在 进行 时 ， 大 多 数 恢复 系统 
不 允许 将 该 块 写 回 磁盘 。 不 允许 写 回 磁盘 的 块 称 为 被 钉 住 的 ( pinned ) 块 。 尽 管 很 多 操作 系统 不 
提供 对 被 钉 住 的 块 的 支持 ,但 是 这 个 特性 对 可 从 崩溃 中 恢复 的 数据 库 系统 十 分 重要 。 
© 块 的 强制 写 出 (forced output of block)。 在 某 些 情况 下 ， 尽 管 不 需要 一 个 块 所 占用 的 缓冲 区 空间 ， 
但 必须 把 这 个 块 写 回 磁盘 。 这 样 的 写 操作 称 为 块 的 强制 写 出 (forced output) 。 我 们 将 在 第 16 章 
看 到 需要 强制 写 出 的 原因 : 简单 地 说 ， 主 存储 器 的 内 容 ， 包 括 缓冲 区 的 内 容 ,在 崩溃 时 将 丢 
失 ， 而 磁盘 上 的 数据 一 般 在 崩溃 时 得 以 保留 。 
10.8.2 缓冲 区 替换 策略 
对 缓冲 区 中 的 块 替换 策略 而 言 ， 目 标 是 减少 对 磁盘 的 访问 。 对 通用 程序 来 说 ， 精 确 预 言 哪个 块 将 
被 访问 是 不 可 能 的 。 因 此 ， 操 作 系统 使 用 过 去 的 块 访 问 模式 来 预言 未 来 的 访问 。 通 常 我 们 假定 最 近 访 
问 过 的 块 最 有 可 能 再 一 次 被 访问 。 因 此 ， 如 果 必 须 蔡 换 一 个 块 ， 则 替换 最 近 访 问 最 少 的 块 。 这 种 方法 
称 为 最 近 最 少 使 用 ( Least Recently Used, LRU) RFR GME 
在 操作 系统 中 ，LRU 是 一 个 可 以 接受 的 替换 策略 。 然 而 ， 数 据 库 系 统 能 够 比 操作 系统 更 准确 地 预 
测 未 来 的 访问 模式 。 用 户 对 数据 库 系统 的 请 求 包括 若干 步 。 通 过 查看 执行 用 户 请 求 所 需 操 作 的 每 一 步 ， 
数据 库 系 统 通常 可 以 预先 确定 哪些 块 将 是 需要 的 。 因 此 ， 与 依赖 过 去 而 预测 将 来 的 操作 系统 不 同 ， 数 
据 库 系 统 至 少 可 以 得 到 短期 内 的 将 来 信息 。 
为 了 说 明 关于 未 来 块 访问 的 信息 是 如 何 使 我 们 改进 LRU 策略 的 ， 考 虑 如 下 SQL 查询 处 理 : 


select + 
from instructor natural join department 


假设 所 选择 的 处 理 这 个 请 求 的 策略 由 图 10-17 所 示 的 伪 码 程序 给 出 。( 第 12 章 将 研究 其 他 更 有 效 
的 策略 。) 





for each instructor 中 的 元 组 i do 
for each department 中 的 元 组 d do 
if i[ dept_name | = d| dept_name | 
then begin 
S x 为 下 列 式 子 定义 的 元 组 : 
x[ID]:= iL ID] 
x[ dept_name | := i| dept_name | 
x[ name | ;= i| name | 
xz[ building | := d[ building | 
x[ budget] := d[ budget | | 
将 元 组 x 包含 进 instructor MX department 的 结果 中 
end 
end 
end 











图 10-17 计算 连接 的 过 程 


假设 该 例子 中 的 两 个 关系 存储 在 不 同 的 文件 中 。 在 这 个 例子 中 ,我 们 可 以 看 到 ， 一 旦 instructor 中 
的 一 个 元 组 处 理 过 ， 这 个 元 组 就 不 再 需要 了 。 因 此 一 旦 处 理 完 instructor 元 组 构成 的 一 个 完整 的 块 ， 这 
个 块 就 不 再 需要 存储 在 主 存储 器 中 了 ， 尽 管 它 刚刚 使 用 过 。 一 旦 instructor 块 中 最 后 一 个 元 组 处 理 完毕 ， 
就 应 该 命令 缓冲 区 管理 器 释放 这 个 块 所 占用 的 空间 。 这 个 缓冲 区 管理 策略 称 为 立即 丢弃 (toss- 
immediate ) 策略 。 

现在 考虑 包含 department 元 组 的 块 。 对 instructor 关系 中 的 每 个 元 组 ， 我 们 需要 检查 department 元 组 | 465 
的 每 个 块 。 当 一 个 department 块 处 理 完毕 后 ， 我 们 知道 这 个 块 要 到 所 有 其 他 department 块 处 理 完 才 会 被 | 46 | 
再 次 访问 。 因 此 ， 最 近 最 常 使 用 的 department 块 将 是 最 后 一 个 要 再 次 访问 的 块 ， 最 近 最 少 使 用 的 
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department 块 是 接着 要 访问 的 块 。 这 个 假设 正好 与 构成 LRU 策略 基础 的 假设 相反 。 实 际 上 ， 上 述 过 程 
中 块 替换 的 最 优 策略 是 最 近 最 常 使 用 ( Most Recently Used，MRU ) 策 略 。 如 果 必 须 从 缓冲 区 中 移 除 一 个 
department 块 ，MRU 策略 将 选择 最 近 最 常 使 用 的 块 ( 当 块 被 使 用 时 不 能 被 蔡 换 ) 。 

在 这 个 例子 中 ， 要 使 MRU 策略 正确 地 工作 ， 系 统 必须 把 当前 正在 处 理 的 department REJE. EIR 
中 最 后 一 个 department 元 组 处 理 完毕 后 ， 这 个 块 就 不 再 被 钉 住 ， 成 为 最 近 最 常 使 用 的 块 。 

除了 使 用 系统 所 拥有 的 关于 被 处 理 的 请 求 的 知识 ， 缓 冲 区 管理 器 也 可 以 使 用 有 关 一 个 请 求 将 访问 
某 个 特定 关系 的 概率 的 统计 信息 。 例 如 ， 用 来 记录 关系 的 逻辑 模式 和 它们 的 物理 存储 信息 的 数据 字典 
(在 10.7 节 中 进行 了 详细 介绍 ) ， 是 数据 库 中 最 经 常 访问 的 部 分 之 一 。 因 此 ， 缓 冲 区 管理 器 应 尽量 不 把 
数据 字典 从 主 存储 器 中 移 除 ， 除 非 有 其 他 因素 决定 了 非 这 样 做 不 可 。 第 11 章 将 讨论 文件 的 索引 。 因 为 
对 文件 索引 的 访问 可 能 比 文件 本 身 更 频繁 ， 所 以 不 是 迫不得已 ， 缓 冲 区 管理 器 一 般 不 应 把 索引 块 从 主 
存储 器 中 移 除 。 

理想 的 数据 库 块 替换 策略 需要 数据 库 操 作 的 知识 (包括 正在 执行 的 操作 和 将 来 会 执行 的 操作 ) o 
有 哪个 策略 能 够 很 好 地 处 理 所 有 可 能 的 情况 。 实 际 上 ， 绝 大 多 数 数据 库 系统 都 使 用 LRU 策略 ， 尽 管 这 
种 策略 有 其 缺点 。 在 习题 中 我 们 将 探究 其 他 可 选择 的 策略 。 

除了 块 被 再 次 访问 的 时 间 以 外 ， 缓 冲 区 管理 器 使 用 的 块 蔡 换 策略 还 受 其 他 因素 所 影响 。 如 果 系 统 
并 发 地 处 理 多 个 用 户 的 请 求 ， 并 发 控制 子 系统 ( 见 第 15 章 ) 可 能 会 延迟 某 些 请 求 ， 以 保证 数据 库 的 一 臻 
性 。 如 果 缓 冲 区 管理 器 从 并 发 控制 子 系统 获得 了 关于 哪些 请 求 被 延迟 的 信息 ， 它 就 可 以 使 用 这 些 信息 
来 改变 它 的 块 替 换 策 略 。 具 体 地 说 ， 活 动 的 ( 非 延 迟 的 ) 请求 所 需要 的 块 可 以 因为 被 延迟 的 请 求 所 需要 
的 块 换 出 而 在 缓冲 区 中 得 以 保留 。 

崩溃 - 恢复 子 系统 ( 见 第 16 章 ) 对 块 替换 施加 了 严格 的 约束 。 如 果 一 个 块 修改 了 ， 不 允许 缓冲 区 管 
理 器 将 这 个 块 在 缓冲 区 中 的 新 内 容 写 回 磁盘 ， 因 为 这 将 破坏 块 的 旧 内 容 。 取 而 代 之 的 做 法 是 ， 块 管理 
器 在 写 回 块 之 前 ， 必 须 从 崩溃 -恢复 子 系统 处 寻求 许可 。 崩 演 - 恢复 子 系统 在 允许 缓冲 区 管理 器 写 回 
需要 的 块 之 前 ， 可 能 要 求 将 某 些 其 他 块 强制 写 出 。 在 第 16 章 中 ,我 们 将 精确 定义 缓冲 区 管理 器 与 崩 
省 -恢复 子 系统 之 间 的 交互 。 


10.9 总 结 


。 大 多 数 计算 机 系统 中 存在 多 种 数据 存储 类 型 。 我 们 可 以 根据 访问 数据 的 速度 、 购 买 介质 时 每 单位 数 
据 的 成 本 和 介质 的 可 靠 性 ， 对 这 些 存储 介质 进行 分 类 。 可 用 的 介质 有 高 速 缓冲 存储 器 、 主 存储 器 、 
快 内 存储 器 、 磁 盘 、 光 盘 和 磁带 。 

。 存储 介质 的 可 靠 性 由 两 个 因素 决定 : 电源 故障 或 系统 崩溃 是 否 导致 数据 丢失 ， 存 储 设备 发 生物 理 故 
障 的 可 能 性 有 多 大 。 

。 通过 保留 数据 的 多 个 拷贝 ， 我 们 可 以 减少 物理 故障 的 可 能 性 。 对 磁盘 来 说 可 以 使 用 镜像 技术 。 或 者 

可 以 使 用 更 复杂 的 基于 独立 磁盘 匈 余 阵列 ( RAID) 的 方法 。 通 过 把 数据 拆 分 到 多 张 磁盘 上 ， 可 以 提高 

大 数据 量 访问 的 吞吐 率 ; 通过 引入 多 张 磁盘 上 的 宛 余 存储 ， 可 以 显著 提高 可 靠 性 。 有 几 种 不 同 的 

RAID 组 织 形式 ， 它 们 具有 不 同 的 成 本 、 性 能 和 可 靠 性 特征 。 最 常用 的 是 RAID 1 级 (镜像 ) 和 RAID 5 

级 。 

我 们 可 以 把 一 个 文件 从 逻辑 上 组 织 成 映射 到 磁盘 块 上 的 一 个 记录 序列 。 把 数据 库 映 射 到 文件 的 一 种 

方法 是 使 用 多 个 文件 ， 每 个 文件 只 存储 固定 长 度 的 记录 。 另 一 种 方法 是 构造 文件 ,使 之 能 适应 多 种 

长 度 的 记录 。 分 覃 的 页 方法 广泛 应 用 于 在 磁盘 块 中 处 理 变 长 记录 。 

因为 数据 以 块 为 单位 在 磁盘 存储 器 和 主 存储 器 之 间 传 输 ， 所 以 采取 用 一 个 单独 的 块 包含 相关 联 的 记 

录 的 方式 ， 将 文件 记录 分 配 到 不 同 的 块 中 是 可 取 的 。 如 果 我 们 能 够 仅 使 用 一 次 块 访问 就 可 以 存 取 我 

们 想 要 的 多 个 记录 ， 就 能 节省 磁盘 访问 次 数 。 因 为 磁盘 访问 通常 是 数据 库 系 统 性 能 的 瓶 开 ,所 以 仔 

细 设 计 块 中 记录 的 分 配 可 以 获得 显著 的 性 能 提高 。 

。 数据 字典 ， 也 称 为 系统 目录 ， 用 于 记录 元 数据 ， 即 关于 数据 的 数据 ， 例 如 关系 名 、 属 性 名 和 类 型 、 

存储 信息 、 完 整 性 约束 和 用 户 信息 。 

减少 磁盘 访问 数量 的 一 种 方法 是 在 主 存储 器 中 保留 尽 可 能 多 的 块 。 因 为 在 主 存储 器 中 保留 所 有 的 块 
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是 不 可 能 的 ， 所 以 需要 为 块 的 存储 而 管理 主 存储 器 中 可 用 空间 的 分 配 。 缓 冲 区 是 主 存储 器 的 一 部 分 ， 



























































































































































可 用 于 存储 磁盘 块 的 拷贝 。 负 责 分 配 缓冲 区 空间 的 子 系统 称 为 缓冲 区 管理 器 。 [468 
术语 回顾 
© 物理 存储 介质 电梯 算法 。 第 三 级 存储 
O 高 速 缓冲 存储 器 口 文件 组 织 口 光盘 
O 主 存储 器 消除 碎片 口 磁带 
O 快 闪 存储 器 口 非 易 失 性 写 缓 冲 区 口 自动 光盘 /磁带 机 
磁盘 存储 器 非 易 失 性 随机 存 取 存储 。 文件 
光盘 存储 器 ait ( NV-RAM) 。 文件 组 织 
© 磁盘 存储 器 口 日 志 磁 盘 口 文件 头 
口 盘面 o 独立 磁盘 元 余 阵 列 (RAID ) 空闲 列表 
口 硬盘 口 镜像 © 变 长 记录 
口 软盘 数据 拆 分 O 分 槽 的 页 结构 
口 磁道 口 比特 级 拆 分 。 大 对 象 
o 扇 区 块 级 拆 分 。 堆 文 件 组 织 
读 写 头 e RAID 级 别 。 顺序 文件 组 织 
口 磁盘 臂 口 0 级 ( 块 级 拆 分 ， 没 有 © 散 列 文件 组 织 
口 柱 面 TTR) 。 BRR FAA 
O 磁盘 控制 器 口 1 级 ( 块 级 拆 分 ， 镜 像 ) 。 搜索 码 
口 校 验 和 口 3 级 (比特 级 拆 分 ， 奇偶 。 数据 字典 
O 坏 磁 道 的 重 映射 校 验 ) 。 系统 目录 
© 磁盘 性 能 度量 口 5 级 ( 块 级 拆 分 ， 分 布 式 。 缓冲 区 
口 访问 时 间 奇偶 校 验 ) 口 缓冲 区 管理 
口 寻 道 时 间 口 6 级 ( 块 级 拆 分 P+Q 口 被 钉 住 的 块 
口 旋转 延迟 TUR) 口 块 的 强制 写 出 
口 数据 传输 率 。 重建 的 性 能 © 缓冲 区 替换 策略 
O 平均 故障 时 间 ( MTTF ) e 软件 RAID O 最 近 最 少 使 用 ( LRU ) 
© 磁盘 块 。 硬件 RAID 口 立即 丢弃 
。 磁盘 块 访问 优化 。 热 交换 O 最 近 最 常 使 用 ( MRU ) 
磁盘 臂 调度 
实践 习题 


10.1 考虑 表 10-18 所 描述 的 4 张 磁盘 上 的 数据 和 奇偶 校 验 块 的 排列 : 


B, 表示 数据 块 ; P; 表示 奇偶 校 验 块 。 奇 偶 校 验 块 P, 是 数据 
BR By ~ Bu 的 校 验 块 。 这 种 排列 如 果 有 问题 的 话 ， 会 是 什 


么 问题 ? 
10.2 闪存 存储 : 


a. 内 存 中 用 来 映射 逻辑 页 码 到 物理 页 码 的 闪存 转换 表 如 何 


创建 ? 








b. 假设 你 有 一 个 64GB 的 快 内 存储 系统 ， 页 面 大 小 为 4096 


字 节 。 假 设 每 一 页 有 32 位 地 址 ， 并 且 转 换 表 用 数组 形式 存储 ， 则 该 闪存 转换 表 将 有 多 大 ? ka 


图 10-18 数据 和 奇偶 块 排列 





o 如 果 经 常 有 大 范围 的 连续 逻辑 页 码 映射 到 连续 物理 页 码 ， 请 建议 如 何 缩减 转换 表 的 大 小 。 a 


10.3 


当 一 个 磁盘 块 正在 被 写 的 时 候 发 生 电源 故障 会 导致 块 只 写 了 一 部 分 。 假 设 这 个 部 分 写 的 块 可 以 探测 出 
来 。 一 个 原子 的 写 块 操作 是 一 种 或 者 完成 对 磁盘 块 的 写 ,或 者 什么 都 不 写 ( 即 不 会 部 分 写 ) 的 操作 。 提 
出 一 种 利用 原子 的 写 块 操作 实现 如 下 RAD 策略 的 方法 。 你 的 方法 应 该 包括 从 故障 中 恢复 时 的 工作 . 
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10.4 


10.6 


10.7 


471 | 10.8 


10.9 


472 


10. 21 


部 分 ”数据 存储 和 查询 


a. RAID 1 级 (镜像 ) 

b. RAID 5 级 ( 块 级 拆 分 ， 分 布 的 奇偶 校 验 ) 

考虑 从 图 10-6 的 文件 中 删除 记录 5。 比 较 下 列 实 现 删除 的 技术 的 相对 优点 : 

a. 移动 记录 6 到 记录 5 所 占用 的 空间 ， 然 后 移动 记录 7 到 记录 6 所 占用 的 空间 。 

b. 移动 记录 7 到 记录 5 所 占用 的 空间 。 

c. 标记 记录 5 被 删除 ， 不 移动 任何 记录 。 

给 出 经 过 下 面 每 一 步 后 图 10-7 中 文件 的 结构 : 

a. 捅 人 (2455$6 Turnamian, Finance, 9800) 。 

b. 删除 记录 2。 

c. 插入 (34556 ，Thompson ，Music，67000 ) 。 

考虑 关系 section 和 takes。 给 出 这 两 个 关系 的 一 个 实例 ， 包 括 3 次 开课 ， 每 次 开课 有 5 个 学 生 选 课 。 给 
出 一 个 使 用 多 表 聚 簇 的 这 些 关 系 的 文件 结构 。 

考虑 下 面 在 文件 中 跟踪 空闲 空间 的 位 图 技术 ， 对 文件 中 的 每 个 块 ， 在 位 图 中 维护 两 位 。 如 果 块 的 0% ~ 
30% 是 满 的 ， 这 两 位 用 00 表示 ，30% ~ 60% 用 01 表示 ，60% ~90% 用 10 表示， 高 于 90% 用 11 表 
示 。 这 样 的 位 图 即使 对 很 大 的 文件 也 可 以 保存 在 内 存 中 。 

a. 描述 在 记录 插入 和 删除 时 如 何 保持 位 图 的 更 新 。 

b 概括 位 图 技术 与 空闲 列表 相 比 在 搜索 空闲 空间 和 更 新 空闲 空间 信息 方面 的 好 处 。 

快速 找 出 一 个 块 是 否 存在 于 缓冲 区 中 ， 假 如 存在 ， 它 存 于 缓冲 区 的 何 处 ， 这 很 重要 。 假 设 数据 库 缓 冲 
区 非常 庞大 ， 针 对 上 述 任务 ， 你 该 使 用 什么 ( 内存) 数据 结构 ? 

对 于 下 面 的 每 种 情况 ， 给 出 一 个 关系 代数 表达 式 和 一 个 查询 处 理 策 略 的 例子 : 

a. MRU 优 于 LRU, 

b. LRU {È F MRU, 


列 出 你 日 常 使 用 的 计算 机 上 用 到 的 物理 存储 介质 。 给 出 每 种 介质 上 数据 存 取 的 速度 : 

磁盘 控制 器 对 坏 扇 区 的 重 映射 是 如 何 影 响 数据 检索 率 的 ? 

RAID 系统 通常 允许 你 更 换 发 生 故障 的 磁盘 而 不 需要 停止 对 系统 的 访问 。 因 此 ， 发 生 故 障 的 磁盘 上 

的 数据 必须 在 系统 运行 的 同时 重建 ， 并 写 到 新 更 换 的 磁盘 上 。 哪 一 级 RAID 在 重建 和 持续 磁盘 访问 

之 间 的 冲突 最 小 ? 解释 你 的 答案 。 

RAID 系统 中 的 擦洗 是 什么 ， 为 什么 擦洗 很 重要 ? 

在 变 长 记录 表示 中 ， 用 一 个 空位 图 来 表示 一 个 属性 是 否 为 空 值 。 

a 对 于 变 长 字段 ， 如 果 值 为 空 ， 那 么 偏 移 量 字段 和 长 度 字段 中 存储 什么 ? 

b. 在 一 些 应 用 中 ， 元 组 拥有 大 量 的 属性 ， 其 中 大 多 数 属性 为 空 。 你 能 否 更 改 这 样 的 记录 的 表示 ， 使 
得 一 个 空 值 属性 的 开销 仅 为 在 空位 图 中 的 一 个 位 。 

解释 为 什么 在 磁盘 块 上 分 配 记录 的 策略 会 显著 影响 数据 库 系统 的 性 能 。 

如 果 可 能 ， 查 出 在 你 的 本 地 计算 机 系统 上 运行 的 操作 系统 所 使 用 的 缓冲 区 管理 策略 和 它 提供 的 控制 

页 面 蔡 换 的 机 制 。 讨 论 它 提供 的 控制 替换 策略 如 何 能 够 对 数据 库 系 统 的 实现 有 用 。 

列 出 下 列 存储 关系 数据 库 的 每 个 策略 的 两 个 优点 和 两 个 缺点 : 

a. 在 一 个 文件 中 存储 一 个 关系 。 

b. 在 一 个 文件 中 存储 多 个 关系 (甚至 是 整个 数据 库 ) 。 

在 顺序 文件 组 织 中 ， 为 什么 即使 当前 只 有 一 条 溢出 记录 ， 也 要 使 用 一 个 溢出 块 ? 

给 出 关系 Index_metadata 的 规范 化 形式 ， 并 解释 为 什么 使 用 规范 化 的 形式 会 导致 更 差 的 性 能 ? 

如 果 你 的 一 些 数据 不 应 该 在 磁盘 崩溃 时 丢失 ， 且 这 些 数 据 是 写 密集 的 ， 你 如 何 存储 这 些 数据 ? 

在 早期 的 磁盘 中 ， 每 条 磁道 中 扇 区 的 数量 对 所 有 磁道 都 是 一 样 的。 现代 的 磁盘 在 外 侧 磁 道上 有 较 多 

的 扇 区 ， 在 内 侧 磁道 上 有 较 少 的 扇 区 ( 由 于 它们 的 长 度 更 短 ) 。 这 样 的 改变 对 磁盘 速度 的 三 个 主要 指 

标 各 有 什么 影响 。 

标准 的 缓冲 区 管理 器 假定 每 个 页 的 大 小 和 读 取代 价 都 是 相同 的 。 设 想 一 个 缓冲 区 管理 器 使 用 对 对 象 
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引用 的 比率 ， 即 一 个 对 象 在 此 前 的 n 秒 被 访问 的 频率 ， 而 不 是 LRU。 假 设 我 们 要 在 缓冲 区 中 存储 变 
长 和 变 读 取代 价 (例如 网 页 ， 它 的 读 取代 价 取决 于 它 所 在 的 站 点 ) 的 对 象 。 缓 冲 器 管理 器 可 以 怎样 选 
择 要 删除 缓冲 区 中 的 哪个 页 ? 


文献 注解 


Hennessy 等 [2006 ] 是 一 本 广泛 使 用 的 计算 机 体系 结构 方面 的 教科 书 ， 它 的 内 容 涵 盖 了 转换 旁 视 缓冲 区 
(translation look-aside buffer) 、 高 速 缓冲 存储 器 和 存储 器 管理 单元 的 硬件 特性 。Rosch[ 2003 | 给 出 了 对 计算 机 
硬件 的 一 个 优秀 的 概括 性 介绍 ， 其 内 容 涵 盖 了 各 种 类 型 的 存储 技术 ， 例 如 磁盘 、 光 盘 、 磁 带 和 存储 接口 。 
Patterson[ 2004 ] 很 好 地 讨论 了 延 时 的 改进 如 何 落后 于 带宽 (传输 率 ) 的 改进 。 

随 着 CPU 速度 的 迅速 增长 ，CPU 上 的 高 速 缓 冲 存 储 器 比 主 存 要 更 快 。 尽 管 数 据 库 系统 不 控制 数据 如 何 
存储 在 高 速 缓冲 存储 器 中 ,但 是 ， 对 在 主 存 中 组 织 数据 ， 并 以 能 够 尽 可 能 地 利用 高 速 缓冲 存储 器 的 方式 编 
写 程 序 的 需求 在 不 断 上 升 。 在 这 个 领域 的 成 果 包 括 Rao 和 Ross[ 2000] 、Ailamaki 等 L2001] 和 Zhou 和 Ross 
[2004 ] Garcia 和 Korth [2005] 、Cieslewicz 等 [2009 | 。 

当代 磁盘 驱动 器 的 详细 规范 可 以 从 它们 的 制造 商 的 Web 站 点 上 得 到 ， 例 如 : Hitachi, LaCie, 、Iomega、 
Seagate, Maxtor 和 Western Digital, 

Patterson 等 [1988 ] 以 及 Chen 和 Patterson[ 1990 ] 给 出 了 关于 廉价 磁盘 宛 余 阵 列 (RAID ) 的 讨论 。Chen 等 
[1994] 给 出 了 对 RAID 原理 和 实现 的 一 个 极 好 的 综述 。Pless [1998 ] 描述 了 Reed-Solomon 码 。 

针对 移动 系统 中 的 缓存 数据 讨论 参见 Imielinski 和 Badrinath [ 1994 ] 、Imielinski 和 Korth [ 1996 ] 、 
Chandrasekaran 等 [2003 ] 。 [473 | 

特定 数据 库 系 统 ( 如 IBM DB2 Oracle, Microsoft SQL Server 和 PostgreSQL) 的 存储 结构 都 分 别 记录 在 它们 
的 系统 说 明 手 册 中 。 

大 部 分 操作 系统 教材 (包括 Silberschatz 等 [ 2008 ] ) 都 讨论 了 缓冲 区 管理 。Chou 和 Dewitt[ 1985 ] 给 出 了 数 
据 库 系统 中 缓冲 区 管理 的 算法 ， 并 介绍 了 一 种 性 能 评估 方法 。 [474 
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索引 与 散 列 


许多 查询 只 涉及 文件 中 的 少量 记录 。 例 如 ， 类 似 “ 找 出 物理 系 所 有 教师 "或 者 “ 找 出 D 是 22201 的 
学 生 的 总 学 分 ”的 查询 ， 就 只 涉及 学 生 记 录 中 的 一 小 部 分 。 如 果 系 统 读 取 instructor 关系 中 每 一 个 元 组 并 
检查 dept_name 值 是 否 为 "物理 ”， 这 样 的 操作 方式 是 低 效 的 。 同 样 ， 只 是 为 了 查找 一 个 万 是 “32556” 
的 元 组 而 读 取 整 个 student 关系 也 是 低 效 的 。 理 想 情 况 下 ， 系 统 应 能 够 直接 定位 这 些 记录 。 为 了 人 允许 这 
种 访问 方式 ， 我 们 设计 了 与 文件 相关 联 的 附加 的 结构 。 


11.1 基本 概念 


数据 库 系统 中 文件 索引 的 工作 方式 非常 类 似 于 本 书 的 索引 。 如 果 我 们 希望 了 解 本 书 中 某 个 特定 主 
题 (用 一 个 词 或 者 词组 指定 ) 的 内 容 ， 可 以 在 书后 的 索引 中 查找 主题 ， 找 到 它 出 现 的 页 ， 然 后 读 这 些 
页 ， 寻 找 我 们 需要 的 信息 。 索 引 中 的 词 是 按 顺 序 排列 的 ， 因 此 ， 要 找到 我 们 所 需要 的 词 就 容易 了 。 而 
H, 索引 比 书 小 得 多 ， 从 而 能 进一步 减少 所 需 精力 。 
数据 库 系统 中 的 索引 与 图 书馆 中 书 的 索引 所 起 的 作用 一 样 。 例 如 ,为 了 根据 给 定 1D 检索 一 条 
student 记录 ， 数 据 库 系统 首先 会 查找 索引 ， 找 到 相应 记录 所 在 的 磁盘 块 ， 然 后 取出 该 磁盘 块 ， 得 到 所 
需 的 student 记录 。 
在 存储 了 数 千 条 学 生 记录 的 大 型 数据 库 中 ， 维 护 一 个 排序 的 学 生 ID 列表 的 效果 并 不 好 ， 因 为 索引 
本 身 将 非常 大 ; 而 且 ， 即 使 通过 排序 的 索引 减少 了 搜索 时 间 ， 查 找 一 个 学 生 也 仍然 是 非常 费时 的 工作 。 
我 们 可 以 使 用 更 复杂 的 索引 技术 来 作为 蔡 代 。 我 们 将 在 本 章 讨论 几 种 这 样 的 技术 。 
有 两 种 基本 的 索引 类 型 : 
475 。 顺序 索引 。 基 于 值 的 顺序 排序 。 
。 散 列 索引 。 基 于 将 值 平均 分 布 到 若干 散 列 桶 中 。 一 个 值 所 属 的 散 列 桶 是 由 一 个 函数 决定 的 ， 该 
函数 称 为 散 列 函数 (hash function) 。 
我 们 将 考虑 用 于 顺序 索引 和 散 列 的 几 种 技术 。 没 有 哪 一 种 技术 是 最 好 的 ， 只 能 说 某 种 技术 对 特定 
的 数据 库 应 用 是 最 适合 的 。 对 每 种 技术 的 评价 必须 基于 下 面 这 些 因素 。 
© 访问 类 型 (access type): 能 有 效 支 持 的 访问 类 型 。 访 问 类 型 可 以 包括 找到 具有 特定 属性 值 的 记 
录 ， 以 及 找到 属性 值 落 在 某 个 特定 范围 内 的 记录 。 
© 访问 时 间 (access time) : 在 查询 中 使 用 该 技术 找到 一 个 特定 数据 项 或 数据 项 集 所 需 的 时 间 。 
© 插入 时 间 (insertion time): 插入 一 个 新 数据 项 所 需 的 时 间 。 该 值 包 括 找到 插入 这 个 新 数据 项 的 
正确 位 置 所 需 的 时 间 ， 以 及 更 新 索引 结构 所 需 的 时 间 。 
© 删除 时 间 ( deletion time): 删除 一 个 数据 项 所 需 的 时 间 。 该 值 包括 找到 待 删除 项 所 需 的 时 间 ， 以 
及 更 新 索引 结构 所 需 的 时 间 。 
© 空间 开销 (space overhead): 索引 结构 所 占用 的 额外 存储 空间 。 倘 若 存储 索引 结构 的 额外 空间 大 
小 适度 ， 通 常 牺牲 一 定 的 空间 代价 来 换取 性 能 的 提高 是 值得 的 。 
通常 需要 在 一 个 文件 上 建立 多 个 索引 。 例 如 ， 可 能 按 作者 、 主 题 或 者 书 名 来 查找 一 本 书 。 
用 于 在 文件 中 查找 记录 的 属性 或 属性 集 称 为 搜索 码 ( search key) 。 注 意 这 里 的 码 的 定义 与 主 码 、 候 
选 码 以 及 超 码 中 的 定义 不 同 。( 遗憾 的 是 ) 码 在 现实 中 具有 多 种 广 为 接 受 的 含义 。 使 用 本 文中 搜索 码 的 
概念 ， 我 们 认为 ， 如 果 一 个 文件 上 有 多 个 索引 ， 那 么 它 就 有 多 个 搜索 码 。 
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11.2 顺序 索引 


为 了 快速 随机 访问 文件 中 的 记录 ， 可 以 使 用 索引 结构 。 每 个 索引 结构 与 一 个 特定 的 搜索 码 相关 联 。 
正如 书 中 的 索引 或 者 图 书馆 目录 一 样 ， 顺 序 索 引 按 顺序 存储 搜索 码 的 值 ， 并 将 每 个 搜索 码 与 包含 该 搜 
索 码 的 记录 关联 起 来 。 

被 索引 文件 中 的 记录 自身 也 可 以 按照 某 种 排序 顺序 存储 ， 正 如 图 书馆 中 的 书 按 某 些 属性 (如 杜威 
十 进 制 数 ) 顺 序 存放 一 样 。 一 个 文件 可 以 有 多 个 索引 ， 分 别 基于 不 同 的 搜索 码 。 如 果 包 含 记 录 的 文件 按 
照 基 个 搜索 码 指定 的 顺序 排序 ， 那 么 该 搜索 码 对 应 的 索引 称 为 聚集 索引 (clustering index), RERI 
称 为 主 索 引 ( primary index) ; 主 索引 这 个 术 看 看 起 来 是 表示 建立 在 主 码 上 的 索引 ， 但 实际 上 它 可 以 建立 
在 任何 搜索 码 上 。 聚 集 索引 的 搜索 码 常常 是 主 码 ， 尽 管 并 非 必 须 如 此 。 搜 索 码 指定 的 顺序 与 文件 中 记 
录 的 物理 顺序 不 同 的 索引 称 为 非 聚 集 索 引 ( nonclustering index) 或 辅助 索引 ( secondary index) 。 常 用 术语 
“REH” (clustered) 和 “ 非 聚 集 的 ”( nonclustered ) 来 代替 “聚集 ”( clustering ) Fl“ JERE” ( nonclustering ) » 

在 11.2.1~11.2.3 节 中 ,我 们 假定 所 有 文件 都 按照 某 些 搜索 码 顺序 排列 。 这 种 在 搜索 码 上 有 聚集 
索引 的 文件 称 作 索引 顺序 文件 (index-sequential file)。 它 们 是 数据 库 系 统 中 最 早 采 用 的 索引 模式 之 一 ， 
是 针对 既 需 顺序 处 理 整 个 文件 又 需 随机 访问 单独 记录 的 应 用 而 设计 的 。11. 2. 4 节 将 讨论 辅助 索引 。 

图 11-1 是 取 自 大 学 例子 中 instructor 记录 的 一 个 顺序 文件 。 在 图 11-1 所 示 的 例子 中 , 教师 ID FAYE 
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图 11-1 instructor 记录 的 顺序 文件 


11.2.1 BRS MARRS! 
索引 项 (index entry ) 或 索引 记录 (index record) 由 一 个 搜索 码 值 和 指向 具有 该 搜索 码 值 的 一 条 或 者 多 
条 记录 的 指针 构成 。 指 向 记录 的 指针 包括 磁盘 块 的 标识 和 标识 磁盘 块 内 记录 的 块 内 偏 移 量 
我 们 可 以 使 用 的 顺序 索引 有 两 类 。 
© 稠密 索引 ( dense index): 在 稠密 索引 中 ， 文 件 中 的 每 个 搜索 码 值 都 有 一 个 索引 项 。 在 稠密 聚集 
索引 中 ， 索 引 项 包括 搜索 码 值 以 及 指向 具有 该 搜索 码 值 的 第 一 条 数据 记录 的 指针 。 具 有 相同 搜 
索 码 值 的 其 余 记 录 顺 序 地 存储 在 第 一 条 数据 记录 之 后 ， 由 于 该 索引 是 聚集 索引 ， 因 此 记录 根据 
相同 的 搜索 码 值 排序 。 
在 稠密 非 聚 集 索 引 中 ， 索 引 必须 存储 指向 所 有 具有 相同 搜索 码 值 的 记录 的 指针 列表 。 
© RRI] (sparse index); 在 稀 朴 索引 中 ， 只 为 搜索 码 的 某 些 值 建立 索引 项 。 只 有 当 关 系 按 搜索 
码 排 列 顺序 存储 时 才能 使 用 稀疏 索引 ， 换 句 话 说 ， 只 有 索引 是 聚集 索引 时 才能 使 用 稀疏 索引 。 
和 稠密 索引 一 样 ， 每 个 索引 项 也 包括 一 个 搜索 码 值 和 指向 具有 该 搜索 码 值 的 第 一 条 数据 记录 的 
指针 。 为 了 定位 一 条 记录 ， 我 们 找到 其 最 大 搜索 码 值 小 于 或 等 于 所 查找 记录 的 搜索 码 值 的 索引 
项 。 然 后 从 该 索引 项 指向 的 记录 开始 ， 沿 着 文件 中 的 指针 查找 ， 直 到 找到 所 需 记 录 为 止 。 
图 11-2 和 图 11-3 分 别 是 为 instructor 文件 建立 的 稠密 索引 和 稀疏 索引 。 假 如 我 们 现在 要 查找 ID 是 


269 


476 


477 | 


270 ”第 三 部 分 数据 存储 和 查询 


“22222” 的 教师 记录 。 利 用 图 11-2 的 稠密 索引 ， 我们 可 以 顺 着 指针 直接 找到 第 一 条 所 需 记 录 。 因 为 ID 
是 主 码 ， 所 以 数据 库 中 只 存在 一 条 这 样 的 记录 。 于 是 搜索 完成 。 如 果 使 用 稀 疏 索引 (图 11-3) ， 就 找 不 
到 一 个 ID 为 “222227 的 索引 项 。 因 为 “22222” 之 前 的 最 后 一 项 是 “10101”( 数 字 排 序 ) ， 于 是 我 们 循 着 
该 指针 查找 ， 然 后 按 顺 序 读 取 instructor 文件 ， 直 到 查找 到 所 需 的 记录 ， 

考虑 一 本 ( 印刷 好 的 ) 字 典 。 每 页 页 眉 都 顺序 地 列 出 了 该 页 中 按 字 母 序 出 现 的 第 一 个 单词 。 字 典 中 
每 页 顶部 的 单词 共同 构成 了 字典 页 内 容 的 稀 疏 索引 。 

再 举 一 个 例子 ， 假 设 搜索 码 值 并 不 是 一 个 主 码 。 图 11-4 表示 为 以 dept_name 为 搜索 码 的 instructor 
文件 的 稠密 聚集 索引 。 在 这 种 情况 下 , instructor 文件 按照 搜索 码 dept_name 排序 ， 而 不 是 ID, BUEZ 
在 dept_name 上 的 索引 将 变 成 非 聚集 索引 。 假 设 我 们 正在 查找 历史 系 的 记录 。 利 用 图 11-4 的 稠密 索引 ， 
我 们 按照 指针 直接 找到 历史 系 的 第 一 条 记录 。 处 理 此 记录 ， 按照 该 记录 中 的 指针 找到 按 搜索 码 dept_ 
name 排序 的 下 一 条 记录 。 继 续 处 理 记录 ， 直 到 我 们 遇 到 一 条 不 是 历史 系 的 记录 。 

正如 我 们 所 看 到 的 那样 ， 利 用 稠密 索引 通常 可 以 比 稀 朴 索 引 更 快 地 定位 一 条 记录 。 但 是 ， 稀 朴 索 
引 也 有 比 稠密 索引 优越 的 地 方 : 它 所 占 空间 较 小 ， 并 且 插 入 和 删除 时 所 需 的 维护 开销 也 较 小 。 

系统 设计 者 必须 在 存 取 时 间 和 空间 开销 之 间 进 行 权衡 。 尽 管 有 关 这 一 权衡 的 决定 依赖 于 具体 的 应 
用 ， 但 是 为 每 个 块 建 一 个 索引 项 的 稀疏 索引 是 一 个 较 好 的 折 中 。 原 因 在 于 ， 处 理 数 据 库 查 询 的 开销 主 
要 由 把 块 从 磁盘 读 到 主 存 中 的 时 间 决 定 。 一 旦 将 块 放 和 人 主 存 ， 扫 描 整 个 块 的 时 间 就 是 可 以 忽略 的 。 使 
用 这 样 的 稀疏 索引 ， 可 以 定位 包含 所 要 查找 记录 的 块 。 这 样 ， 只 要 记录 不 在 溢出 块 ( 见 10.6.1 节 ) 中 ， 
就 能 使 块 访问 次 数 最 小 ， 同 时 能 保持 索引 尽 可 能 小 (因而 也 就 减少 了 空间 开销 ) 。 
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图 11-3 MARII 

要 使 上 述 技术 完全 通用 ， 必 须 考虑 具有 相同 搜索 码 值 的 记录 跨 多 个 块 的 情况 。 可 以 很 容易 地 修改 
我 们 的 方法 使 其 能 处 理 这 样 的 情况 。 
11.2.2 多 级 索引 

假设 我 们 在 具有 1 000 000 个 元 组 的 关系 上 建立 了 稠密 索引 。 索 引 项 比 数据 记录 要 小 ， 因 此 我 们 假 
设 一 个 4KB 的 块 中 可 以 容纳 100 条 索引 项 。 这 样 ， 我 们 的 索引 需要 占用 10 000 个 块 。 假 如 该 关系 具有 
100 000 000 个 元 组 ， 那 么 索引 就 需要 占用 1 000 000 个 块 ， 即 4GB 的 空间 。 这 样 大 的 索引 以 顺序 文件 
的 方式 存储 在 磁盘 上 。 
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图 11-4 稀疏 索引 


如 果 索 引 小 到 可 以 放 在 主 存 中 ， 搜 索 一 个 索引 项 的 时 间 就 会 很 短 。 但 是 ， 如 果 索 引 过 大 而 不 能 放 在 
主 存 中 ， 那 么 当 需 要 时 ， 就 必须 从 磁盘 中 取 索 引 块 。( 即使 索引 比 计算 机 的 主 存 小 ， 但 内 存 还 需要 处 理 
其 他 一 些 任务 ， 因 此 也 可 能 不 能 将 整个 索引 放置 在 内 存 中 。) 于 是 搜索 一 个 索引 项 需要 多 次 读 取 磁盘 块 。 

可 以 在 索引 文件 上 使 用 二 分 法 搜索 来 定位 索引 项 ， 但 是 搜索 的 开销 依然 很 大 。 如 果 索 引 占 据 2 个 
磁盘 块 ， 二 分 法 搜索 需要 读 取 「 log, (0) | 个 磁盘 块 。( [x] 表示 大 于 或 等 于 x 的 最 小 整数 ， 即 向 上 取 
整 。) 对 于 占用 10 000 个 块 的 索引 ， 二 分 法 搜索 需要 14 次 读 块 操作 。 在 读 一 个 块 平 均 需 要 10 毫秒 的 磁 
盘 系 统 中 ， 该 搜索 将 耗 时 140 毫秒 。 这 也 许 看 上 去 不 是 很 长 ， 但 是 一 秒 钟 内 我 们 只 能 进行 7 次 索引 搜 
索 ， 而 一 会 儿 我 们 将 会 看 到 ， 一 个 更 有 效 的 搜索 机 制 可 以 让 我 们 一 秒 钟 内 执行 更 多 次 搜索 。 请 注意 ， 


如 果 使 用 了 溢出 块 ， 那么 就 不 能 使 用 二 分 法 搜索 。 这 种 情况 下 通常 采用 顺序 搜索 ， 需 要 读 块 5 次， 这 [4 


将 耗费 更 长 的 时 间 。 因 此 ， 搜 索 一 个 大 的 索引 可 能 是 一 个 相当 耗 时 的 过 程 。 
为 了 处 理 这 个 问题 ， 我 们 像 对 待 其 他 任何 顺序 文 FT 
件 那 样 对 待 索引 文件 ， 并 且 在 原始 的 内 层 索 引 上 构造 oa nen 
个 = z] ro e 
-ARRIER MA 11-5 所 示 。 注 意 到 索引 项 A | Ny 
MEATH, EHER LRAT, HTE | i = 
位 一 条 记录 ,我 们 首先 在 外 层 索引 上 使 用 二 分 法 搜索 | | \ N 
找到 其 最 大 搜索 码 值 小 于 或 等 于 所 需 搜索 码 值 的 记录 。 gals |=) 数据 
指针 指向 一 个 内 层 索 引 块 。 我 们 扫描 这 一 块 ， 直 到 找 Goes Tl 
到 其 最 大 搜索 码 值 小 于 或 等 于 所 需 搜索 码 值 的 记录 。 :_ A 
这 条 记录 的 指针 指向 包含 所 查找 记录 的 文件 块 。 eens ' : 
在 该 例子 中 ， 占 用 10 000 个 块 的 内 层 索引 需要 外 Err 



























































层 索 引 中 有 10 000 个 索引 项 ， 这 些 索 引 项 仅 占用 100 
个 块 。 如 果 我 们 假设 外 层 索引 已 经 在 主 存 中 ,那么 当 

使 用 多 级 索引 时 ， 一 次 查询 只 需要 读 取 一 个 索引 块 ， 

而 不 像 我 们 使 用 二 分 法 搜索 时 读 取 14 个 块 。 因 此 ,我 Ea 
们 每 秒 可 以 执行 14 次 索引 查找 。 

如 果 文 件 极 其 庞大 ， 甚 至 外 层 索 引 也 可 能 大 到 不 
能 装 入 主 存 。 对 于 具有 100 000 000 个 元 组 的 关系 ， 内 -一 一 
层 索 引 将 占用 1 000 000 个 块 ， 外 层 索 引 占 用 10 000 个 图 11-5 二 级 稀 朴 索引 
块 , 或 者 40MB。 因 为 在 主 存 中 有 很 多 需求 ， 所 以 有 可 
能 不 能 为 这 个 特定 的 外 层 索 引 而 预 留 出 如 此 多 的 主 存 。 在 这 种 情况 下 ， 可 以 创建 另 一 级 索引 。 事 实 上 ， 
可 以 根据 需要 多 次 重复 此 过 程 。 具 有 两 级 或 两 级 以 上 的 索引 称 为 多 级 (multilevel ) 索 引 。 利 用 多 级 索引 
搜索 记录 与 用 二 分 法 搜索 记录 相 上 比 需要 的 LO 操作 要 少 得 多 ”。 











O 在 早期 的 基于 磁盘 的 索引 中 ， 每 级 索引 有 一 个 相应 的 物理 存储 单位 。 因 此 ， 我 们 可 以 在 磁道 、 柱 面 和 磁盘 级 别 
上 创建 索引 。 今 天 看 来 ， 这 样 一 个 层次 是 不 合理 的 ， 因 为 磁盘 子 系统 隐藏 了 磁盘 存储 的 物理 细节 ， 并 且 磁 盘 数 
和 每 张 磁盘 的 盘 片 数 与 柱 面 数 或 每 条 磁道 的 字 节 数 相 比 是 非常 小 的 。 
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多 级 索引 和 树 结构 紧 密 相关 ， 正 如 用 于 内 存 索 引 的 二 叉 树 。 稍 后 将 在 11. 3 节 讨 论 这 种 关系 。 
11. 2.3 索引 的 更 新 
无 论 采 用 何 种 形式 的 索引 ， 每 当 文件 中 有 记录 插 和 人 或 删除 时 ， 索 引 都 需要 更 新 。 此 外 ， 如 果 文 件 
中 的 记录 更 新 ， 任 何 搜索 码 属性 受 影响 的 索引 也 必须 更 新 。 例 如 ， 如 果 一 个 教师 的 系 发 生 了 变化 ， 那 
么 在 instructor 的 dept_name 属性 上 的 索引 也 必须 相应 地 更 新 。 这 样 的 记录 更 新 可 以 设计 为 对 旧 记 录 的 删 
除 ， 以 及 随后 对 新 记录 的 插入 。 因 此 ， 我 们 只 需要 考虑 索引 的 插入 和 删除 ， 并 不 需要 明确 地 考虑 更 新 。 
我 们 首先 描述 单 级 索引 的 更 新 算法 。 
。 插 入。 系统 首先 用 出 现在 待 插入 记录 中 的 搜索 码 值 进 行 查找 ， 并 根据 索引 是 稠密 索引 还 是 稀 朴 
索引 而 进行 下 一 个 操作 。 
口 稠密 索引 : 
1. 如 果 该 搜索 码 值 不 在 索引 中 ， 系 统 就 在 索引 中 合适 的 位 置 插入 具有 该 搜索 码 值 的 索引 项 。 
2. 否则 进行 如 下 操作 : 
a. 如 果 索 引 项 存储 的 是 指向 具有 相同 搜索 码 值 的 所 有 记录 的 指针 ， 系 统 就 在 索引 项 中 增 
加 一 个 指向 新 记录 的 指针 。 
b. 和 否则， 索引 项 存储 一 个 仅 指向 具有 相同 搜索 码 值 的 第 一 条 记录 的 指针 ， 系 统 把 待 插入 
的 记录 放 到 具有 相同 搜索 码 值 的 其 他 记录 之 后 。 


481 口 RAS: 我 们 假设 索引 为 每 个 块 保存 一 个 索引 项 。 如 果 系 统 创建 一 个 新 的 块 ， 它 会 将 新 块 
tie 中 出 现 的 第 一 个 搜索 码 值 (按照 搜索 码 的 顺序 ) 插 人 到 索引 中 。 另 一 方面 ， 如 果 这 条 新 插 人 的 
记录 含有 块 中 的 最 小 搜索 码 值 ， 那 么 系统 就 更 新 指向 该 块 的 索引 项 ; 和 否则， 系统 对 索引 不 做 
任何 改动 。 
。 删除 。 为 删除 一 条 记录 ， 系 统 首 先 查 找 要 删除 的 记录 ， 然 后 下 一 步 的 操作 取决 于 索引 是 稠密 索 
SRE RR S| o 
O 稠密 索引 : 
1. 如 果 被 删除 的 记录 是 具有 这 个 特定 搜索 码 值 的 唯一 的 一 条 记录 ， 系 统 就 从 索引 中 删除 相 
应 的 索引 项 。 


2. 否则 采取 如 下 操作 : 

a 如 果 索 引 项 存储 的 是 指向 所 有 具有 相同 搜索 码 值 的 记录 的 指针 ， 系 统 就 从 索引 项 中 删除 
指向 被 删除 记录 的 指针 。 

b. 否则， 索引 项 存储 的 是 指向 具有 该 搜索 码 值 的 第 一 条 记录 的 指针 。 在 这 种 情况 下 ， 如 果 
被 删除 的 记录 是 具有 该 搜索 码 值 的 第 一 条 记录 ， 系 统 就 更 新 索引 项 ， 使 其 指向 下 一 条 
记录 。 

O MARI: 

1. 如 果 索 引 不 包含 具有 被 删除 记录 搜索 码 值 的 索引 项 ， 则 索引 不 必 做 任何 修改 。 

2. 否则 系统 采取 如 下 操作 : 

a. 如 果 被 删除 的 记录 是 具有 该 搜索 码 值 的 唯一 记录 ， 系 统 用 下 一 个 搜索 码 值 ( 按 搜 索 码 顺 

序 ) 的 索引 记录 替换 相应 的 索引 记录 。 如 果 下 一 个 搜索 码 值 已 经 有 一 个 索引 项 ， 则 删除 
而 不 是 蔡 换 该 索引 项 。 

b. 和 否则， 如 果 该 搜索 码 值 的 索引 记录 指向 被 删除 的 记录 ， 系 统 就 更 新 索引 项 ， 使 其 指向 

具有 相同 搜索 码 值 的 下 一 条 记录 。 

多 级 索引 的 插入 和 删除 算法 是 对 上 述 算法 的 一 个 简单 扩充 。 在 插入 和 删除 时 ， 系 统 对 底层 索引 的 
更 新 如 上 所 述 。 而 对 于 第 二 层 而 言 ， 底 层 索引 不 过 是 一 个 包含 记录 的 文件 。 因 此 ， 如 果 底 层 索引 发 生 
了 改变 ， 第 二 层 索 引 就 可 以 像 上 面 描述 的 那样 进行 更 新 。 如 果 还 有 更 高 层 的 索引 ， 可 以 采用 同样 的 技 
术 更 新 更 高 层 的 索引 。 


11. 2.4 辅助 索引 
辅助 索引 必须 是 稠密 索引 ， 对 每 个 搜索 码 值 都 有 一 个 索引 项 ， 而 且 对 文件 中 的 每 条 记录 都 有 一 个 
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指针 。 而 聚集 索引 可 以 是 稀 玻 索 引 ， 可 以 只 存储 部 分 搜索 码 值 ， 因 为 正如 前 面 所 描述 的 那样 ， 通 过 顺 [483] 
序 扫描 文件 的 一 部 分 ， 我 们 总 可 以 找到 两 个 有 索引 项 的 搜索 码 值 之 间 的 搜索 码 值 所 对 应 的 记录 。 如 果 
辅助 索引 只 存储 部 分 搜索 码 值 ， 两 个 有 索引 项 的 搜索 码 值 之 间 的 搜索 码 值 所 对 应 的 记录 可 能 存在 于 文 
件 中 的 任何 地 方 ， 并 且 我 们 通常 只 能 通过 扫描 整个 文件 才能 找到 它们 。 

候选 码 上 的 辅助 索引 看 起 来 和 稠密 聚集 索引 没有 太 大 的 区 别 ， 只 不 过 索引 中 一 系列 的 连续 值 指向 
的 记录 不 是 连续 存放 的 。 然 而 ,一般 来 说 ， 辅 助 案 引 的 结构 可 能 和 至 集 索 引 不 同 。 如 果 聚 集 索 引 的 搜 
索 码 不 是 候选 码 ， 索 引 只 要 指向 具有 该 特定 搜索 码 值 的 第 一 条 记录 就 足够 了 ， 因 为 其 他 的 记录 可 以 通 
过 对 文件 进行 顺序 扫描 得 到 。 

反之 ， 如 果 辅 助 索 引 的 搜索 码 不 是 一 个 候选 码 ， 仅 仅 具 有 指向 每 个 搜索 码 值 的 第 一 条 记录 的 指针 
是 不 够 的 。 具 有 同一 个 搜索 码 值 的 其 他 记录 可 能 分 布 在 文件 的 任何 地 方 ， 因 为 记录 按 聚 集 索 引 而 不 是 
辅助 索引 的 搜索 码 顺 序 存放 。 因 此 ， 辅 助 索引 必须 包含 指向 每 一 条 记录 的 指针 。 

我 们 可 以 用 一 个 附加 的 间接 指针 层 来 实现 非 候选 码 的 搜索 码 上 的 辅助 索引 。 在 这 样 的 辅助 索引 中 ， 
指针 并 不 直接 指向 文件 ， 而 是 指向 一 个 包含 文件 指针 的 桶 。 图 11-6 给 出 了 这 样 的 一 个 辅助 索引 结构 ， 
它 在 instructor 文件 的 搜索 码 salary 上 使 用 了 一 个 附加 的 间接 指针 层 。 


ae 
_ 
40000 | 10101 |Srinivasan | Comp. Sei. aoo | | 


60000 i ge < 12121 | Wu Finance 
Ee 





: 


65000 | 22222 | Einstein | Physics 
72000 [Tse ElSaid | History 60000 — 


re Gold Physics 87000 
LX 
| 58583 |Califieri | History 62000 | - 
SH an e 
3 )\ Seas ta 
98345 | Kim Elec. Eng. | 80000 























CE fet 75001 
[76766 | Crick [Biology | 72000 











TWA 











= 
图 11-6 instructor 文件 的 辅助 索引 ， 基 于 非 候 选 码 salary 
按 聚 集 索 引 顺 序 对 文件 进行 顺序 扫描 是 非常 有 效 的 ， 因 为 文件 中 记录 的 物理 存储 顺序 和 索引 顺序 
一 致 。 但 是 ， 我 们 不 能 (除了 极 少数 特殊 情况 外 ) 使 存储 文件 的 物理 顺序 既 和 聚集 索引 的 搜索 码 顺 序 相 


同 ， 又 和 辅助 索引 的 搜索 码 顺序 相同 。 由 于 辅助 码 的 顺序 和 物理 码 的 顺序 不 同 ， 因 此 如 果 我 们 想 要 按 畏 
助 码 的 顺序 对 文件 进行 顺序 扫描 ， 那 么 每 读 一 条 记录 都 很 可 能 需要 从 磁盘 读 人 一 个 新 的 块 ， 这 是 很 慢 的 。[484 














索引 的 自动 生成 
如 果 一 个 关系 声明 为 有 一 个 主 码 ， 大 多 数 数据 库 实现 会 在 主 码 上 自动 创建 一 个 索引 。 只 要 一 个 
元 组 插入 到 关系 中 ， 该 索引 就 可 以 用 来 检查 没有 违反 主 码 约束 ( 即 没有 重复 的 主 码 值 ) 。 假 如 主 码 上 
没有 上 索引， 只 要 插入 一 个 元 组 ， 整 个 关系 就 必须 被 读 取 ， 以 确保 满足 主 码 约束 。 


前 面 所 描述 的 关于 删除 和 插 人 的 过 程 也 适用 于 辅助 索引 ， 所 采用 的 操作 和 为 文件 中 的 每 条 记录 存 
储 一 个 指针 的 稠密 索引 需要 的 操作 一 样 。 如 果 文 件 具 有 多 个 索引 ， 无 论 何 时 修改 文件 ， 它 的 每 个 索引 
都 必须 更 新 。 

辅助 索引 能 够 提高 使 用 聚集 索引 搜索 码 以 外 的 码 的 查询 性 能 。 但 是 ， 辅 助 索 引 显 著 增 加 了 数据 库 
更 新 的 开销 。 数 据 库 设计 者 根据 对 查询 和 更 新 相对 频率 的 估计 来 决定 哪些 辅助 索引 是 需要 的 。 
11.2.5 多 码 上 的 索引 

虽然 我 们 迄今 所 看 到 的 例子 在 搜索 码 中 只 含有 单个 属性 ， 但 一 般 来 说 一 个 搜索 码 可 以 有 多 个 属性 。 
一 个 包含 多 个 属性 的 搜索 码 称 为 复合 搜索 码 ( composite search key) 。 这 个 索引 的 结构 和 任何 其 他 索引 
一 样 ， 唯 一 不 同 的 地 方 是 搜索 码 不 是 单个 属性 ， 而 是 一 个 属性 列表 。 这 个 搜索 码 可 以 表示 为 形式 如 
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(aa ，…，on) 的 一 组 值 ， 其 中 4 ，…，4, 是 索引 属性 。 搜 索 码 值 按 字 典 序 (lexicographic ordering) 排序。 
例如 ， 考 虑 有 两 个 属性 的 搜索 码 ， 如 果 a <b, Ma, =b, Ha, <b, MCa, a) <(b,, 6). FRM 
单词 按 字 母 排序 基本 相同 。 

举例 来 说 ， 考 虑 takes 关系 上 的 一 个 复合 搜索 码 ( course_id，semester，year)。 这 样 一 个 索引 在 查找 
所 有 特定 学 期 /年 注册 了 特定 课程 的 学 生 时 是 很 有 用 的 。 一 个 在 复合 码 上 的 有 序 索 引 可 以 用 来 有 效 地 查 
找 某 些 其 他 类 型 的 查询 ， 就 像 我 们 将 在 11.5.2 节 中 见 到 的 一 样 。 


11.3 B’ 树 索引 文件 


485 索引 顺序 文件 组 织 最 大 的 缺点 在 于 ， 随 着 文件 的 增 大 ， 索 引 查找 性 能 和 数据 顺序 扫描 性 能 都 会 下 

降 。 虽 然 这 种 性 能 下 降 可 以 通过 对 文件 进行 重新 组 织 来 弥补 ， 但 是 我 们 不 希望 频繁 地 进行 重组 。 

B 树 (B -tee) 索 引 结构 是 在 数据 插入 和 删除 的 情况 下 仍 能 保持 其 执行 效率 的 几 种 使 用 最 广泛 的 
索引 结构 之 一 。B ' 树 索引 采用 平衡 树 ( balanced tree) 结构 ， 其 中 树 根 到 树叶 的 每 条 路 径 的 长 度 相同 。 
树 中 每 个 非 叶 结 点 有 [n2] ~ 个 子女 ， 其 中 履 对 特定 的 树 是 固定 的 。 

我 们 将 看 到 BY 树 结构 会 增加 文件 插入 和 删除 处 理 的 性 能 开销 ， 同 时 会 增加 空间 开销 。 但 是 即使 对 
更 新 频率 较 高 的 文件 来 说 ， 这 种 开销 也 是 可 接受 的 ， 因 为 这 样 能 够 减 小 文件 重组 的 代价 。 此 外 ， 由 于 
结 点 有 可 能 是 半空 的 (如 果 它 们 具有 最 少子 结 点 数 的 话 ) ， 这 将 造成 空间 的 浪费 。 但 是 ， 考 虑 到 B 树 
所 带 来 的 性 能 提高 ， 这 种 空间 开销 也 是 可 以 接受 的 。 
11.3.1 B- 树 的 结构 


B 树 索引 是 一 种 多 级 索引 ， 但 是 其 结构 不 同 于 多 级 索引 顺序 文件 。 典 型 的 B 树 结 点 结构 如 图 11-7 
所 示 。 ERZES n-1 个 搜索 码 值 天 , ， K,, fiat Kis 以 及 n 个 指针 P, Po are a Pio 每 个 结 点 中 的 
搜索 码 值 排序 存放 ， 因 此 ， 如 果 <j, BAK, < K( 假 设 目 前 没有 重复 的 码 值 ) 。 


Te TA 








图 11-7 典型 的 B’* 树 结 点 


我 们 首先 考察 叶 结 点 (leaf node) 的 结构 。 对 i=1，2,，…, n-1, HEP 指向 具有 搜索 码 值 K, 的 
一 条 文件 记录 。 指 针 P, 有 特殊 的 作用 ， 我 们 将 稍 后 讨论 。 

图 11-8 是 instructor 文件 的 B* 树 的 一 个 叶 结 点 ， 其 中 我 们 设 n 等 于 4， 搜 索 码 是 name, 

知道 了 叶 结 点 的 结构 之 后 ， 我 们 来 看 一 看 搜索 码 值 是 如 何 赋 给 特定 结 点 的 。 每 个 叶 结 点 最 多 可 有 
n 一 1 个 值 。 我 们 允许 叶 结 点 包含 的 值 的 个 数 最 少 为 [(n -1)/21 。 在 B' 树 例子 中 n=4， 每 个 叶子 必须 
包含 最 少 两 个 并 且 最 多 3 个 值 。 

各 叶 结 点 中 值 的 范围 互 不 重合 ， 除 非 有 重复 的 搜索 码 值 ， 在 这 种 情况 下 ， 一 个 值 可 能 出 现在 多 个 叶 
结 点 中 。 说 明确 些 ， 如 果 L AL, 是 两 个 叶 结 点 且 i < j, RAL, 中 的 所 有 搜索 码 值 都 小 于 或 等 于 万 中 的 
所 有 搜索 码 值 。 要 使 B' 树 索引 成 为 稠密 索引 (通常 情况 ) ， 各 搜索 码 值 都 必须 出 现在 某 个 叶 结 点 中 。 

现在 我 们 可 以 来 解释 指针 P, 的 作用 了 。 因 为 各 叶 结 点 之 间 按 照 所 含 的 搜索 码 值 大 小 有 一 个 线性 的 顺 

序 ， 所 以 我 们 可 以 用 P, 将 叶 结 点 按 搜索 码 顺序 串 在 一 起 。 这 种 排序 可 以 对 文件 进行 高 效 的 顺序 处 理 。 

B 树 的 非 叶 结 点 (nonleaf node) 形 成 叶 结 点 上 的 一 个 多 级 ( 稀 玻 ) 索 引 。 非 叶 结 点 的 结构 和 叶 结 点 
的 相同 ， 只 不 过 非 叶 结 点 中 所 有 的 指针 都 是 指向 树 中 结 点 的 指针 。 一 个 非 叶 结 点 可 以 容纳 最 多 个 指 
针 ， 同 时 必须 至 少 容纳 [2 1] 个 指针 。 结 点 的 指针 数 称 为 该 结 点 的 扇 出 。 非 叶 结 点 也 称 为 内 部 结 点 
(internal node ) 。 

让 我 们 考虑 一 个 包含 m MET MAR (msn). Mi=2, 3, +, m-1, 指针 书 指 向 一 棵 子 树 ， 该 
子 树 包 含 的 搜索 码 值 小 于 天 且 大 于 等 于 K, |。 指针 P, 指向 子 树 中 所 含 搜索 码 值 大 于 等 于 大 ,的 那 一 
部 分 ， 而 指针 P, 指向 子 树 中 所 含 搜索 码 值 小 于 天 的 那 一 部 分 。 

根 结 点 与 其 他 非 叶 结 点 不 同 ， 它 包含 的 指针 数 可 以 小 于 [n/21 ; 但 是 ， 除 非 整 棵 树 只 有 一 个 结 点 ， 
否则 根 结 点 必须 至 少 包含 两 个 指针 。 对 任意 n， 我 们 总 可 以 构造 满足 上 述 要 求 的 B' 树 。 


第 11 章 索引 与 散 列 
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图 11-8 instructor 的 B* 树 索 引 (m =4) 的 一 个 叶 结 点 
































图 11-9 给 出 了 instructor 文件 (n=4) 的 一 棵 完整 的 B' 树 。 为 了 简化 起 见 ， 我 们 也 忽略 了 空 指针 。 


图 11-8 中 不 包含 箭头 的 指针 区 域 可 以 理解 为 包含 空 值 。 


图 11-10 给 出 了 instructor XIF (n =6) 的 另 一 棵 完整 的 BO 树 。 可 以 观察 到 这 棵 树 的 高 度 小 于 


n=4 的 树 。 


前 面 


这 些 B' 树 的 例子 都 是 平衡 的 ， 即 从 根 到 叶 结 点 的 每 条 路 径 长 度 都 相同 。 对 于 OBS 树 来 说 这 是 一 个 
必需 的 性 质 。 实 际 上 B' 树 的 “B” 就 表示 “平衡 "(balanced ) 的 意思 。 正 是 B 树 的 这 一 平衡 属性 保证 了 


B 树 索引 有 良好 的 查找 、 插 人 和 修改 性 能 。 
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Py p= 内 部 结 点 
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图 11-9 instructor 文件 的 B' 树 (n=4) 














图 11-10 instructor 文件 的 B' 树 (n=6) 


11.3.2 B+ 树 的 查询 


[TIE 了 -ET ~ 


让 我 们 考虑 一 下 如 何 处 理 B 树 上 的 查询 。 假 设 我 们 要 找 出 搜索 码 值 为 了 的 所 有 记录 。 图 11-11 表 


275 














276 第 三 部 分 数据 存储 和 查询 


示 执 行 这 个 任务 的 函数 find( ) 的 伪 代 码 。 

直观 地 看 ， 如 果树 中 存在 指定 的 值 ， 那 么 该 函数 就 从 树 的 根 结 点 开始 ， 向 下 周游 树 直 到 它 到 达 包 

含 指 定 值 的 叶 结 点 。 具 体 地 说 ， 从 根 结 点 作为 当前 结 点 出 发 ， 函 数 会 重复 如 下 步骤 直到 到 达 一 个 叶 结 

点 : 首先 ,检查 当前 结 点 ， 查 找 最 小 的 i 使 得 搜索 码 值 K; 大 于 等 于 V。 假设 找到 了 这 样 的 值 ， 如 果 K, 
等 于 V， 那 么 将 当前 结 点 置 为 由 P;,, 指 向 的 结 点 ; 而 如 果 K; 大 于 V， 那 么 将 当前 结 点 置 为 由 P; 指向 的 
结 点 。 如 果 没 有 找到 这 样 的 K, 值 ， 那 么 显然 V 二 K,’ Ep P, 是 结 点 中 的 最 后 一 个 非 空 指针 。 在 这 
个 情况 下 ， 将 当前 结 点 置 为 由 已 , 指向 的 结 点 。 重 复 上 述 过 程 ， 周 游 整 棵 树 直到 访问 叶 结 点 。 

在 叶 结 点 中 ， 如 果 包 含 等 于 了 的 搜索 码 值 ， 令 K 为 第 一 个 这 样 的 值 ， 则 指针 已 指向 具有 搜索 码 
值 天 的 记录 。 该 函数 返回 叶 结 点 二 和 索引 ;i。 如 果 在 叶 结 点 中 没有 找到 等 于 了 的 搜索 码 值 ， 即 在 关系 
中 不 存在 具有 码 值 为 V 的 记录 ， 函 数 find( ) 则 返回 空 值 ， 显 示 失 败 。 

要 处 理 重复 的 搜索 码 ， 需 要 对 图 11-11 中 的 find( ) 函数 进行 修改 。 对 于 叶 结 点 和 内 部 结 点 中 重复 
的 搜索 码 ， 如 果 i<j， 则 K,; <K 不 一 定 成 立 ， 但 是 肯定 地 天 三 天 成立。 而 且 ， 书 所 指向 的 子 树 中 的 记 
录 可 能 包含 小 于 或 等 于 天 的 值 (要 理解 为 什么 是 这 样 的， 请 考虑 P, 和 已 ,所 指向 的 ， 都 包含 一 个 重复 
的 搜索 码 值 v 的 两 个 相 邻 的 叶 结 点 ， 这 里 天 =") 。 要 解决 这 个 问题 ， 我 们 必须 修改 find( ) 函数 中 的 循 
m, 置 C=C.P,， 即 使 V=C. K;。 而 且 ， 由 此 达到 的 叶 结 点 C 可 能 仅 包含 小 于 VV 的 搜索 码 (即使 了 在 树 
中 并 不 存在 ) ; 在 这 种 情况 下 ，find 过 程 必须 置 C = C 的 右 兄弟 ， 并 且 再 次 检查 C 是 否 包含 V。 我 们 把 
这 个 修改 过 的 find 过 程 称 作 findFirst， 它 返回 值 了 在 树 中 的 第 一 次 出 现 。 

如 图 11-11 所 示 的 程序 printAl 描述 如 何 检索 所 有 搜索 码 值 等 于 了 的 记录 。PprintALL 过 程 调用 
findFirst ， 去 找 出 具有 了 的 第 一 次 出 现 的 结 点 L， 然 后 在 结 点 工 中 遍历 其 余 的 码 ， 以 找 出 具有 搜索 码 值 V 
的 其 他 记录 。 如 果 结 点 上 至 少 包含 一 个 大 于 VV 的 搜索 码 值 ， 那 么 不 存在 更 多 的 值 为 V 的 记录 。 否则 ， 由 
指针 P, 指向 的 下 一 个 叶 结 点 有 可 能 包含 值 为 V 的 搜索 码 。 然 后 必须 搜索 由 指针 P, 指向 的 结 点 来 进一步 
查找 具有 搜索 码 值 为 V 的 记录 。 如 果 由 P, 指向 的 结 点 的 最 大 搜索 码 也 是 VY， 那 么 可 能 需要 周游 更 多 叶 结 
点 ， 从 而 找到 所 有 匹配 记录 。 在 printAll( ) 中 的 repeat 循环 执行 叶 结 点 的 周游 ， 直 到 找到 所 有 匹配 记录 。 

一 个 实际 的 实现 可 能 提供 find( ) 的 一 个 版 本 ， 它 支持 与 JDBC ResultSet 所 提供 的 类 似 的 迭代 接口 ， 
正如 我 们 在 5. 1. 1 节 中 所 看 到 的 一 样 。 这 种 迭代 接口 可 以 提供 一 个 next( ) 方法 ， 该 方法 可 以 反复 调用 ， 
来 查找 具有 特定 搜索 码 值 的 连续 记录 。 和 printAll( ) 相似 ，next( ) 方 法 在 叶 结 点 进行 遍历 ， 但 是 每 次 调 
用 只 执行 一 步 ， 返 回 离开 前 遍历 到 的 记录 ， 这 样 连续 的 next( ) 调用 遍历 相继 的 记录 。 为 了 简单 起 见 ， 
我 们 省 略 了 细节 ， 将 迭代 接口 伪 码 作为 练习 留 给 感 兴趣 的 读者 。 

B 树 也 可 以 查找 所 有 搜索 码 值 在 特定 区 间 ( 工 ，D) 的 记录 。 例 如 ， 在 关系 intructor 的 属性 salary 上 
的 B' 树 中 ， 我们 查找 所 有 工资 在 特定 区 间 例 如 (50 000, 100 000) ( 换 句 话说 ， 即 介 于 50 000 和 100 000 
之 间 的 所 有 工资 ) 的 所 有 instructor 记录 。 这 样 的 查找 称 作 范围 查询 (range query)。 我 们 可 以 创建 一 个 
printRange(L, U) 函数 来 执行 这 样 的 查找 ， 该 函数 的 主体 和 printAll( ) 一 样 ， 除 了 以 下 不 同 : printRange 
OHM find( 工 ) 而 不 是 调用 find(V) ， 然 后 和 函数 printAll( ) 一 样 周游 记录 。 不 同 的 是 printRange( ) 在 满 
Æ L. K, > U DNE L. K, > 时 停止 。 

在 处 理 一 个 查询 的 过 程 中 ,我 们 需要 遍历 树 中 从 根 到 某 个 叶 结 点 的 一 条 路 径 。 如 果 文 件 中 有 NN 个 
搜索 码 值 ， 那 么 这 条 路 径 的 长 度 不 超过 『logi,,i(N)|。 

实际 上 只 需 访 问 几 个 结 点 。 结 点 的 大 小 一 般 等 于 磁盘 块 大 小 ,通常 为 4KB。 如 果 搜 索 码 的 大 小 为 
12 字 节 ， 磁 盘 指针 的 大 小 为 8 字 节 ， 那 么 大 约 为 200。 即 使 采用 更 保守 的 估计 ， 假设 搜索 码 大 小 达 
到 32 字 节 ,nn 也 大 约 为 100。 在 n=100 的 情况 下 ， 如 果 文 件 中 搜索 码 值 共有 1 百 万 个 ， 一 次 查找 也 只 
需要 访问 [logsp (1 000 000) | =4 个 结 点 。 因 此 ， 查 找 时 最 多 只 需要 从 磁盘 读 4 个 块 。 通 常 根 结 点 访问 
频繁 ， 很 可 能 在 缓冲 区 中 ， 因 此 一 般 只 要 从 磁盘 读 取 三 个 或 更 少 的 磁盘 块 。 

B * 树 结构 与 内 存 中 树 结构 ( 如 二 又 树 ) 的 一 个 重要 的 区 别 在 于 结 点 的 大 小 及 其 造成 的 树 的 高 度 的 不 
同 。 二 又 树 的 结 点 很 小 ， 每 个 结 点 最 多 有 两 个 指针 。 而 B 树 的 结 点 非常 大 (一 般 是 一 个 磁盘 块 的 大 
小 ) ， 每 个 结 点 可 以 有 大 量 指针 。 因 此 ，B ’ 树 一 般 胖 而 矮 ， 不 像 二 又 树 那 样 瘦 而 高 。 在 平衡 二 又 树 中 ， 
查找 路 径 的 长 度 可 达 [「log,(N) | ， 其 中 发 为 搜索 码 值 的 个 数 。 当 NN 如 上 例 中 那样 为 1000 000 时 ,平衡 


二 又 树 大 约 需要 访问 20 个 结 点 。 如 果 每 个 结 点 在 不 同 的 磁盘 块 中 ， 处 理 一 次 查找 需要 读 20 个 块 ， 而 
B AME 4 个 块 。 区 别 是 显著 的 ， 因 为 一 次 块 读 取 可 能 要 求 一 次 磁盘 臂 寻 道 ， 而 且 一 张 典 型 的 磁盘 


上 一 次 磁盘 寻 道 的 块 读 取 需要 10 毫秒 。 
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function find( value V ) 


a C = 根 结 点 

while C 不 是 叶 结 点 begin 
令 i= 满 足 V<C.K 的 最 小 值 
if 没有 这 样 的 i then begin 


置 C=C.P， 
end 
else if (V=C. 天) 
then Æ C=C. P,,, 


end 
/*C 是 叶 结 点 */ 
设 i 是 满足 K, =V 的 最 小 值 
这 有 这 样 的 ;存在 

then 返回 (C, i) 


procedure printAll( value V) 
/* 打印 所 有 搜索 码 值 等 于 V 的 记录 * / 
置 done = false 
置 (L, i) =findFirst( V) 
if( (L, i) 为 空 ) return 
repeat 
repeat 
打印 指针 二 P, 指向 的 记录 
A i=it+l 
until(i > 中 码 的 数目 或 LK, >V) 
证 (; > 工 中 码 的 数目 ) 
then L = L. P, 
else @ done = true; 
until (done or L 为 空 ) 





/ x 假设 没有 重复 码 返回 叶 结 点 C 和 索引 i 使 得 C. P, 指向 第 一 条 搜索 码 值 等 于 了 的 记录 / 


令 P, = 结 点 中 最 后 一 个 非 空 指针 


else C=C.P/* V<C_K, */ 


else 返回 空 /* 没有 码 值 等 于 了 的 记录 存在 * / 








图 11-11 
11.3.3 B- 树 的 更 新 


277 


当 一 条 记录 从 关系 中 插入 或 者 删除 ， 建 立 在 该 关系 上 的 索引 必须 相应 地 更 新 。 回 想 前 面 ， 记 录 的 
更 新 操作 可 以 设计 为 对 旧 记 录 的 删除 ， 以 及 随即 对 更 新 后 记录 的 插入 。 因 此 我 们 仅 考 虑 插入 和 删除 的 


情况 即 可 。 


插入 和 删除 要 比 查 找 更 加 复杂 ， 因 为 结 点 可 能 因为 插入 而 变 得 过 大 而 需要 分 裂 (split) 或 因为 删除 
而 变 得 过 小 (指针 数 少 于 | 2 ] ) 而 需要 合并 (coalesce) ( 即 合并 结 点 ) 。 此 外 ， 当 一 个 结 点 分 裂 或 一 对 
结 点 合并 时 ， 我 们 必须 保证 B 树 能 保持 平衡 。 为 了 引入 B 树 中 人 处理 插入 和 删除 的 思想 ,我 们 下 面 暂 
时 假设 结 点 从 来 不 会 变 得 过 大 或 过 小 。 在 这 个 假设 下 ， 插 入 和 删除 将 按 如 下 方式 进行 。 
© 插入 。 在 函数 find( )( 见 图 11-11) 中 使 用 和 查找 一 样 的 技术 ,我 们 首先 找到 搜索 码 值 将 出 现 的 叶 结 


点 。 然 后 在 叶 节 点 中 插入 一 条 新 记录 ( 即 一 对 搜索 码 值 和 记录 指针 ) ， 使 得 插入 后 搜索 码 仍然 有 序 。 


。 删除 。 使 用 和 查找 一 样 的 技术 ,我 们 通过 查找 已 删除 记录 的 搜索 码 值 ， 找 到 包含 待 删除 项 的 叶 
结 点 ; 如 果 多 项 含有 相同 的 搜索 码 值 ， 我 们 遍历 所 有 这 些 相 同 搜索 码 值 的 项 ， 直 到 找到 指向 被 
删除 记录 的 项 。 然 后 我 们 从 叶 结 点 中 移 除 该 项 。 该 叶 结 点 中 已 删除 项 右边 的 所 有 项 左 移 一 个 位 


置 ， 以 便 在 删除 该 项 后 不 会 有 空 际 。 


现在 我 们 通过 处 理 结 点 分 裂 和 结 点 合并 ,来 考虑 插入 和 删除 的 一 般 情 况 。 
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11.3.3.1 4A 

现在 我 们 考虑 结 点 必须 分 裂 的 一 个 插 和 人 的 例子 。 假 设 我 们 需要 往 instructor 关系 中 插入 一 条 name 值 
JH“ Adams” 的 记录 。 然 后 我 们 需要 往 图 11-9 所 示 的 B 树 中 插入 一 条 值 为 *Adams” 的 项 。 按 照 查找 算 
法 ,我 们 发 现 “Adams" 应 出 现在 包含 “Brandt”、“ Califieri” 和“ Crick” 的 页 结 点 中 。 该 页 结 点 中 已 没有 插 
ARRIE“ Adams” 所 需 的 空间 。 因 此 该 结 点 分 裂 为 两 个 结 点 。 图 11- 12 表示 在 在 插入 “Adams” 后 叶 
结 点 分 裂 成 两 个 叶 结 点 。 其 中 一 个 叶 结 点 的 搜索 码 值 为 “Adams” 和 “Brandt”" ， 另 一 个 为 “Califieri” 和 
“Crick”, 一 般 来 说 ， 我 们 将 这 nn 个 搜索 码 值 ( 叶 结 点 中 原 有 的 n-1 个 值 再 加 上 新 插入 的 值 ) 分 为 两 组 ， 
前 Tn/2 1 个 放 在 原来 的 结 点 中 ,， 剩 下 的 放 在 一 个 新 结 点 中 。 


Adamsl],| Brandt | 二 Califieril | Crick 
Y 


FA 11-12 插入 “Adams” 时 叶 结 点 的 分 裂 


在 分 裂 一 个 结 点 后 ,我 们 必须 将 新 的 叶 结 点 插入 到 B’' 树 结构 中 。 在 这 个 例子 中 ， 新 结 点 以 
“Califieri "作为 其 最 小 搜索 码 值 。 我 们 需要 将 该 搜索 码 值 插入 已 分 裂 结 点 的 父 结 点 中 - 图 11-13 中 的 B* 
树 给 出 了 插入 后 的 结果 。 因 为 父 结 点 中 有 空间 容纳 插入 的 搜索 码 值 ， 所 以 可 以 直接 插入 而 无 须 分 裂 结 
点 。 若 没有 空间 ， 则 父 结 点 必须 分 裂 ， 并 需要 在 它 的 父 结 点 中 插入 一 个 项 。 在 最 坏 的 情况 下 ， 从 叶 结 
点 到 根 结 点 的 路 径 上 的 所 有 结 点 必须 分 裂 。 如 果 根 本 身 也 分 裂 了 ， 那 么 整 棵 树 的 深度 就 加 大 了 

一 个 非 叶 结 点 的 分 裂 与 叶 结 点 的 分 裂 略 有 不 同 。 图 11- 14 表示 在 图 11-13 所 示 的 树 中 插入 搜索 码 
“Lamport” 的 结果 。“Lamport" 将 要 插入 的 叶 结 点 已 经 含有 “Gold”、“ Katz” 和 “Kim”， 因 此 叶 结 点 需要 分 
型。 新 的 右手 侧 结 点 从 分 裂 中 产生 ， 并 含有 搜索 码 值 “Kim”" 和 “Lamport”。 一 个 ( Kim，nl ) 项 必须 添加 
到 父 结 点 中 ， 其 中 nl 指向 新 的 结 点 。 然 而 ， 父 结 点 上 已 经 没有 空间 来 增加 新 的 项 ， 因 此 父 结 点 必须 要 
分 裂 。 为 此 ， 从 概念 上 父 结 点 临时 扩张 ， 新 的 项 被 添加 ， 然 后 过 满 结 点 立刻 分 裂 。 











[einstein] sad | [4+{ [Gotaf [katz] [kim hozan] [Singh] | [pA [Srinivasan] wal] T] 
图 11-13 {E“ Adams” ff A I 11-9 89 Bo trp 


4— SESE AORN, BPH HORST eA HE MWAR Zi. ATP, 
tea RS TRS MEE. AMP OBHAR AS PME. BE, RAY Lh Bg AO 
同 。 位 于 移动 到 右边 结 点 的 指针 之 间 的 搜索 码 值 ( 在 该 例子 中 ， 该 值 为 "Kim”) 和 指针 一 起 移动 ， 而 位 
于 留 在 左边 的 指针 之 间 的 搜索 码 值 (在 该 例子 中 是 “Califieri” 和 “Einstein”) 依 旧 不 变 。 

但 是 ， 位 于 留 在 左边 的 指针 和 移动 到 右边 结 点 的 指针 之 间 的 搜索 码 值 要 特殊 对 待 。 在 该 例子 中 ， 
搜索 码 值 * Gold” 位 于 三 个 移动 到 左边 结 点 的 指针 以 及 两 个 移动 到 右边 结 点 的 指针 之 间 。 因 此 “Gold" 值 
不 会 添加 到 任意 一 个 分 裂 结 点 中 。 相 反 ，( Gold，n2) 项 添加 到 父 结 点 中 ，n2 指针 指向 分 裂 产生 的 新 结 
点 。 在 本 例 中 ， 父 结 点 就 是 根 结 点 ， 并 且 有 足够 的 空间 来 插入 新 的 项 。 

往 B' 树 中 进行 插入 的 一 般 技术 是 确定 插入 发 生 的 叶 结 点 /。 如 果 产 生 分 裂 ， 则 将 新 结 点 插入 结 点 ! 的 父 
结 点 中 。 如 果 这 一 插入 导致 分 裂 ， 就 沿 着 树 向 上 递归 处 理 ， 直 到 不 再 产生 分 裂 或 创建 一 个 新 的 根 结 点 为 止 。 

11-15 列 出 了 插入 算法 的 伪 码 。insert 过 程 用 两 个 辅助 过 程 insert_in_leaf 和 insert_in_parent 将 一 
个 搜索 码 - 值 指针 对 插入 到 索引 中 。 在 伪 码 中 ,LKL、N、P、7T 表示 指向 结 点 的 指针 ， 其 中 工 代 表 叶 结 
点 。L. K, AL. P, 分 别 表示 结 点 工 中 第 i 个 值 和 第 i 个 指针 ; T. K, 和 7.P, 也 可 同 理 使 用 。 伪 码 还 利用 区 
数 parent(N) 来 找 出 结 点 的 父 结 点 。 在 一 开始 寻找 叶 结 点 时 ,我们 可 以 计算 从 根 到 叶 的 路 径 上 的 结 点 
列表 ， 以 后 就 可 以 利用 它 来 高 效 地 寻找 这 条 路 径 中 任何 一 个 结 点 的 父 结 点 。 








ARSON eT 






图 11-14 在 图 11-9 的 B'* 树 中 插入 “Lamport” 


insert_in_parent 过 程 接 收 的 参数 为 N、K'、N', 其 中 结 点 oR NAN’, K' 是 NV' 中 最 小 的 值 。 
该 过 程 将 修改 N 的 父 结 点 以 记录 可 能 进行 的 分 裂 。insert_into_index 和 insert_in_parent 过 程 都 用 一 块 临 
时 内 存 区 了 来 存储 即将 分 裂 的 结 点 的 内 容 。 这 些 过 程 可 以 修改 为 直接 把 被 分 裂 结 点 的 内 容 复 制 到 新 建 


结 点 中 ， 以 减少 数据 复制 的 时 间 。 然 而 ， 用 临时 内 存 区 了 可 以 简化 这 些 过 程 。 
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procedure insert(value K, pointer P) 
if (MAS) 创建 一 个 空 叶 结 点 KL， 同时 它 也 是 根 结 点 
else 找到 应 该 包含 值 K 的 叶 结 点 二 
这 (上 所 含 搜索 码 少 于 nn 一 1 个 ) 
then insert_in_leaf (L, K, P) 
else begin /* LE AGA n-1 个 搜索 码 了 ， 分 裂 元 */ 
创建 结 点 忆 


insert_in_leaf (T, K, P) 
SLP, =L P,; &LP,=L! 


KE PUR L P, oe, L P,a, LK, LP, 
FET. P, o, T. Kum 从 了 复制 到 过 中 , LAL P, 作为 开始 
FET. Kooy ct, T.K, 从 了 复制 到 忆 中 ,天 以 性 P, 作为 开始 


令 天 表示 必 中 最 小 搜索 码 值 
insert_in_parent (L, K’, L’) 
end 


procedure insert_in_leaf (node L, value K, pointer P) 
if (K HE L. K, 小) 
then 把 P, KIGA LF, BREE L. P, 前 面 
else begin 
令 天 表示 工 中 小 于 等 于 天 的 最 大 搜索 码 值 
JEP. Ki A Loh, KIRE L. K, 前 面 
end 
procedure insert_in_parent (node N, value K', pointer N’) 
if (N 是 树 的 根 结 点 ) 
then 在 工 中 插入 (V, P) 
else begin 
GBA RELA N, K.N /x*N 和 WN' 都 是 指针 */ 
令 R 成 为 树 的 根 结 点 
return 
end 
S P=N HLA 
放 (P 包 含 的 指针 少 于 nn 个) 
then 将 (K', N) JER] N Jam 
else begin / * 分裂 Px/ 
将 PP 复制 到 可 以 存放 PP 以 及 (K', N') 的 内 存 块 7 中 
创建 结 点 (K', NIA TH, RRE N jam 
删除 所 有 P 中 所 有 项 ; 创建 结 点 P 
JE T. P, 0, TK 复制 到 PP 中 


SRK TK 
ET. Prams p g E P, RA P' 中 
insert_in_parent (P, K", P') 

end 


JEL Pi, +, L K, ,复制 到 可 以 存储 n 个 (指针 ， 搜索 码 值 ) 对 的 内 存 块 7 中 











图 11-15 往 B’ 树 中 插入 索引 项 
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11.3.3.2 删除 

现在 我 们 来 考虑 使 树 结 点 中 指针 变 得 过 少 的 删除 操作 。 首 先 我 们 从 图 11- 13 的 B 树 中 删除 
“Srinivasan”。 产 生 的 B 树 见 图 11-16。 接 下 来 我 们 考虑 删除 操作 是 怎样 执行 的 。 我 们 首先 用 查找 算法 
定位 "Srinivasan "的 索引 项 。 当 我 们 从 叶 结 点 中 把 ”Srinivasan "的 索引 项 删除 后 ， 叶 结 点 就 只 剩 下 一 个 
“Wu" 项 了 。 因此， 在 该 例子 中 ， 由 于 n = 4 且 1 < [Cn -1)X21， 因 此 要 么 将 该 结 点 同一 个 兄弟 结 点 
合并 ， 要 么 在 结 点 间 重 新 分 配 项 ， 以 此 来 保证 每 个 结 点 至 少 半 满 。 在 该 例子 中 ， 具 有 项 “Wu 的 太空 的 
结 点 可 以 同 它 的 左边 兄弟 结 点 合并 。 我 们 可 通过 把 两 个 结 点 中 的 项 移动 到 左边 的 兄弟 结 点 中 ， 并 且 删 
除 现 有 的 空 右 兄弟 ， 从 而 合并 结 点 。 结 点 一 旦 删除 ， 就 同时 也 要 删除 父 结 点 中 指向 刚刚 删除 结 点 的 项 。 

在 该 例子 中 ，( Srinivasan，n3) 是 要 删除 的 项 ， 其 中 n3 是 指向 含有 “Srinivasan” 值 的 叶 结 点 的 指针 。 
(在 这 种 情况 下 ， 在 非 叶 结 点 中 将 要 删除 的 项 和 已 经 从 叶 结 点 中 删除 的 值 一 样 ， 当 然 ， 大 部 分 删除 情况 
不 是 这 样 的 ) 。 在 删除 上 述 项 以 后 ， 含 有 搜索 码 值 “Srinivasan” 和 两 个 指针 的 父 结 点 现在 变 成 含有 一 个 
指针 ( 结 点 中 最 左边 的 指针 ) 和 没有 搜索 码 值 。 因 为 对 于 n=4, 1 < 「『n/21 ， 所 以 父亲 结 点 太空 。( 当 n 
较 大 时 ， 太 空 的 结 点 将 仍然 含有 一 些 值 以 及 指针 ,) 

在 这 种 情况 下 ， 我 们 考虑 兄弟 结 点 ， 在 该 例子 中 ， 唯 一 的 兄弟 结 点 就 是 包含 搜索 码 "Califtieri”、 
“Einstein ”和 "Cold "的 非 叶 结 点 。 如 果 可 以 ， 我 们 会 尝试 着 同 兄弟 结 点 合并 。 但 是 在 这 种 情况 下 ， 合 并 是 
不 可 能 的 ， 因 为 结 点 和 它 的 兄弟 结 点 一 共 拥 有 5 个 指针 ， 超 过 了 最 大 数量 4。 解 决 这 种 情况 的 方法 是 在 
该 结 点 和 兄弟 结 点 间 重 新 分 配 ( redistribute ) 指 针 ， 以 便 每 个 结 点 含有 至 少 Tn/21 =2 的 孩子 指针 。 为 此 ， 
我 们 将 来 自 左 边 兄 弟 结 点 (该 指针 指向 含有 “Mozart” 的 叶 结 点 ) 的 最 右边 的 指针 移动 到 太空 的 右边 兄弟 中 。 
但 是 ， 太 空 的 右边 兄弟 现在 拥有 两 个 指针 ， 即 最 左边 的 指针 和 新 移 进 来 的 指针 ， 而 且 没 有 值 将 它们 分 开 。 
事实 上 ， 将 它们 分 开 的 值 不 会 在 任意 一 个 结 点 中 ， 而 是 在 父 结 点 中 ， 位 于 从 父 结 点 指向 该 结 点 以 及 从 父 
结 点 指向 其 兄弟 结 点 的 指针 之 间 。 在 该 例子 中 , “Mozart" 值 分 开 这 两 个 指针 ， 并 且 在 重新 分 配 后 位 于 右 
边 兄 弟 结 点 中 。 指 针 的 重新 分 配 也 意味 着 父 结 点 中 “Mozart” 值 不 再 正确 地 分 开 两 个 兄弟 结 点 中 的 搜索 码 
(i. 事实 上 ， 现 在 正确 分 开 两 个 兄弟 结 点 中 搜索 码 的 值 是 "Gold”， 它 在 重新 分 配 之 前 在 左边 兄弟 结 点 中 。 

如 图 11-16 中 的 B' 树 所 示 ， 在 重新 分 配 兄弟 结 点 的 指针 后 , “Gold" 值 移动 到 父 结 点 中 ， 而 原先 父 
结 点 中 的 “Mozart" 值 下 移 到 右边 的 兄弟 结 点 中 。 





| [Cantieri] [Eimsteinf | I [mozal] TT 






[全 ET 人 TEST H E ON er Ne Ne rr ET dT] 
图 11-16 从 图 11-13 所 示 B* A PABER“ Srinivasan” 


接 下 来 我 们 从 图 11-16 的 B' 树 中 删除 搜索 码 值 “Singh” 和 “Wu”。 结 果 在 图 11-17 中 显示 。 其 中 第 
一 个 值 的 删除 不 会 使 叶 结 点 太空 ， 但 是 第 二 个 值 的 删除 会 使 叶子 结 点 太空 。 太 空 的 结 点 同 它 的 兄弟 结 
点 不 可 能 合并 ， 因 此 需要 执行 值 的 重新 分 配 ， 该 分 配 将 搜索 码 值 “Kim" 移动 到 包含 “Mozart” 的 结 点 中 ， 
形成 的 树 如 图 11-17 所 示 。 在 父 结 点 中 分 开 两 个 兄弟 结 点 的 值 改变 了 ， 从 “Mozart” 变 成 “Kim”。 

现在 我 们 考虑 在 上 述 树 中 删除 “Gold”， 该 结果 在 图 11-18 中 表示 。 该 次 删除 导致 了 一 个 太空 的 叶 
结 点 ， 它 可 以 同 它 的 兄弟 结 点 合并 。 父 结 点 (包含 "Kim” 的 非 叶 结 点 ) 项 的 删除 致使 父 结 点 太空 (该 结 
点 仅 剩 下 一 个 指针 ) 。 这 次 父 结 点 可 以 同 它 的 兄弟 结 点 合并 。 这 次 合并 使 得 搜索 码 值 “Gold ”从 父 结 点 
下 移 到 合并 结 点 中 。 作 为 合并 的 结果 ， 从 父 结 点 中 删除 一 项 ， 而 该 父 结 点 正好 是 树 的 根 结 点 。 该 次 删 
除 使 得 根 结 点 仅 剩 下 一 个 孩子 指针 ， 没 有 搜索 码 值 ， 违 反 了 根 结 点 至 少 有 两 个 孩子 的 条 件 。 因 此 ， 根 
结 点 被 删除 ， 其 唯一 的 孩子 结 点 成 为 根 结 点 ， 并 且 B 树 的 深度 减 1。 

值得 一 提 的 是 ， 进 行 删除 操作 后 , 在 B 树 的 非 叶 结 点 中 的 关键 码 值 可 能 在 树 的 叶 结 点 中 并 不 存 
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[Adams] ]Brandt]] HH [canser] [crie] HH [Einstein] fer saif [4>[ [cota] fke] HH Iei [ [Mozart] T 
RI 11-17 从 图 11-16 所 示 Bo Bt AR“ Srinivasan” #1“ Wu” 





ml na] H fain] [eek |] | [el feral H 
K 11-18 从 图 11-17 所 示 B 树 中 删除 "Gold” 


在 。 例 如 ， 在 图 11-18 中 ,“Gold" 值 从 叶 结 点 中 删除 ,但 是 它 仍 存 在 于 非 叶 结 点 中 。 

一 般 地 ， 为 了 在 B’' 树 中 删除 一 个 值 ， 我 们 要 查找 并 删除 该 值 。 如 果 结 点 太 小 的 话 ， 我 们 从 它 的 父 
结 点 中 把 它 删除 。 这 个 删除 导致 删除 算法 的 递归 应 用 ， 直 到 到 达 树 的 根 结 点 。 删 除 后 父 结 点 要 保持 足 
够 满 ， 否 则 要 进行 重新 分 布 。 

图 11-19 给 出 了 对 BO 树 进 行 删除 的 伪 码 。 过 程 swap_variables( N, N) 仅仅 交换 两 个 ( 指针) 变量 NN 
和 N' 的 值 ， 交 换 对 树 本 身 毫 无 影响 。 伪 码 使 用 条 件 "指针 / 值 太 少 ” 。 对 非 叶 结 点 ， 这 个 条 件 意味 着 少 
于 「 2 ] 个 指针 ; 对 叶 结 点 ， 这 个 条 件 意味 着 少 于 | (n - 1)Z2 ] 个 值 。 擅 码 通过 向 相 邻 的 结 点 借 一 个 
索引 项 来 实现 重新 分 布 。 我 们 也 可 以 通过 在 两 个 结 点 间 平 分 索引 项 来 实现 重新 分 布 。 伪 码 涉及 从 一 个 
结 点 中 删除 索引 项 (K，P)。 对 叶 结 点 而 言 ， 指 向 索引 项 的 指针 实际 上 在 码 值 前 面 ， 因 此 指针 P 在 码 值 
K 前面。 而 对 于 非 叶 结 点 ,PP 跟 在 码 值 VV 的 后 面 。 
11. 3.4 不 唯一 的 搜索 码 

假如 一 个 关系 可 以 拥有 多 个 包含 同一 搜索 码 值 的 记录 ( 换 名 话说， 两 条 或 者 多 条 记录 在 索引 属性 
上 拥有 相同 的 值 ) ， 那 么 该 搜索 码 称 为 不 唯一 搜索 码 ( nonunique search key) 。 

不 唯一 搜索 码 的 一 个 问题 在 于 记录 删除 效率 方面 。 假 设 某 个 特殊 的 搜索 码 值 出 现 很 多 次 ， 并 且 拥 
有 该 搜索 码 值 的 一 条 记录 将 要 被 删除 。 那 么 删除 操作 可 能 会 查找 很 多 项 ， 从 而 找 出 和 该 被 删 记录 相对 
应 的 项 ， 该 搜索 有 可 能 遍历 多 个 叶 结 点 。 

一 种 简单 的 解决 方法 是 通过 创建 包含 原始 搜索 码 和 其 他 属性 的 复合 搜索 码 来 确保 搜索 码 唯 一 ， 对 
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于 所 有 记录 ， 该 复合 搜索 码 是 唯一 的 ， 这 通常 也 被 大 多 数 数 据 库 系统 使 用 。 这 个 额外 的 属性 可 以 是 指 |496 | 


向 记录 的 指针 一 一 记录 号 ， 或 者 是 任何 一 个 在 拥有 相同 搜索 码 值 的 所 有 记录 中 值 唯一 的 其 他 属性 。 这 
个 额外 属性 也 称 为 唯一 化 (uniquifier) 属性 。 当 要 删除 一 条 记录 时 ， 从 记录 中 计算 复合 搜索 码 值 ， 然 后 
再 从 索引 查找 。 因 为 值 是 唯一 的 ， 所 以 相应 的 叶子 级 项 可 以 通过 根 结 点 到 叶子 结 点 的 一 次 周游 就 可 以 
找到 ， 并 且 不 需要 进一步 访问 叶子 级 。 因 此 ， 可 以 有 效 地 删除 记录 。 

当 比 较 搜 索 码 值 时 ， 具 有 原始 搜索 码 值 的 查找 可 以 简单 地 忽略 唯一 化 属性 值 。 

对 于 不 唯一 搜索 码 ， 一 个 码 值 在 多 少 条 记录 中 出 现 ，B 树 结构 就 存储 该 码 值 多 少 次 。 另 外 一 种 方 
法 是 在 该 树 中 每 个 码 值 只 存储 一 次 ， 并 且 为 该 搜索 码 值 维护 一 个 记录 指针 的 桶 (或 者 列表 ) 来 解决 不 唯 
一 搜索 码 问题 。 因 为 它 只 存储 码 值 一 次 ， 所 以 这 种 方法 在 空间 上 更 有 效 ， 但 是 当 B 树 实现 时 ， 它 要 带 
来 较 多 的 复杂 性 。 如 果 在 叶 结 点 上 保存 桶 ， 需 要 额外 的 代码 来 处 理 可 变 长 的 桶 ， 并 且 处 理 当 桶 增长 到 
比 叶 结 点 还 大 的 情况 。 如 果 这 些 桶 存储 在 单独 的 块 中 ,在 获取 记录 时 可 能 需要 额外 的 VO 操作 。 此 外 ， 
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如 果 搜 索 码 值 出 现 次 数 较 多 ， 桶 方案 也 会 带 来 记录 删除 效率 不 高 的 问题 。 
11.3.5 B+ 树 更 新 的 复杂 性 

尽管 B' 树 的 插入 和 删除 操作 比较 复杂 ， 但 它们 需要 较 少 的 VO 操作 ， 这 很 有 价值 ， 因 为 1/0 操作 
比较 费时 。 在 最 坏 情况 下 ,一 次 插入 的 1/0 PEPE YRC AE IE LCF log.) (N), HEP n 是 结 点 中 指针 的 


最 大 值 ，N 是 索引 文件 中 的 记录 条 数 。 





procedure delete (value K, pointer P) 
找到 包含 ( K，P) 的 叶 结 点 上 
delete_entry( L, K, P) 


procedure delete_entry( node N, value K, pointer P) 
从 NN 中 删除 (K，P) 
if (N 是 根 结 点 and N 只 剩 下 一 个 子 结 点 ) 
then 使 的 子 结 点 成 为 该 树 的 新 的 根 结 点 并 删除 N 
else if (N 中 值 /指针 太 少 ) then begin 
S 和 N' 为 parent( NN) 的 前 一 子女 或 后 一 子女 
令 K' 为 parent(N) 中 指针 N 和 WN' 之 间 的 值 
if (N 和 NV' 中 的 项 能 放 在 一 个 结 点 中 ) 
then begin /* 合 并 结 点 */ 


if (NN 不 是 叶 结 点 ) 


delete_entry (parent(N), K', N); 删除 结 点 N 
end 
else begin / * 重新 分 布 : 从 N' 借 一 个 索引 项 */ 
if ( N 是 的 前 一 个 结 点 ) then begin 
if (N 是非 叶 结 点 ) then begin 
令 mii: N. P, 是 和 ' 的 最 后 一 个 指针 


A NPER. Kaa, N. Pp) 


N 中 的 第 一 个 指针 和 值 
用 N'. K, ,替换 parent( N) PHI K’ 
end 
else begin 


x 


从 N' 中 去 除 (N'. P,, N'.K,) 


N 中 的 第 一 个 指针 和 值 
FAN’. K, 替换 parent (N) PAY K’ 
end 
end 
else … 与 then 的 情况 对 称 … 
end 
end 
end procedure 





if (N 是 NV' 的 前 一 个 结 点 ) then swap_variables( N, N') 


then 将 K' 以 及 N 中 所 有 指针 和 值 附 加 到 V' 中 
else 将 N 中 所 有 ( K, P,) 对 附加 到 N' 中 ; 令 N'.P,=N.P, | 


ACN. P,，K') 并 通过 将 其 他 指针 和 值 右 移 使 之 成 为 


令 m 满 足 :(N'.P,，N'.K;) 是 NN' 中 的 最 后 一 个 指针 / 值 对 


插入 ( N'. Pas N- Ka) 并 通过 将 其 他 指针 和 值 右 移 使 之 成 为 








图 11-19 从 了 B 树 中 删除 索引 项 
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如 果 搜 索 码 上 没有 相同 的 值 ， 最 坏 情况 下 删除 过 程 的 复杂 度 同 样 正比 于 logra (N). 如果 存在 相 
同 的 值 ， 删 除 操作 须要 在 多 个 含有 相同 搜索 码 值 的 记录 中 进行 查找 ， 直 到 找到 要 删除 的 正确 的 项 ， 这 
样 的 效率 是 较 低 的 。 但 是 ， 如 11. 3.4 节 所 述 ， 即 便 原 始 搜索 码 是 不 唯一 ， 也 通过 增加 唯一 化 属性 可 以 
使 搜索 码 唯一 ， 从 而 保证 了 在 最 坏 情况 下 删除 操作 的 复杂 性 也 是 一 样 的 。 

换 句 话 说， 以 1/0 操作 来 衡量 的 插入 和 删除 操作 的 代价 是 和 B ` 树 的 高 度 成 正比 的 ， 因 此 是 比较 低 
的 。B“ 树 的 操作 速度 使 得 它 在 数据 库 实现 中 成 为 频繁 使 用 的 索引 结构 。 

在 实践 中 ，B“ 树 上 的 操作 所 导致 的 VO 操作 要 比 最 坏 边界 少 。 假 设 肩 出 为 100， 并 且 假 设 对 叶 结 
点 的 访问 是 均匀 分 布 的， 那么 叶 结 点 的 父 结 点 被 访问 的 次 数 可 能 是 叶 结 点 的 100 倍 。 相 反 地 ， 对 于 相 
EAH, B' 树 中 所 有 非 叶 结 点 的 总 数 可 能 仅 比 叶 子 结 点 的 1/100 多 一 点 。 因 此 ， 在 现在 通常 内 存 大 
小 可 达 几 GB 的 情况 下 ， 对 于 频繁 使 用 的 B* 树 ， 即 便 关系 非常 庞大 ， 大 部 分 非 叶 结 点 在 被 访问 时 已 经 
在 数据 库 缓 冲 区 中 。 因 此 ， 一 次 查询 通常 仅 需 要 一 次 或 两 次 NO 操作 。 在 更 新 方面 ， 叶 结 点 分 裂 的 可 
能 性 比较 小 。 在 扇 出 为 100 的 情况 下 , 100 次 插入 中 仅 有 1 次 或 50 次 插入 中 仅 有 1 次 会 导致 结 点 分 裂 ， 
从 而 导致 多 个 块 被 写 和 信 ， 这 取决 于 插入 的 顺序 。 因 此 ,平均 情况 下 ， 一 次 插入 需要 更 新 块 的 VO 操作 
仅 比 一 次 略 多 。 

尽管 B 树 仅 保证 了 结 点 至 少 半 满 ， 但 是 ， 如 果 项 是 以 随机 顺序 插入 ， 那 么 结 点 在 平均 情况 下 会 比 
2/3 更 满 。 另 一 方面 ， 如 果 项 是 以 有 序 方式 插入 ， 结 点 将 会 仅仅 半 满 。( 我 们 将 此 留 作 后 面 的 联系 ， 让 
读者 来 计算 为 什么 结 点 会 仅仅 半 满 。) 
11.4 B pik 

本 节 讨 论 几 个 B' 树 索引 结构 的 扩展 和 变种 。 
11.4.1 B- 树 文件 组 织 

在 11.3 节 中 提 到 ， 索引 顺序 文件 组 织 最 大 的 缺点 是 文件 增 大 时 性 能 下 降 : 随 着 文件 的 增 大 ， 增 加 
的 索引 记录 所 占 百 分 比 和 实际 记录 之 间 变 得 不 协调 ， 不 得 不 存储 在 溢出 块 中 。 我 们 通过 在 文件 上 使 用 
B 树 索 引 来 解决 索引 查找 时 性 能 下 降 的 问题 。 通 过 用 B " 树 的 叶 级 结 点 来 组 织 存 放 实际 记录 的 磁盘 块 ， 
我 们 可 以 解决 存储 实际 记录 的 性 能 下 降 问 题 。 我 们 不 仅 把 B 树 结构 作为 索引 使 用 ， 而 且 把 它 作为 一 个 
文件 中 的 记录 的 组 织 者 。 在 B 树 文件 组 织 (B -tree file organization) 中 ， 树 的 叶 结 点 存储 的 是 记录 而 
不 是 指向 记录 的 指针 。 图 11-20 给 出 了 一 个 B 树 文件 组 织 的 例子 。 由 于 记录 通常 比 指针 大 ， 因 此 一 个 
叶 结 点 中 能 存储 的 记录 数目 要 比 一 个 非 叶 结 点 中 能 存储 的 指针 数目 少 。 然 而 ， 叶 结 点 仍然 要 求 至 少 是 
半 满 的 。 
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图 11-20 B “文件 结构 


Bo 树 文件 组 织 中 记录 的 插入 和 删除 与 B 树 索引 中 索引 项 的 插入 和 删除 的 处 理 方式 一 样 。 当 插入 
一 条 具有 给 定 码 值 v 的 记录 时 ， 系 统 通过 在 B' 树 中 查找 小 于 等 于 v 的 最 大 码 来 定位 应 该 包含 该 记录 的 
块 。 如 果 定 位 到 的 块 有 足够 的 空间 来 存放 记录 ， 系 统 就 将 该 记录 存放 在 该 块 中 。 否 则 ， 就 像 B 树 的 搬 
入 那样 ， 系 统 将 该 块 分 成 两 个 ， 重 新 分 布 其 中 的 记录 ( 按 BO 树 码 值 的 顺序 ) ， 以 给 新 记录 创建 空间 。 
这 种 分 裂 以 通常 的 形式 在 B' 树 中 自 底 向 上 传播 。 当 删除 一 个 记录 时 ， 系 统 首先 从 包含 它 的 块 中 将 它 删 
除 。 如 果 块 B 因此 不 到 半 满 ， 就 要 对 B 中 的 记录 和 相 邻 的 块 B' 中 的 记录 重新 分 布 。 假 定 记 录 大 小 固 
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定 ， 每 个 块 包含 的 记录 数 至 少 应 是 它 所 能 包含 的 最 大 记录 数 的 一 半 。 系 统 按照 通常 的 方式 更 新 BS 树 的 
非 叶 结 点 。 

当 我 们 用 B' 树 作为 文件 组 织 方式 时 ， 空 间 的 利用 尤为 重要 ， 因 为 记录 所 占 的 空间 很 可 能 比 码 和 指 
针 所 占 的 空间 要 大 得 多 。 通 过 在 分 裂 和 合并 时 在 重新 分 布 中 涉及 更 多 的 兄弟 结 点 ， 我 们 可 以 改善 B' 树 
的 空间 利用 率 。 这 个 技术 对 叶 结 点 和 非 叶 结 点 都 可 以 用 ， 具体 方法 如 下 所 述 : 

在 插入 时 ， 如 果 某 个 结 点 已 满 ， 系 统 就 尝试 把 它 的 一 些 项 重新 分 布 到 与 它 相 邻 的 结 点 中 ， 以 给 新 
项 腾 出 空间 。 如 果 因 为 相 邻 结 点 本 身 已 满 而 导致 这 种 尝试 失败 ， 系 统 就 要 分 裂 该 结 点 ， 并 在 一 个 相 邻 
结 点 和 分 裂 原始 结 点 得 到 的 两 个 结 点 这 三 者 之 间 均 匀 地 分 配 所 有 的 项 。 由 于 这 三 个 结 点 总 共和 包含 的 项 
比 两 个 结 点 所 能 容纳 的 多 1 个 ,因此 每 个 结 点 大 约 为 2/3 满 的 。 更 确切 地 说 ， 每 个 结 点 至 少 有 
[21/73] I, Hp n 是 每 个 结 点 能 容纳 的 最 大 项 数 。( Lxj」 表示 小 于 或 等 于 x 的 最 大 整数 ， 也 就 是 忽 
略 它 的 小 数 部 分 (如 果 有 的 话 ) o) 

在 删除 记录 时 ， 如 果 结 点 中 的 项 数 少 于 |2n/3」， 系 统 就 试图 从 相 邻 的 结 点 借入 一 项 。 如 果 两 个 
兄弟 结 点 都 有 | 2n/3 条 记录 ， 那 么 系统 就 不 是 借入 一 项 ， 而 是 把 这 个 结 点 及 两 个 兄弟 结 点 中 的 所 有 项 
均匀 地 分 布 到 两 个 结 点 中 ， 并 删除 第 三 个 结 点 。 我 们 能 用 这 种 方法 是 因为 项 的 总 数 是 3| 2n/3」-1, È 
小 于 2n。 当 使 用 三 个 相 邻 结 点 进行 重新 分 布 时 ， 每 个 结 点 能 保证 有 | 3n/4 个 项 。 一般 地 ， 如 果 重 分 
布 涉及 m 个 结 点 (m -1 个 兄弟 结 点 ) ， 每 个 结 点 能 保证 包含 至 少 | (m -1)n/m| 个 索引 项 。 然 而， 参与 
重新 分 布 的 兄弟 结 点 越 多 ， 更 新 的 代价 也 越 高 。 

注意 在 B’ 树 索引 或 B 树 文件 组 织 中 ， 树 中 相 邻 的 叶 结 点 可 能 分 布 在 磁盘 中 的 不 同位 置 。 当 一 个 
文件 组 织 最 初 建立 在 一 组 记录 上 的 时 候 ， 可 以 实现 把 磁盘 中 基本 连续 的 块 分 配给 树 中 连续 的 叶 结 点 。 
由 此 对 叶 结 点 的 顺序 扫描 就 相当 于 磁盘 上 几乎 是 顺序 的 扫描 。 随 着 在 树 中 不 断 进行 插入 和 删除 操作 ， 

这 种 顺序 性 逐渐 丢失 ， 对 叶 结 点 的 顺序 访问 也 需要 越 来 越 频繁 地 等 待 磁盘 寻 道 。 为 了 人 恢复 这 种 顺序 性 
也 许 需 要 对 索引 进行 重建 。 

B'* 树 文件 组 织 可 以 用 于 存储 大 型 数据 对 象 ， 如 SQL clob 类 型 以 及 blob 类 型 ， 这 些 数据 对 象 可 能 比 
磁盘 块 还 大 ， 其 至 达到 好 几 个 GB。 这 么 大 的 数据 对 象 可 以 通过 拆 分 成 稍 小 的 记录 序列 并 组 织 成 B* 树 
文件 组 织 进行 存储 。 拆 分 的 记录 可 以 按 序 编号 ,或 者 根据 记录 在 大 型 对 象 中 的 字 节 偏 移 量 进行 编号 ， 
这 样 记录 的 编号 就 可 以 用 作 搜 索 码 。 

11.4.2 辅助 索引 和 记录 重 定位 

一 些 文件 组 织 ( 如 B' 树 文件 组 织 ) 可 能 改变 记录 的 位 置 ， 即 使 记录 并 没有 更 新 。 举 例 来 说 ， 当 B* 
树 文件 组 织 中 的 一 个 叶 结 点 分 裂 ， 一 些 记录 会 移动 到 新 的 结 点 中 。 在 这 种 情况 下 ， 所 有 存储 了 那些 指 
向 重 定位 过 的 记录 的 指针 的 辅助 索引 都 必须 更 新 ， 即 使 记录 中 的 值 并 没有 改变 。 每 个 叶 结 点 可 能 包含 
相当 多 的 记录 ， 而 其 中 每 条 记录 都 可 能 在 每 个 辅助 索引 中 的 不 同位 置 。 因 此 一 个 叶 结 点 的 分 裂 可 能 需 
要 几 十 甚至 几 百 次 VO 操作 来 更 新 所 有 影响 到 的 辅助 索引 ， 导 致 这 个 操作 代价 极其 高 昂 

为 解决 这 个 问题 广泛 使 用 的 方法 如 下 。 在 辅助 索引 中 ， 不 存储 指向 被 索引 的 记录 的 指针 ， 而 是 存 
储 主 索引 搜索 码 属 性 的 值 。 例 如 ， 假 设 我 们 有 一 个 建立 在 instructor 关系 的 ID 属性 上 的 主 索引 ; 还 有 一 
个 建立 在 dept_name 上 的 辅助 索引 ， 这 个 辅助 索引 中 与 每 个 系 的 名 字 存 放 在 一 起 的 是 相应 记录 中 娶 值 
构成 的 列表 ， 而 不 是 指向 这 些 记录 的 指针 。 

于 是 ， 由 于 叶 结 点 分 裂 导致 的 记录 的 重 定 位 就 不 需要 对 这 样 的 辅助 索引 进行 更 新 了 。 然 而 ， 用 畏 
助 索引 定位 一 条 记录 现在 就 需要 两 步 : 首先 用 辅助 索引 找到 主 索引 搜索 码 的 值 ， 然 后 用 主 索引 来 找到 
对 应 的 记录 。 

上 述 方 法 大 大 降低 了 由 文件 重组 导致 的 索引 更 新 的 代价 ， 尽 管 它 也 增加 了 使 用 辅助 索引 访问 数据 
的 代价 。 

11.4.3 字符 串 上 的 索引 

在 字符 串 属 性 上 创建 B 树 索 引 会 引起 两 个 问题 。 第 一 个 问题 是 字符 串 是 变 长 的 。 第 二 个 问题 是 字 

符 串 可 能 会 很 长 ， 导 致 结 点 扇 出 降低 以 及 相应 地 增加 树 的 高 度 。 
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对 于 变 长 搜索 码 ， 即 使 结 点 都 是 满 的 ， 不 同 的 结 点 也 可 能 会 有 不 同 的 扇 出 。 如 果 一 个 结 点 已 满 ， 
则 它 必 须 分 裂 ， 也 就 是 说 这 个 结 点 已 经 没有 空间 可 以 容纳 新 的 搜索 项 ， 不 管 原来 它 有 多 少 项 。 同 样 地 ， 
结 点 的 合并 和 重新 分 布 取决 于 结 点 中 空间 使 用 的 比例 ， 而 不 是 根据 结 点 所 能 容纳 的 最 大 项 数 。 

使 用 前 缀 压缩 ( prefix compression ) 技术 可 以 增加 结 点 的 扇 出 。 使 用 前 绥 压 缩 技术 ， 不 用 在 非 叶 结 点 
存储 整个 搜索 码 值 。 只 须 存储 每 个 搜索 码 值 的 一 个 前 级 ， 使 得 这 个 前 缀 足以 将 由 该 搜索 码 值 分 开 的 两 
棵 子 树 中 的 码 值 区 分 开 。 例 如 ， 假 如 我 们 有 一 个 建立 在 名 字 上 的 索引 ， 非 叶 结 点 的 码 值 可 以 是 名 字 的 
一 个 前 级 ; 如 果 由 搜索 码 分 开 的 两 棵 子 树 中 跟 *Silberschatz” 最 相近 的 码 值 分 别 是 “Silas” 和 "Silver”， 则 
在 非 叶 结 点 中 存储 “Slib” 就 足够 了 ， 而 不 用 存储 全 名 “Silberschatz”。 

11.4.4 B’' 树 索引 的 批量 加 载 

如 我 们 先前 看 到 的 ， 在 B* 树 中 插入 一 条 记录 需要 一 些 VO 操作 ， 并 且 在 最 坏 情况 下 与 树 的 高 度 成 
正比 ， 这 通常 还 是 比较 小 的 ( 即便 对 于 比较 大 的 关系 ， 一 般 为 5 次 或 者 更 少 ) 。 

现在 考虑 在 大 关系 上 建立 B* 树 的 情况 。 假 设 关 系 要 比 主 存 大 很 多 ， 并 且 我 们 在 关系 上 构建 非 聚 集 
索引 ， 使 得 该 索引 也 比 主 存 要 大 。 在 这 种 情况 下 ， 当 扫描 关系 并 且 往 B 树 中 添加 项 时 ， 要 访问 的 每 个 
叶 结 点 通常 不 会 在 数据 库 缓冲 区 中 ， 因 为 项 没有 特定 的 排序 。 在 这 种 块 的 随机 访问 中 ， 每 次 在 叶 结 点 
中 添加 一 个 项 时 ， 需 要 一 次 磁盘 寻 道 来 取 回 包含 叶 结 点 的 块 。 当 另 一 个 项 添加 到 块 中 ， 该 块 有 可 能 会 
磁盘 缓冲 区 中 剔 出 ， 导 致 另 一 次 磁盘 寻 道 将 块 回 写 到 磁盘 中 。 每 次 项 的 插入 可 能 都 需要 这 样 一 次 随机 
读 和 随机 写 操作 。 

例如 ， 如 果 一 个 关系 含有 1 亿 条 记录 ， 每 次 VO 操作 需要 10 毫秒 ， 那 么 它 将 至 少 需要 100 万 秒 的 
时 间 来 创建 索引 ， 这 仅仅 是 读 叶 结 点 的 开销 ， 还 不 算 将 节点 更 新 到 磁盘 的 写 操作 开销 。 很 明显 这 时 间 
开销 非常 大 ， 相 比 ， 如 果 每 条 记录 占用 100 字 节 ， 磁 盘子 系统 可 以 以 每 秒 50MB 的 速度 传输 数据 ， 那 
么 仅 需要 200 秒 的 时 间 来 读 取 整 个 关系 。 

将 大 量 项 一 次 插入 到 索引 中 称 为 索引 的 批量 加 载 (bulk loading) 。 一 种 有 效 执行 索引 批量 加 载 的 方 
AWF: 首先 ， 创 建 一 个 含有 关系 索引 项 的 临时 文件 ， 然 后 根据 构建 好 的 索引 的 搜索 码 来 排序 文件 ， 
最 后 扫描 排序 好 的 文件 并 且 将 项 插入 到 索引 中 。 目 前 存在 对 于 大 关系 的 排序 算法 ， 这 将 会 在 12. 4 节 描 
述 。 假 设 主 存 容量 够 ， 即 便 对 于 一 个 很 大 的 文件 进行 排序 ， 该 算法 需要 的 LO 代价 与 读 几 次 文件 相当 。 

在 将 项 插入 到 B 树 之 前 进行 排序 具有 明显 的 好 处 。 在 项 按 排 序 进 行 插 入 后 ， 所 有 到 特定 叶 结 点 的 
项 将 会 连续 出 现 ， 并 且 叶 结 点 只 需要 写 出 一 次 。 如 果 B 树 开 始 时 为 空 ， 在 批量 加 载 时 结 点 就 不 需要 从 
磁盘 中 读 取 。 因 此 ， 即 便 许多 项 要 插入 到 一 个 结 点 中 ， 每 个 时 结 点 也 只 需要 一 次 VO 操作 。 如 果 每 个 
叶 结 点 包括 100 个 项 ， 叶 子 级 将 包括 100 万 个 结 点 ， 那 么 创建 叶 级 只 需 100 万 次 IO 操作 。 如 果 连 续 的 
叶 结 点 被 分 配 到 连续 的 磁盘 块 上 ， 那 么 这 些 VO 操作 也 可 以 是 顺序 的 ， 并 且 需 要 很 少 的 磁盘 寻 道 。 就 
当前 的 磁盘 ， 相 比 于 随机 IO 操作 的 每 块 10 毫秒 ， 大 部 分 顺序 WO 操作 估计 只 需要 每 块 1 毫秒 。 

我 们 稍 后 在 12. 4 节 中 研究 大 关系 排序 的 代价 ， 但 是 粗略 地 估计 ， 通 过 在 插入 B 树 中 前 对 项 进行 
排序 ， 索 引 可 以 在 1000 秒 就 构建 好 ， 与 之 相对 比 ， 采 用 随机 插入 则 需要 1 000 000 秒 的 时 间 来 构建 。 

如 果 B 树 初 始 时 是 空 的 ， 那 么 就 可 以 从 叶子 级 自 底 向 上 来 快速 构建 它 ， 而 不 是 使 用 常规 的 插入 过 
程 。 在 自 底 向 上 B HHE (bottom -up B”- tree construction) 中 ， 通 过 我 们 所 描述 的 对 项 进行 排序 后 ， 
我 们 将 排序 好 的 项 分 解 到 块 中 ， 并 保证 每 个 块 中 有 尽 可 能 多 的 项 ， 由 此 产生 的 块 形 成 B' 树 的 叶 级 。 每 
个 块 中 的 最 小 值 以 及 指向 块 的 指针 用 来 构建 下 一 级 的 B' 树 项 ， 并且 指向 叶 块 。 更深 一 级 的 树 可 以 类 似 
地 利用 下 层 每 个 结 点 中 的 最 小 值 来 构建 ， 直 到 创建 根 结 点 。 我 们 把 这 些 细节 留 给 读者 作为 练习 。 

在 一 个 关系 上 创建 索引 时 ， 大 多 数 数 据 库 系统 实现 了 基于 项 排序 和 自 底 向 上 构建 的 有 效 技术 ， 尽 
管 在 向 有 索引 的 关系 上 一 次 插入 一 个 元 组 时 ， 它 们 使 用 普通 的 插入 程序 。 如 果 一 次 添加 非常 多 的 元 组 
到 已 经 存在 的 关系 中 ,一 些 数据 库 系 统 会 建议 在 该 关系 上 的 索引 ( 除 主 码 上 的 索引 ) 应 该 删除 ， 并 且 在 
插入 元 组 后 重新 构建 该 索引 ， 来 有 效 地 利用 批量 加 载 技术 。 


11.4.5 B 树 索引 文件 
B 树 索引 (B-tree index) 和 了 B+ 树 索引 相似 。 两 种 方法 的 主要 区 别 在 于 B 树 去 除了 搜索 码 值 存储 中 的 
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元 余 。 在 图 11-13 K BWP, 4R“ Califieri” , “Einstein”, “Gold”, “Mozart” #1“ Srinivasan” 在 非 叶 
结 点 和 叶 结 点 中 均 出 现 。 每 个 搜索 码 值 都 出 现在 某 些 叶 结 点 中 ， 有 的 还 在 非 叶 结 点 中 重复 出 现 。 

在 B' 树 中 ,搜索 码 值 可 能 同时 出 现在 非 叶 结 点 和 叶 结 点 中 。 与 B 树 不 同 ，B 树 只 允许 搜索 码 值 
出 现 一 次 ( 如果 它们 是 唯一 的 )。 图 11-21 所 示 B 树 表示 与 图 11-13 中 的 B' 树 相同 的 搜索 码 值 。 由 于 B 

树 中 的 搜索 码 不 重复 ， 因 此 可 以 用 比 相应 B’' 树 索引 更 少 的 树 结 点 来 存储 索引 。 然 而 ,在 B 树 中 ， 由 于 

出 现在 非 叶 结 点 中 的 搜索 码 值 不 会 出 现在 其 他 地 方 ， 因 此 我 们 将 不 得 不 在 非 叶 结 点 中 为 每 个 搜索 码 增 
加 一 个 指针 域 。 附 加 的 这 些 指 针 指 向 文件 记录 或 相应 搜索 码 所 对 应 的 桶 。 

值得 注意 的 是 ， 许 多 数据 库 系 统 手册 、 行 业 文 献 文 章 以 及 行业 专家 使 用 术语 B 树 来 指 代 这 里 所 述 
的 B' 树 数据 结构 。 事 实 上 ， 在 当前 的 用 法 中 这 样 定义 也 是 合理 的 ， 因 为 术语 B 树 和 B’ 树 是 同义词 。 
尽管 如 此 ， 在 这 本 书 中 我 们 使 用 B 树 和 B' 树 原本 的 定义 ,来 避免 两 种 数据 结构 的 混淆 。 


B 树叶 结 点 一 般 的 形式 如 图 11-22a 所 示 ; 非 叶 结 点 如 图 11-22b 所 示 。 叶 结 点 和 B’ 树 中 的 叶 结 点 
一 样 。 在 非 叶 结 点 中 ， 指 针 已 与 B 树 中 使 用 的 树 指针 一 样 ， 而 指针 B; 是 桶 或 文件 记录 的 指针 。 在 图 
11-22 的 一 般 化 的 B 树 中 ， 叶 结 点 中 有 n-1 个 码 ， 而 非 叶 结 点 中 有 m -1 个 码 。 这 个 差异 的 出 现 是 因 
为 非 叶 结 点 必须 包含 指针 B;， 这 样 就 减少 了 这 些 结 点 所 能 容纳 的 搜索 码 个 数 。 显 然 m <n, {Am 和 nn 的 
确切 关系 依赖 于 搜索 码 和 指针 的 大 小 。 
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图 11-21 等 价 于 图 11-13 F B+ HH B H} 














b) 非 叶 结 点 
图 11-22 典型 的 B 树 结 点 


E B 树 中 进行 一 次 查找 所 访问 的 结 点 数 取 决 于 搜索 码 所 在 的 位 置 。 对 B’ 树 的 查找 需要 遍历 从 树 根 

到 叶 结 点 的 路 径 。 与 此 相 比 ，B 树 中 有 时 不 需 到 达 叶 结 点 就 能 找到 想 要 的 值 。 然 而 ，B 树 中 存储 在 叶 
505] 级 的 码 大 约 n 倍 于 存储 在 非 叶 级 的 码 ， 而 n 一 般 都 相当 大 ， 因 此 较 快 找到 特定 值 的 好 处 将 会 比较 小 。 

而 且 比 起 B 树 来 ，B 树 的 非 叶 结 点 中 存储 的 搜索 码 较 少 ， 这 一 事实 意味 着 B 树 扇 出 较 小 因而 比 相应 的 
B'* 树 深度 大 。 因 此 ， 在 B 树 中 查询 某 些 搜索 码 比 B 树 中 快 ， 而 另 一 些 值 比 B 树 慢 ， 虽 然 总 的 来 说 查 
找 时 间 仍 然 与 搜索 码 数目 取 对 数 成 正比 。 

B 树 中 的 删除 更 加 复杂 。 在 B 树 中 ， 被 删除 的 项 总 是 出 现在 叶 结 点 中 。 在 B 树 中 ， 被 删除 的 项 可 能 
出 现在 非 叶 结 点 中 。 我 们 必须 从 包含 被 删除 项 的 子 树 中 选择 正确 的 值 来 作为 替代 。 具 体 来 说 ， 如 果 搜 索 
码 K, 被 删除 ， 出 现在 指针 Pi, ,指向 的 子 树 中 的 最 小 搜索 码 必须 移 到 原先 K; 所 占用 的 字段 中 。 如 果 叶 结 
点 包含 的 项 太 少 的 话 还 需 采取 进一步 的 操作 。 与 此 相 比 ，B 树 中 的 插入 只 比 B 树 中 的 插入 略 复杂 一 些 。 

B 树 在 空间 上 的 优势 对 大 的 索引 来 讲 意义 不 大 ， 通 常 不 能 抵消 我 们 已 提 到 的 那些 不 足 。 因 此 ， 许 
多 数据 库 系 统 实现 采用 B 树 数据 结构 ， 即 使 (我 们 先前 讨论 过 ) 他 们 将 此 数据 结构 称 为 B 树 。 
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11.4.6 We 

到 目前 为 止 ， 我 们 对 于 索引 的 描述 都 是 假设 数据 是 存放 在 磁盘 上 的 。 尽 管 这 种 假设 在 大 部 分 情况 
是 真 的 ， 但 是 闪存 容量 急速 增长 ， 并 且 每 GB 的 闪存 价格 日 益 下 跌 ， 使 得 许多 应 用 中 闪存 存储 成 为 蔡 
代 磁 盘存 储 的 强大 竞争 者 。 一 个 自然 的 问题 是 ， 这 种 变化 会 怎样 影响 索引 结构 。 

闪存 存储 是 通过 块 来 组 织 的 ， 并 且 B 树 索引 结构 可 以 在 闪存 存储 中 使 用 。 这 为 索引 查询 中 加 快 访 
问 速度 带 来 的 好 处 显而易见 。 相 比 于 平均 需要 10 毫秒 来 寻 道 和 读 块 ， 闪 存 中 的 随机 块 读 取 在 微 秒 级 完 
成 。 因 此 将 比 基 于 磁盘 的 数据 查找 要 快 得 多 。 内 存 中 最 合适 的 B 树 结 点 大 小 通常 要 比 磁盘 小 得 多 

闪存 的 唯一 缺点 就 是 它 不 允许 物理 层 的 数据 就 地 更 新 ， 尽 管 它 可 以 在 逻辑 上 实现 。 每 次 更 新 操作 
转换 成 整个 闪存 块 的 一 次 拷贝 加 上 写 操作 ， 要 求 块 的 旧 拷贝 随后 清除 ， 一 个 块 的 清除 需要 1 毫秒 。 针 
对 开发 可 以 降低 块 清除 次 数 的 索引 结构 的 研究 正在 进行 。 同 时 ， 标 准 的 B 树 索引 可 以 继续 在 闪存 存储 
中 使 用 ， 提 供 可 以 接受 的 更 新 性 能 ， 以 及 比 磁 盘存 储 更 有 效 的 查询 性 能 。 


11.5 多 码 访问 


到 现在 为 止 ， 我 们 都 隐 含 地 假设 只 使 用 建立 在 一 个 属性 上 的 一 个 索引 来 执行 关系 上 的 查询 。 但 是 
对 于 某 些 类 型 的 查询 来 说 ， 如 果 存 在 多 个 索引 则 使 用 多 个 索引 ， 或 者 使 用 建立 在 多 属性 搜索 码 上 的 索 
引 ， 这 样 比较 有 利 。 
11.5.1 使 用 多 个 单 码 索引 

假设 instructor 文件 有 两 个 索引 ， 分 别 建 立 在 dept_name 和 salary 上 。 考 虑 如 下 查询 :“ 找 出 金融 系 
中 工资 为 $880 000 的 所 有 教师 。 我 们 写作 


select ID 
from instructor 
where dept_name = " Finance” and salary = 80000 


处 理 这 个 查询 可 以 有 三 种 策略 : 

1. 利用 dept_name 上 的 索引 ， 找 出 属于 金融 系 的 所 有 记录 。 检 查 每 条 记录 是 否 满足 salary = 
80 000。 

2. 利用 salary 上 的 索引 ， 找 出 所 有 工资 等 于 $80 000 的 记录 。 检 查 每 条 记录 是 否 满足 dept_name = 
"Finance" 。 

3. 利用 dept_name 上 的 索引 找 出 指向 属于 金融 系 的 记录 的 所 有 指针 。 同 样 ， 利 用 salary 上 的 索引 找 
出 指向 工资 等 于 $80 000 的 记录 的 所 有 指针 。 计 算 这 两 个 指针 集合 的 交 。 交 集中 的 那些 指针 指向 金融 
系 中 工资 等 于 $80 000 的 记录 。 

上 面 三 种 策略 中 只 有 第 三 种 利用 了 存在 的 多 个 索引 的 优势 。 然 而 ， 如 果 下 面 所 有 条 件 都 成 立 ， 即 
使 这 种 策略 也 可 能 是 很 糟糕 的 选择 : 

。 属于 金融 系 的 记录 太 多 。 

© 余额 为 $880 000 的 记录 太 多 。 

。 金融 系 中 工资 为 $80 000 的 记录 只 有 几 个。 

如 果 这 些 条 件 成 立 的 话 ， 为 了 得 到 一 个 很 小 的 结果 集 ， 我 们 必须 扫描 大 量 指针 。 一 种 称 为 “位 图 索 
引 ” 的 索引 结构 在 某 些 情况 下 可 以 加 速 第 三 种 策略 中 使 用 的 集合 交 的 操作 。 位 图 索引 将 在 11.9 节 介 绍 。 
11.5.2 多 码 索 引 

这 种 情况 下 另 一 个 可 选 的 策略 是 在 复合 的 搜索 码 ( dept_name，salary) 上 建立 和 使 用 索引 ， 也 就 是 
说 ， 这 一 搜索 码 由 系 名 和 教师 工资 连接 而 成 。 

我 们 可 以 使 用 在 上 述 复合 的 搜索 码 上 的 顺序 (B' 树 ) 索 引 来 高 效 地 回答 具有 如 下 形式 的 查询 : 


select J/D 
from instructor 
where  dept_name = "Finance" and salary = 80000 


在 搜索 码 的 第 一 个 属性 (dept_name) 上 指定 一 个 等 值 条 件 以 及 在 搜索 码 的 第 二 个 属性 (salary) 上 指 
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定 一 个 范围 ， 这 种 形式 的 查询 也 能 高 效 地 处 理 ， 因 为 它们 对 应 于 搜索 属性 上 的 一 个 范围 查询 . 


select ZD 
from instructor 
where dept_name = "Finance" and salary < 80000 


我 们 甚至 可 以 使 用 搜索 码 ( dept_name，salary) 上 的 顺序 索引 来 高 效 回答 下 面 这 种 只 涉及 一 个 属性 
的 查询 。 
select /D 


from instructor 
where dept_name = "Finance" 


等 值 条 件 dept_name = "Finance" 等 价 于 一 个 范围 查询 ， 该 范围 查询 的 下 界 是 (Finance，- ©), E 
界 是 (Finance，+ om ) 。 仅 在 dept_name 属性 上 的 范围 查询 也 可 以 同样 处 理 。 
然而 ， 使 用 建立 在 一 个 复合 搜索 码 上 的 顺序 索引 结构 是 有 一 定 的 缺点 的 。 作 为 示例 ， 考 虑 以 下 的 
查询 
select /D 


from instructor 
where = dept_name < "Finance" and salary < 80000 


我 们 可 以 使 用 建立 在 搜索 码 ( dept_name, salary) 上 的 顺序 索引 来 回答 这 个 查询 : 对 于 按 字母 顺序 
小 于 " Finance" 的 每 个 dept_name 值 ， 系 统 定位 salary 值 为 80000 的 那些 记录 。 然 而 ， 由 于 文件 中 记录 的 
顺序 ， 每 条 记录 可 能 位 于 不 同 的 磁盘 块 ， 因 此 导致 大 量 IO 操作 。 

508 这 个 查询 和 前 面 两 个 查询 的 区 别 在 于 第 一 个 属性 ( dept_name) 上 的 条 件 是 比较 条 件 而 不 是 等 值 条 
件 。 这 个 条 件 不 能 对 应 于 搜索 码 上 的 一 个 范围 查询 。 

为 了 加 速 处 理 一 般 的 复合 搜索 码 的 查询 (可 以 有 一 个 或 多 个 比较 操作 ) ， 我 们 可 以 使 用 若干 特殊 的 
结构 。 我 们 将 在 11.9 节 中 考虑 位 图 索引 。 还 有 一 种 称 为 R 树 的 结构 也 可 用 于 这 一 目的 。R 树 是 B 树 
的 扩展 ， 用 于 处 理 在 多 个 维 上 的 索引 。 因 为 R 树 结 构 主 要 用 于 地 理 数 据 类 型 ， 所 以 我 们 将 在 第 25 章 描 
述 其 结构 。 

11.5.3 覆盖 索引 

覆盖 索引 (covering index) 存储 一 些 属性 (但 不 是 搜索 码 属 性 ) 的 值 以 及 指向 记录 的 指针 。 存 储 附 加 
的 属性 值 对 于 辅助 索引 是 非常 有 用 的 ， 因 为 它们 使 我 们 仅仅 使 用 索引 就 能 够 回答 一 些 查询 ， 甚 至 不 需 
要 找到 实际 的 记录 。 

例如 ， 假 设 我 们 有 一 个 建立 在 instructor 关系 的 ID 属性 上 的 非 聚集 索引 。 如 果 我 们 把 salary 属性 的 
值 与 记录 指针 一 起 存储 ， 我 们 就 可 以 回答 那些 要 求 查 salary 值 (但 不 是 另 一 个 属性 dept_name ) 的 查询 而 
不 需要 访问 instructor 记录 。 

在 搜索 码 (1D, salary) 上 创建 索引 能 够 达到 同样 的 效果 ， 然 而 一 个 覆盖 索引 能 够 减 小 搜索 码 的 大 
小 ， 使 非 叶 结 点 中 有 更 大 的 扇 出 ， 从 而 潜在 地 降低 索引 的 高 度 。 


11.6 静态 散 列 


顺序 文件 组 织 的 一 个 缺点 是 我 们 必须 访问 索引 结构 来 定位 数据 ， 或 者 必须 使 用 二 分 法 搜索 ， 这 将 
导致 过 多 的 VO 操作 。 基 于 散 列 (hashing) 技术 的 文件 组 织 使 我 们 能 够 避免 访问 索引 结构 。 散 列 也 提供 
了 一 种 构造 索引 的 方法 。 在 接 下 来 的 几 节 中 ,我 们 将 学 习 基 于 散 列 的 文件 组 织 和 索引 。 

在 对 散 列 的 描述 中 ,我们 将 使 用 术语 桶 (bucket) 来 表示 能 存储 一 条 或 多 条 记录 的 一 个 存储 单位 。 
通常 一 个 桶 就 是 一 个 磁盘 块 ， 但 也 可 能 小 于 或 大 于 一 个 磁盘 块 。 

正规 地 说 ， 令 天 表示 所 有 搜索 码 值 的 集合 ， 令 中 表示 所 有 桶 地 址 的 集合 ， 散 列 函 数 ( hash function) 
h 是 一 个 从 K 到 B 的 函数 。 我 们 用 hh 表示 散 列 函数 。 

为 了 插入 一 条 搜索 码 为 K; 的 记录 ,我 们 计算 h(K;)， 它 给 出 了 存放 该 记录 的 桶 的 地 址 。 我 们 目前 
假定 桶 中 有 容纳 这 条 记录 的 空间 ， 于 是 这 条 记录 就 存储 到 该 桶 中 。 

为 了 进行 一 次 基于 搜索 码 值 K; 的 查找 ， 我 们 只 需 计 算 A(K ) ， 然 后 搜索 具有 该 地 址 的 桶 。 假 定 两 
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MBA K, ALK, 有 相同 的 散 列 值 ， 即 h(K;) =h(K;)。 如 果 我 们 执行 对 K, HER, MA AK) EE 
搜索 码 值 是 K 以 及 K 的 记录 。 因 此 ， 我 们 必须 检查 桶 中 每 条 记录 的 搜索 码 值 ， 以 确定 该 记录 是 否 是 
我 们 要 查找 的 记录 。 

删除 也 一 样 简单 。 如 果 待 删除 记录 的 搜索 码 值 是 K;,， 则 计算 h(K;)， 然 后 在 相应 的 桶 中 查找 此 记 
录 并 从 中 删除 它 。 

散 列 可 以 用 于 两 个 不 同 的 目的 。 在 散 列 文件 组 织 ( hash file organization) 中 ， 我 们 通过 计算 所 需 记 录 
搜索 码 值 上 的 一 个 函数 直接 获得 包含 该 记录 的 磁盘 块 地 址 。 在 散 列 索引 组 织 (hash index organization ) 
中 ， 我 们 把 搜索 码 以 及 与 它们 相关 联 的 指针 组 织 成 一 个 散 列 文件 结构 。 

11.6.1 ËA 

最 坏 的 可 能 是 散 列 函数 把 所 有 的 搜索 码 值 映 射 到 同一 桶 中 。 这 种 函数 并 不 是 我 们 所 期 望 的 ， 因 为 
所 有 的 记录 不 得 不 存放 到 同一 个 桶 里 。 查 找 一 个 需要 的 记录 时 将 不 得 不 检查 所 有 记录 。 理 想 的 散 列 函 
数 把 存储 的 码 均 匀 地 分 布 到 所 有 桶 中 ， 使 每 个 桶 含有 相同 数目 的 记录 。 

由 于 设计 时 我 们 无 法 精确 知道 文件 中 将 存储 哪些 搜索 码 值 ， 因 此 我 们 希望 选择 一 个 把 搜索 码 值 分 
配 到 桶 中 并 且 具 有 下 列 分 布 特性 的 散 列 函数 。 

。 分 布 是 均匀 的 。 即 散 列 孙 数 从 所 有 可 能 的 搜索 码 值 集合 中 为 每 个 桶 分 配 同 样 数量 的 搜索 码 值 。 

。 分 布 是 随机 的 。 即 在 一 般 情况 下 ， 不 管 搜索 码 值 实际 怎样 分 布 ， 每 个 桶 应 分 配 到 的 搜索 码 值 数 

目 几 乎 相同 。 更 确切 地 说 ， 散 列 值 不 应 与 搜索 码 的 任何 外 部 可 见 的 排序 相关 ， 例 如 按 字母 的 顺 
序 或 按 搜索 码 长 度 的 顺序 。 散 列 函数 应 该 表现 为 随机 的 。 

为 了 阐明 上 述 原则 ， 我 们 为 以 dept_name 为 搜索 码 的 instructor 文件 选择 一 个 散 列 函数 。 我 们 选择 的 
散 列 函数 不 仅 要 在 我 们 一 直 使 用 的 instructor 文件 上 具有 所 需 的 特性 ， 而 且 在 拥有 许多 系 的 大 型 大 学 中 
的 真实 的 instructor 文件 上 也 应 如 此 。 

假设 我 们 决定 使 用 26 个 桶 ， 并 且 我 们 定义 的 散 列 函数 将 首 字 母 是 字母 表 中 第 i 个 字母 的 名 字 映 射 
到 第 个 桶 上 。 该 散 列 函数 虽 具 有 简单 这 一 优点 ， 但 是 无 法 提供 均匀 分 布 ， 因 为 我 们 可 以 预见 ， 例 如 ， 
以 B 和 R 这样 的 字母 开头 的 名 字 会 比 用 Q 和 X 之 类 的 字母 开头 的 要 多 。 

现在 假设 我 们 想 要 搜索 码 salary 上 的 一 个 散 列 函数 。 假 设 最 低 工资 是 $30 000， 最 高 工资 是 
$130 000。 我 们 可 以 使 用 一 个 散 列 函 数 把 这 些 值 分 成 10 个 区 间 : $30 000 ~ $40 000, $40 001 ~ 
$50 000 等 。 对 于 该 函数 ， 搜 索 码 值 的 分 布 是 均匀 的 (因为 每 个 桶 具有 相同 数目 的 不 同 salary 值 ) ， 但 不 
是 随机 的 。 然 而 ， 工 资 在 $60 001 ~ $70 000 之 间 的 记录 比 在 $30 001 ~ $40 000 之 间 的 记录 要 普遍 得 
多 。 其 结果 是 ， 记 录 的 分 布 是 不 均匀 的 ， 某 些 桶 得 到 的 记录 比 其 他 桶 多 。 如 果 该 函数 分 布 随 机 ， 即 使 
搜索 码 中 有 这 种 相关 性 ， 分 布 的 随机 性 也 将 使 所 有 桶 拥有 大 致 相等 的 记录 数 ， 只 要 每 个 搜索 码 都 仅 对 
应 一 小 部 分 记录 。( 如 果 记 录 中 的 大 部 分 都 对 应 同一 个 搜索 码 ， 那 么 不 管 使 用 何 种 散 列 函数 ， 包 含 该 搜 
索 码 的 桶 都 会 比 其 他 桶 拥有 更 多 的 记录 。) 

通常 散 列 函数 在 搜索 码 中 字符 的 内 部 二 进 制 机 器 表示 上 执行 计算 。 这 种 类 型 的 一 个 简单 函数 是 先 
计算 码 中 字符 的 二 进 制 表示 的 总 和 ， 然 后 返回 该 总 和 取 桶 数目 的 模 。 

图 11-23 给 出 了 该 方案 的 一 个 应 用 ， 它 作用 于 instructor 文件 ， 具 有 8 个 桶 ， 并 假设 字母 表 中 的 第 i 
个 字母 用 整数 i 表示 。 

下 面 的 散 列 函数 是 散 列 字符 串 的 一 个 较 好 选择 。 设 * EKEK n 的 字符 串 ，s[ i 是 字符 串 的 第 i 个 
字 节 。 散 列 函 数 如 下 定义 : 


s [0] + 31°" + s [1] * 315°? +--+ + s[n-1] 


这 个 函数 可 以 按 如 下 方式 高 效 实现 : 最 初 把 散 列 函数 值 设 为 0， 然 后 从 字符 串 的 第 一 个 字符 开始 
和 迭代， 直到 最 后 一 个 字符 为 止 ， 每 一 步 迭 代 都 把 散 列 函数 值 乘 以 31 再 加 上 下 一 个 字符 的 值 (把 字符 看 
作 整 数 ) 。 上 述 表 示 似 乎 可 以 导致 一 个 很 大 的 数 , 但 是 实际 上 计算 后 是 一 个 固定 大 小 的 正 整数 ; 每 次 乘 
法 运算 和 除法 运算 自动 模 可 能 的 最 大 整数 值 加 1 后 运算 得 到 。 上 述 函 数 的 结果 再 取 桶 数目 的 模 得 到 的 
值 就 可 以 用 作 索 引 。 
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图 11-23 使 用 dept_name 作为 码 的 instructor 文件 的 散 列 组 织 


散 列 函数 的 设计 需要 认真 仔细 。 一 个 糟糕 的 散 列 函 数 可 能 导致 查找 所 花费 的 时 间 与 文件 中 搜索 码 
数目 成 正比 ; 一 个 设计 良好 的 散 列 函数 一 般 情 况 下 查找 所 花费 时 间 是 一 个 ( 较 小 的 ) 常数 ， 而 与 文件 中 
搜索 码 的 个 数 无 关 。 
11.6.2 ” 桶 溢出 处 理 
到 目前 为 止 , 我 们 一 直 假 设 ， 当 插入 一 条 记录 时 ， 记 录 映 射 到 的 桶 有 存储 记录 的 空间 。 如 果 桶 没 
有 足够 的 空间 ， 就 会 发 生 桶 溢出 ( bucket overflow) 。 桶 溢出 的 发 生 可 能 有 以 下 几 个 原因 : 
。 桶 不 足 。 桶 数目 (用 ns 表示 ) 的 选择 必须 使 n > n,/f;:， 其 中 n, 表示 将 要 存储 的 记录 总 数 ，/. 表示 
一 个 桶 中 能 存放 的 记录 数目 。 当 然 ， 这 种 表示 是 以 在 选择 散 列 函数 时 记录 总 数 已 知 为 前 提 的 。 
© 偏 斜 。 某 些 桶 分 配 到 的 记录 比 其 他 桶 多 ， 所 以 即使 其 他 桶 仍 有 空间 ， 某 个 桶 也 仍 可 能 溢出 。 这 
种 情况 称 为 桶 偏 斜 (skew) 。 偏 斜 发 生 的 原因 有 两 个 : 
1. 多 条 记录 可 能 具有 相同 的 搜索 码 。 
2. 所 选 的 散 列 函数 可 能 会 造成 搜索 码 的 分 布 不 均 。 
为 了 减少 桶 溢出 的 可 能 性 ， 桶 的 数目 选 为 (n,/f) * (+d), Hp d 是 避让 因子 ， 其 典型 值 约 为 
2。 有 一 些 空间 会 浪费 : 桶 中 大 约 20% 的 空间 是 空 的。 但 好 处 是 减少 了 溢出 的 可 能 性 。 
尽管 分 配 的 桶 比 所 需 的 桶 多 一 些 ， 但 是 桶 溢出 还 是 可 PERE] 
AERE. BRAT Aaa HH over3ow bucket) KAk RE H #0 | 
如 果 一 条 记录 必须 插入 桶 b H, TR b 已 满 ， 系 统 会 为 桶 4 
提供 一 个 溢出 桶 ， 并 将 此 记录 插入 到 这 个 溢出 桶 中 。 如 果 “ 彬 !| | | 
溢出 桶 也 满 了 ， 系 统 会 提供 另 一 个 溢出 桶 ， 如 此 继续 下 去 。 | cassie 
一 个 给 定 桶 的 所 有 溢出 桶 用 一 个 链接 列表 链接 在 一 起 ， 如 gal 
图 11-24 所 示 。 使 用 这 种 链接 列表 的 溢出 处 理 称 为 溢出 链 | | 
(overflow chaining) 。 rer Sal 
为 了 处 理 溢出 链 ， 我 们 需要 将 查找 算法 做 轻微 的 改动 。 
和 前 面 一 样 ， 系 统 使 用 搜索 码 上 的 散 列 函数 来 确定 一 个 桶 
5。 同 前 面 一 样 ， 系 统 必须 检查 桶 上 中 的 所 有 记录 ， 看 是 否 






















图 11-24 散 列 结构 中 的 溢出 链 
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有 匹配 的 搜索 码 。 此 外 ， 如 果 桶 上 有 溢出 桶 ， 则 系统 还 要 检查 桶 4 的 所 有 溢出 桶 中 的 记录 。 

我 们 刚刚 描述 的 这 种 形式 的 散 列 结构 称 为 闭 地 址 (close addressing) ， 较 少 称 为 闭 散 列 (closed 
hashing) 。 男 一 种 方法 称 为 开 地 址 ( open addressing) ， 它 的 桶 集合 是 固定 的 , RA we. ESA Heit 
不 同 ， 当 一 个 桶 满 了 以 后 ， 系 统 将 记录 插入 到 初始 桶 集合 B 的 其 他 桶 中 。 一 种 策略 是 使 用 下 一 个 ( 按 
轮转 顺序 ) 有 空间 的 桶 ， 这 个 策略 称 为 线性 探查 法 (linear probing) 。 我 们 还 可 以 使 用 其 他 策略 ， 比 如 计 
算 更 多 的 散 列 函数 的 方法 。 开 地 址 曾 用 于 构造 编译 器 和 汇编 器 的 符号 表 ， 而 闭 地 址 更 适合 用 于 数据 库 
系统 。 原 因 在 于 开 地 址 中 的 删除 操作 十 分 麻烦 。 一 般 来 说 ， 编 译 器 和 汇编 器 只 是 在 符号 表 上 做 查找 和 
插入 操作 。 可 是 在 数据 库 系 统 中 ， 处 理 删 除 的 能 力 和 处 理 插 和 一样 重要 。 因 此 ， 开 地 址 在 数据 库 实现 
中 的 重要 性 不 大 。 

我 们 前 面 描述 的 散 列 方式 一 个 很 大 的 缺点 是 我 们 必须 在 实现 系统 时 选择 确定 的 散 列 函 数 ， 此 后 车 
被 索引 的 文件 变 大 或 缩小 ， 要 想 再 改变 它 就 不 容易 了。 因为 函数 h 将 搜索 码 值 映射 到 桶 地 址 的 固定 集 
合 B 上 ， 如 果 为 了 处 理 将 来 文件 的 增长 而 将 8 取得 较 大 就 会 浪费 空间 。 如 果 B 太 小 ， 一 个 桶 就 会 包含 
许多 具有 不 同 的 搜索 码 值 的 记录 ， 从 而 可 能 发 生 桶 溢出 。 当 文件 变 大 时 ， 人 性 能 就 会 受到 影响 。 稍 后 
11.7 节 将 介绍 如 何 动态 改变 桶 的 数目 和 散 列 函数 。 

11.6.3 散 列 索引 

散 列 不 仅 可 以 用 于 文件 的 组 织 ， 还 可 以 用 于 索引 结构 的 创建 。 散 列 索引 ( hash index) 将 搜索 码 及 其 
相应 的 指针 组 织 成 散 列 文件 结构 。 我 们 按 如 下 方法 构建 散 列 索引 。 我 们 将 散 列 函数 作用 于 搜索 码 以 确 
定 对 应 的 桶 ， 然 后 将 此 搜索 码 以 及 相应 指针 存 人 此 桶 (或 溢出 桶 ) 中 。 图 11-25 给 出 了 instructor 文件 上 
的 一 个 辅助 散 列 索引 ， 其 搜索 码 是 ID。 图 11-25 中 的 散 列 函数 计算 1D 的 各 位 数字 之 和 对 8 取 模 的 结 
果 。 该 散 列 索引 有 8 个 桶 ， 每 个 桶 的 大 小 为 2( 当然 ， 现 实 中 索引 的 桶 会 大 得 多 ) 。 其 中 一 个 桶 有 三 个 
码 映 射 到 它 ， 因 此 它 有 一 个 溢出 桶 。 在 这 个 例子 中 ，1D 是 instructor 的 主 码 ， 所 以 每 个 搜索 码 只 对 应 一 
个 指针 。 一 般 情况 下 ， 每 个 码 可 能 对 应 多 个 指针 。 
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图 11-25 instructor 文件 中 在 搜索 码 ID 上 的 散 列 索引 - 
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我 们 使 用 术语 散 列 索引 来 表示 散 列 文件 结构 ， 同 时 也 用 它 表 示 辅 助 散 列 索引 。 严 格 地 说 ， 散 列 索 
引 只 是 一 种 辅助 索引 结构 。 散 列 索 引 从 来 不 需要 作为 聚集 索引 结构 来 使 用 ， 因 为 如 果 一 个 文件 自身 是 
按 散 列 组 织 的 ， 就 不 必 在 其 上 另外 建立 一 个 独立 的 索引 结构 。 不 过 ， 既 然 散 列 文件 组 织 能 像 索 引 那样 
提供 对 记录 的 直接 访问 ， 我 们 不 妨 认 为 以 散 列 形式 组 织 的 文件 上 也 有 一 个 聚集 散 列 索引 。 


11.7 动态 散 列 


正如 我 们 已 经 看 到 的 那样 ， 前 一 节 中 的 静态 散 列 技术 要 求 固定 桶 地 址 集合 B， 这 带 来 了 一 个 很 严 
重 的 问题 。 大 多 数 数据 库 都 会 随时 间 而 变 大 。 如 果 我 们 准备 为 这 样 的 数据 库 使 用 静态 散 列 ， 我 们 有 三 
种 选择 : 

1. 根据 当前 文件 大 小 选择 散 列 函数 。 这 种 选择 会 使 性 能 随 数据 库 增 大 而 下 降 。 

2. 根据 将 来 某 个 时 刻 文 件 的 预计 大 小 选择 散 列 函 数 。 尽 管 这 样 可 以 避免 性 能 下 降 ， 但 是 初始 时 会 
造成 相当 大 的 空间 浪费 。 

3. 随 着 文件 增 大 ， 周 期 性 地 对 散 列 结构 进行 重组 。 这 种 重组 涉及 一 系列 问题 ， 包 括 新 散 列 函数 的 
选择 ， 在 文件 中 每 条 记录 上 重新 计算 散 列 函数 ， 以 及 分 配 新 的 桶 。 重 组 是 一 个 规模 大 、 耗 时 的 操作 ， 
而 且 重 组 期 间 必须 禁止 对 文件 的 访问 。 

几 种 动态 散 列 (dynamic hashing) 技术 允许 散 列 函数 动态 改变 ， 以 适应 数据 库 增 大 或 缩小 的 需要 。 
本 节 介 绍 一 种 动态 散 列 技术 ， 称 为 可 扩充 散 列 (extendable hashing) 。 文 献 注解 列 出 了 有 关 其 他 动态 散 
列 技术 的 参考 。 

11.7.1 数据 结构 

当 数 据 库 增 大 或 缩小 时 ， 可 扩充 散 列 可 以 通过 桶 的 分 裂 或 合并 来 适应 数据 库 大 小 的 变化 。 这 样 可 
以 保持 空间 的 使 用 效率 。 此 外 ， 由 于 重组 每 次 仅 作用 于 一 个 桶 ， 因 此 所 带 来 的 性 能 开销 较 低 ， 可 以 
接受 。 

使 用 可 扩充 散 列 时 ， 我 们 选择 一 个 具有 均匀 性 和 随机 性 特性 的 散 列 函 数 h。 但是， 此 散 列 函数 产 
生 的 值 范 围 相 对 较 大 ， 是 45 位 二 进 制 整 数 。 一 个 典型 的 b 值 是 32。 
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图 11-26 可 扩充 散 列 的 一 般 结 构 


我 们 并 不 为 每 一 个 散 列 值 创建 一 个 桶 。 实 际 上 ，2 超过 40 亿 ， 除 非 是 非常 大 的 数据 库 ， 否 则 没有 
必要 创建 这 么 多 桶 。 相 反 ， 我 们 是 在 把 记录 插入 文件 时 按 需 建 桶 的 。 开 始 时 ， 我 们 不 使 用 散 列 值 的 全 
部 5b 位 ,任意 时 刻 我 们 使 用 的 位 数 i 满 足 0 <i < b 。 这 样 的 i 个 位 用 作 附加 的 桶 地 址 表 中 的 偏 移 量 。: 
的 值 随 着 数据 库 大 小 的 变化 而 增 大 或 减 小 。 

图 11-26 所 示 为 一 般 的 可 扩充 散 列 结构 。 图 11-26 中 出 现在 桶 地 址 表 上 方 的 i 表明 散 列 值 h(K) 中 
有 i 位 需要 用 来 正确 地 定位 对 应 于 K 的 桶 。 当 然 ,，i 的 值 会 随 着 文件 增长 而 变化 。 尽 管 找 出 桶 地 址 表 中 
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的 正确 表 项 需要 i 位 ,但 几 个 连续 的 表 项 可 能 指向 同一 个 桶 。 所 有 这 样 的 表 项 有 一 个 共同 的 散 列 前 缀 ， 
但 这 个 前 级 的 长 度 可 能 小 于 i。 因 此 ， 我 们 给 每 一 个 桶 附加 一 个 整数 值 ， 用 来 表明 共同 的 散 列 前 缀 长 
度 。 在 图 11-26 中 ,与 桶 j 相 关联 的 整数 是 i。 桶 地 址 表 中 指向 桶 j 的 表 项 编号 为 

20-0 
11.7.2 查询 和 更 新 

我 们 现在 来 看 如 何在 可 扩充 散 列 结构 上 执行 查询 、 插 入 和 删除 。 

为 了 确定 含有 搜索 码 值 K, 的 桶 的 位 置 ， 系 统 取得 AK) 的 前 i 个 高 位 ， 然 后 为 这 个 位 串 查 找 对 应 
的 表 项 ， 再 根据 表 项 中 的 指针 得 到 桶 的 位 置 。 

要 插入 一 条 搜索 码 值 为 K 的 记录 ， 系 统 按 上 述 相同 过 程 进行 查找 ， 最 终 定位 到 某 个 桶 一 一 假定 为 
Wij. 如 果 该 桶 中 有 剩余 空间 ， 系 统 将 该 记录 插 人 该 桶 即 可 ; 反之 ， 如 果 桶 j 已 满 ， 系 统 必须 分 裂 这 个 
桶 并 将 该 桶 中 现 有 记录 和 新 记录 一 起 进行 重新 分 配 。 为 了 分 裂 该 桶 ， 系 统 必 须 首先 根据 散 列 值 确 定 是 
否 需要 增加 所 使 用 的 位 数 。 

。 如 果 : = 性， 那么 在 桶 地 址 表 中 只 有 一 个 表 项 指向 桶 7 所 以 系统 需要 增加 桶 地 址 表 的 大 小 ， 以 容 

纳 由 于 桶 7 分 裂 而 产生 的 两 个 桶 指针 。 为 了 达到 这 一 目的 ， 系 统考 虑 多 引入 散 列 值 中 的 一 位 。 系 
统 将 i 的 值 加 1， 从 而 使 桶 地 址 表 的 大 小 加 信 。 这 样 ， 原 表 中 每 个 表 项 都 被 两 个 表 项 替代 ， 两 个 
表 项 都 包含 和 原始 表 项 一 样 的 指针 。 现 在 桶 地 址 表 中 有 两 个 表 项 指向 桶 j。 这 时 ， 系 统 分 配 一 个 
新 的 桶 ( 桶 z)， 并 让 第 二 个 表 项 指向 此 新 桶 。 系 统 将 i Ali, BAI. BERR, My 中 的 各 条 记录 重 
新 散 列 ， 根 据 前 i 位 ( 记 住 i 已 加 1) 来 确定 该 记录 是 放 在 桶 j 中 还 是 放 到 新 创建 的 桶 中 。 

系统 现在 再 次 尝试 插入 该 新 记录 。 通 常 这 一 尝试 会 成 功 。 但 是 ， 如 果 桶 j 中 原 有 的 所 有 记 
录 和 新 插入 的 记录 具有 相同 的 散 列 值 前 级 ， 该 桶 就 必须 再 次 分 裂 ， 这 是 因为 桶 7/ 中 的 所 有 记录 
和 新 插入 的 记录 被 分 配 到 同一 个 桶 中 。 如 果 散 列 函数 已 经 过 仔细 挑选 ， 一 次 插入 导致 两 次 或 两 
次 以 上 分 裂 是 不 太 可 能 的 ， 除 非 大 量 的 记录 具有 相同 的 搜索 码 。 如 果 桶 /中 所 有 记录 搜索 码 值 
相同 ， 那 么 多 少 次 分 裂 也 不 能 解决 问题 。 在 这 种 情况 下 ， 采 用 溢出 桶 来 存储 记录 ， 就 像 在 静态 
散 列 中 那样 。 

e 如果: > i， 那么 在 桶 地 址 表 中 有 多 个 表 项 指向 桶 j。 因 此 ， 系 统 不 需要 扩大 桶 地 址 表 就 能 分 裂 
桶 j。 我 们 发 现 指向 桶 j 的 所 有 表 项 的 索引 前 缀 的 最 左 i 位 相同 。 系 统 分 配 一 个 新 桶 ( 桶 z)， 将 
i Mi, 置 为 原 疙 加 工 后 得 到 的 值 。 接 下 来 系统 需要 调整 桶 地 址 表 中 原来 指向 桶 7 的 表 项 。( 注 
意 ， 由 于 i 有 了 新 的 值 ， 并 非 所 有 表 项 的 散 列 前 缀 的 最 左 i 位 都 相同 。) 系 统 让 这 些 表 项 的 前 一 
半 保 持原 样 (指向 桶 7) ， 而 使 后 一 半 指 向 新 创建 的 桶 ( 桶 z)。 然 后 就 像 上 一 种 情况 那样 ， 桶 j 中 
的 各 条 记录 被 重新 散 列 ， 分 配 到 桶 7 或 新 桶 z 中 。 

此 时 ， 系 统 重新 尝试 插入 记录 。 失 败 的 可 能 性 微乎其微 ， 如 果 失 败 ， 则 根据 情况 是 i=i 还 
是 ;> i 继续 做 相应 的 处 理 。 
注意 ， 在 这 两 种 情况 下 ， 系 统 都 只 需要 在 桶 j 的 记录 上 重新 计算 散 列 函数 。 

要 删除 一 条 搜索 码 值 为 天 的 记录 ， 系 统 可 以 按 前 面 的 查找 过 程 找 到 相应 的 桶 ， 不 妨 设 为 桶 j。 系 
统 不仅 要 把 搜索 码 从 桶 中 删除 ， 还 要 把 记录 从 文件 中 删除 。 如 果 这 时 桶 成 为 空 的 ， 那么 桶 也 需要 删除 。 
注意 ， 此 时 某 些 桶 可 能 合并 ， 桶 地 址 表 的 大 小 也 可 能 减 半 。 决 定 哪些 桶 可 以 合并 以 及 如 何 合并 这 些 桶 
的 过 程 留 作 习 题 。 桶 地 址 表 的 大 小 在 何 种 条 件 下 可 以 减 小 也 留 作 习题 。 与 桶 的 合并 不 同 ， 若 桶 地 址 表 
很 大 ， 则 改变 该 表 的 大 小 是 一 个 开销 相当 大 的 操作 。 因 此 只 有 当 桶 数目 减少 很 多 时 ， 减 小 桶 地 址 表 的 
大 小 才 是 值得 的 。 

为 了 说 明 插 和 操作， 我 们 使 用 图 11-1 中 的 instructor 文件 并 假设 搜索 码 为 dept_name， 散 列 值 有 32 位 ， 
如 图 11-27 所 示 。 假 设 该 文件 开始 时 是 空 的 ， 如 图 11-28 所 示 。 一 条 一 条 地 插入 记录 。 为 了 用 一 个 很 小 的 结 
构 演示 可 扩充 散 列 的 所 有 特性 ， 我 们 需要 做 一 个 不 实际 的 假设 : 一 个 桶 只 能 容纳 两 条 记录 

插入 记录 (10101,， Srinivasan, Comp. Sci. ，65000) 。 桶 地 址 表 包 含 一 个 指向 桶 的 指针 ， 系 统 插 和 人 该 
条 记录 。 接 着 ， 我 们 插入 记录 (12121，Wu，Finance，90000 ) 。 系 统 也 把 这 条 记录 放 到 对 应 结构 中 的 一 
个 桶 里 。 
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当 试 图 插入 下 一 条 记录 (15151，Mozart，Music, 40000 ) 时 ， 我 们 发 现 桶 已 经 满 了 。 由 于 :=zm， 因 此 
需要 增加 所 使 用 的 散 列 值 中 的 位 数 。 现 在 我 们 使 用 1 位 ， 人 允许 有 2 = 2 个 桶 。 这 一 位 数 的 增加 使 桶 地 
址 表 的 大 小 必须 加 倍 ， 增 加 到 有 两 个 表 项 。 系 统 分 裂 桶 ， 在 新 桶 中 放置 那些 搜索 码 的 散 列 值 以 1 开始 
的 记录 ， 而 将 其 余 的 记录 留 在 原来 的 桶 中 。 图 11-29 给 出 了 该 结构 在 分 裂 后 的 状态 。 
dept_name h(dept_nanie) 


Biology 0010 1101 1111 1011 0010 1100 0011 0000 
Comp. Sci. 1111 0001 0010 0100 1001 0011 0110 1101 
Elec. Eng. 0100 0011 1010 1100 1100 0110 1101 1111 








Finance 1010 0011 1010 0000 1100 0110 1001 1111 
History 1100 0111 1110 1101 1011 1111 0011 1010 
Music 0011 0101 1010 0110 1100 1001 1110 1011 
| Physics 1001 1000 0011 1111 1001 1100 0000 0001 





图 11-27 dept_name 的 散 列 函数 
散 列 前 级 


桶 地 址 表 桶 1 
图 11-28 ”初始 的 可 扩充 散 列 结构 
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图 11-29 3 次 插入 操作 后 的 散 列 结构 


接 下 来 ， 插入 (22222，Einstein，Physics, 95000)。 由 于 有 h(Physics) 的 第 一 位 是 1， 因 此 必须 将 该 记 
录 插 入 桶 地 址 表 中 表 项 “1” 指 向 的 桶 。 我 们 又 一 次 发 现 桶 满 了 并 且 i =ii。 我 们 将 使 用 的 散 列 值 位 数 增 
加 到 2。 这 一 位 数 增加 使 桶 地 址 表 的 大 小 必须 加 倍 ， 增 加 到 有 4 个 表 项 ， 如 图 11- 30 所 示 。 由 于 
图 11-29 中 散 列 前 缀 为 0 的 桶 并 未 分 裂 ， 因 此 桶 地 址 表 中 00 和 01 表 项 都 指向 该 桶 。 

对 于 图 11-29 PRIRA 1 的 桶 (正在 分 裂 的 桶 ) 中 的 每 一 条 记录 ， 系 统 检查 其 散 列 值 中 的 前 两 
位 ， 决 定 在 新 结构 的 哪 一 个 桶 中 存放 它 。 
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图 11-30 4 次 插入 操作 后 的 散 列 结构 
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接 下 来 ,我 们 插入 (32343, El Said, History, 60000) ， 它 进入 Comp. Sci. 所 在 的 同一 个 桶 。 然 后 又 
插入 (33456， Gold, Physics, 87000) ， 这 导致 了 桶 溢出 ， 引 起 位 数 增加 和 桶 地 址 表 的 大 小 加 倍 ( 如 图 
11-31 所 示 ) 。 











s= 
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图 11-31 6 次 插入 操作 后 的 散 列 结构 


(45565, Katz, Comp. Sci. , 75000) 的 插入 引起 另 一 次 溢出 。 但 是 ， 这 次 溢出 不 必用 增加 位 数 来 解 
决 了 ， 因 为 该 桶 有 两 个 指向 它 的 指针 (如 图 11-32 所 示 )。 
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图 11-32 7 次 插入 操作 后 的 散 列 结构 


接 下 来 插入 “Califieri”、“Singh”、“Crick” 的 记录 ， 它 们 不 会 带 来 桶 溢出 。 但 是 ,第 三 条 Comp. Sci. 
记录 (83821，Brandt，Comp. Sci. , 92000) 的 插 人 会 导致 另外 的 溢出 。 这 种 溢出 不 能 通过 增加 位 数 来 解 
决 ， 因 为 有 三 条 记录 具有 相同 的 散 列 值 。 因 此 系统 使 用 一 个 溢出 桶 ， 如 11-33 所 示 。 我 们 继续 按 这 种 
方法 进行 ， 直 到 插入 图 11-1 中 的 所 有 instructor 记录 为 止 。 产 生 的 结构 如 图 11-34 所 示 。 
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图 11-33 11 次 插入 操作 后 的 散 列 结构 
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图 11-34 文件 instructor 的 可 扩充 散 列 结构 
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11.7.3 静态 散 列 与 动态 散 列 比较 

现在 让 我 们 来 看 一 看 可 扩充 散 列 相对 静态 散 列 的 优 缺 点 。 可 扩充 散 列 最 主要 的 优点 是 其 性 能 不 随 
文件 的 增长 而 降低 。 此 外 ， 其 空间 开销 是 最 小 的 。 尽 管 桶 地 址 表 带 来 了 额外 的 开销 ， 但 该 表 为 当前 前 
级 长度 的 每 个 散 列 值 存放 一 个 指针 ， 因 此 该 表 较 小 。 可 扩充 散 列 与 其 他 散 列 形式 相 比 ， 主 要 的 空间 节 
省 是 不 必 为 将 来 的 增长 保留 桶 ; 桶 的 分 配 是 动态 的 。 

可 扩充 散 列 的 一 个 缺点 在 于 查找 涉及 一 个 附加 的 间接 层 ， 因 为 系统 在 访问 桶 本 身 之 前 必须 先 访问 
桶 地 址 表 。 这 一 额外 的 访问 只 对 性 能 有 一 个 微小 的 影响 。 尽 管 11. 6 节 讨 论 的 散 列 结构 没有 这 一 额外 的 
间接 层 ， 但 当 它们 变 满 后 就 失去 了 这 个 微小 的 性 能 优势 。 

因而 ， 可 扩充 散 列 看 来 是 一 种 非常 吸引 人 的 技术 ， 只 要 我 们 愿意 接受 在 实现 它 时 增加 的 复杂 性 。 
关于 可 扩充 散 列 实现 更 详细 的 资料 见 文献 注解 。 

文献 注解 同时 也 提供 了 另 一 种 动态 散 列 形式 一 一 线性 散 列 (linear hashing) 的 参考 ， 这 一 方法 以 可 
能 有 更 多 溢出 桶 的 代价 为 前 提 ， 避 免 了 与 可 扩充 散 列 相关 联 的 额外 的 间接 层 。 


11.8 顺序 索引 和 散 列 的 比较 


我 们 已 经 看 到 了 一 些 顺序 索引 方案 和 散 列 方案 。 可 以 用 索引 顺序 组 织 或 B 树 组 织 将 记录 文件 组 织 
成 顺序 文件 。 另 外 ， 也 可 以 用 散 列 来 组 乡 ee 成 堆 文件 ， 其 中 的 记录 不 以 任 
何 特定 方式 排序 。 

各 种 方案 在 一 定 条 件 下 各 有 其 优点 。 数 据 库 系 统 的 实现 者 可 提供 多 种 方案 ， 而 将 使 用 哪 种 方案 的 最 后 
决定 权 留 给 数据 库 设 计 者 。 但 是 ， 这 种 方法 需要 实现 者 写 更 多 的 代码 ， 加 大 了 系统 的 成 本 和 系统 所 占用 的 空 
间 。 大 多 数 数据 库 系统 支持 B 树 索 引 ， 并 且 有 可 能 还 额外 支持 某 种 形式 的 散 列 文件 组 织 或 散 列 索引 。 

要 对 关系 的 文件 组 织 和 索引 技术 做 出 明智 的 选择 ， 实 现 者 或 数据 库 设 计 者 必须 考虑 以 下 问题 : 

。 索引 或 散 列 组 织 的 周期 性 重组 代价 是 否 可 接受 ? 

© 插入 和 删除 的 相对 频率 如 何 ? 

。 是 否 愿 意 以 增加 最 坏 情 况 下 的 访问 时 间 为 代价 优化 平均 访问 时 间 ? 

© 用 户 可 能 提出 哪些 类 型 的 查询 ? 

hee hie ei eats alsa 然后 在 我 们 讨论 散 列 
RAM. 8 索引 还 是 散 列 都 至 关 重 要 。 

如 是 六 此 各 才 测 用 各 





select A, , Az, =, A, 
from r 
where A, =c; 
那么 ， 为 了 处 理 该 查询 ， 系 统 将 在 一 个 顺序 索引 或 散 列 结构 中 为 属性 A, 查找 值 c。 对 于 这 种 形式 的 查 
询 ， 散 列 的 方案 更 可 取 。 顺 序 索 引 的 查找 所 需 时 间 与 关系 7 中 A 值 的 个 数 的 对 数 成 正比 。 但 在 散 列 结 
构 中 ,平均 查找 时 间 是 一 个 与 数据 库 大 小 无 关 的 常数 。 对 于 这 种 形式 的 查询 ， 非 散 列 的 索引 结构 的 唯 
一 优点 是 最 坏 情况 下 的 查找 时 间 和 关系 7 中 4; 值 的 个 数 的 对 数 成 正比 ， 而 用 散 列 时 ， 最 坏 情况 下 所 需 
的 查找 时 间 和 关系 + 中 4; 值 的 个 数 成 正比 。 但 是 ， 用 散 列 时 最 坏 查 找 发 生 的 可 能 性 极 小 ， 因 而 在 这 种 
情况 下 散 列 更 可 取 。 
顺序 索引 技术 在 指出 了 一 个 值 范围 的 查询 中 比 散 列 更 可 取 。 这 样 的 查询 有 如 下 形式 : 
select4 , A,, =, An 
from r 
where A, <c, and A, >c, 
换 句 话说 ， 这 一 查询 要 找 出 4; 的 值 在 o ~c, 之 间 的 所 有 记录 。 
让 我 们 考虑 如 何 用 顺序 索引 处 理 该 查询 。 首 先 查 找 值 c,。 一 旦 找到 值 co 的 桶 ， 就 可 以 顺 着 索引 中 
的 指针 链 顺 序 读 取 下 一 个 桶 ， 如 此 继续 下 去 直到 到 达 co 
如 果 我 们 不 用 顺序 索引 而 用 散 列 结构 ， 我 们 查找 o 并 确定 其 对 应 的 桶 ， 但 一 般 来 说 ， 决 定 下 一 个 
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必须 检查 的 桶 并 不 容易 ， 因 为 好 的 散 列 函数 总 是 将 值 随机 地 分 散 到 各 桶 中 。 因 而 没有 一 个 简单 的 概念 
能 够 表示 “ 按 顺 序 排序 的 下 一 个 桶 ” 。 我 们 不 能 将 桶 按 A 的 大 小 顺序 串 在 一 起 的 原因 是 每 个 桶 都 分 配 了 
许多 搜索 码 值 。 既 然 值 由 散 列 函数 随机 地 散布 ， 在 一 定 范围 内 的 值 就 很 可 能 散布 在 很 多 甚至 全 部 桶 中 。 
因而 ， 为 了 找到 所 需 搜索 码 ， 我 们 不 得 不 读 取 所 有 的 桶 。 

通常 设计 者 会 使 用 顺序 索引 ， 除 非 他 预先 知道 将 来 不 会 频繁 使 用 范围 查询 ， 在 这 种 情况 下 使 用 散 
列 。 散 列 组 织 对 于 在 查询 执行 过 程 中 创建 的 临时 文件 来 说 特别 有 用 ， 如 果 需 要 基于 码 值 查找 并 且 不 执 
行 范围 查询 。 


11.9 位 图 索引 


位 图 索引 是 一 种 为 多 码 上 的 简单 查询 设计 的 特殊 索引 ， 尽 管 每 个 位 图 索引 都 是 建立 在 一 个 码 之 
上 的 。 

为 了 使 用 位 图 索引 ， 关 系 中 的 记录 必须 按 顺 序 编号 ， 比 如 说 从 0 开始 。 对 于 给 定 的 一 个 nn 值 ， 必 
须 能 很 简单 地 检索 到 编号 为 n 的 记录 。 如 果 记 录 是 大 小 固定 的 ， 而 且 位 于 文件 的 连续 块 上 ， 则 实现 这 
一 点 就 更 容易 了 。 然 后 ， 该 记录 号 就 可 以 很 简单 地 转化 为 一 个 块 编号 和 一 个 指出 块 内 记录 的 记录 号 。 

考虑 一 个 关系 ">， 它 有 一 个 属性 A 只 能 取 很 少 的 一 些 数 值 ( 例 如 ，2 ~ 20) 。 例 如 ， 关 系 instructor_ 
info 可 能 有 一 个 属性 gender， 它 只 能 取 m( 男 ) 和 f( 女 ) 值 。 另 一 个 例子 是 属性 income_level， 此 处 收入 分 
成 5 级 : Ll: $0~9999, 12: $10 000 ~19 999, 13; $20 000 ~39 999, I4; $40 000 ~74 999, L5; 
$75 000 ~œ 。 在 这 里 ， 原 始 数据 可 以 取 很 多 数值 ， 但 是 数据 分 析 者 将 这 些 数值 划分 成 少数 几 个 区 间 
以 简化 数据 分 析 。 
11.9.1 位 图 索引 结构 

位 图 (bitmap) 就 是 位 的 一 个 简单 数组 。 在 其 最 简单 的 形式 中 ， KA 的 属性 4 上 的 位 图 索引 
(bitmap index) 是 由 4 能 取 的 每 个 值 建立 的 位 图 构成 的 。 每 个 位 图 都 有 和 关系 中 的 记录 数 相等 数目 的 
位 。 如 果 编 号 为 i 的 记录 在 属性 4 LIEK v, WEK v 的 位 图 中 的 第 i 个 位 设置 为 1， 而 该 位 图 上 的 
其 他 所 有 位 设置 为 0。 

在 该 例子 中 ， 对 值 m 和 f 都 分 别 有 一 个 位 图 。 如 果 号 码 为 i 的 记录 的 gender 值 为 m， 则 m 的 位 图 
中 的 第 i 位 设置 为 1， 而 m 的 位 图 中 的 其 他 位 设置 为 0。 类 似 地 , f 位 图 中 等 于 1 的 位 对 应 于 属性 gender 
的 值 为 的 记录 ， 而 其 他 位 都 为 0。 图 11-35 表示 了 关系 instructor_info 上 的 位 图 索引 的 例子 。 

我 们 现在 考虑 什么 时 候 使 用 位 图 索引 是 有 利 的 。 用 属性 值 为 m( 或 者 有) 来 检索 所 有 记录 ， 最 简单 的 
办 法 就 是 读 取 关系 中 的 所 有 记录 ， 再 选择 其 中 值 为 m( 或 者 了 ) 的 记录 。 在 这 样 的 办 法 中 ， 位 图 索引 实际 
上 并 不 能 加 快 检索 速度 。 尽 管 它 可 以 让 我 们 只 读 取 某 个 特定 性 别 的 记录 ,但 是 很 有 和 可 能 文件 的 所 有 块 
都 需要 被 读 取 到 。 

gender 的 位 图 income_level 
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图 11-35 XK instructor_info 上 的 位 图 索引 


事实 上 ， 位 图 索引 主要 在 对 多 个 码 上 的 选择 操作 有 用 。 假 设 如 前 所 述 ， 除 了 gender 上 的 位 图 索引 
之 外 ， 还 创建 了 属性 income_level 上 的 位 图 索引 。 
现在 考虑 一 个 选择 收入 在 $10 000 ~ $19 999 之 间 的 女性 的 查询 。 这 个 查询 可 以 表示 成 为 
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select” 
from r 
where gender = 'f' and income level = 'L2'; 


为 了 计算 这 个 选择 ,我 们 取 属 性 gender 值 为 了 的 位 图 和 属性 income_level 值 为 [2 的 位 图 ， 然 后 执行 
两 个 位 图 的 交 (intersection ) 操作 (逻辑 与 ) 。 换 名 话说， 我 们 计算 出 了 一 个 新 的 位 图 ， 如 果 前 面 两 个 位 
图 的 第 i 位 值 都 为 1， 则 这 个 新 位 图 的 第 i 位 值 为 1; 否则 ,为 0。 在 图 11-35 的 例子 中 ，gender 的 位 图 = 
f(O1101 ) 和 income_level 的 位 图 = L2 (01000) 的 交 得 到 位 图 01000。 

因为 第 一 个 属性 可 以 取 两 个 值 ， 第 二 个 属性 可 以 取 5 个 值 ， 所 以 我 们 认为 ,平均 10 条 记录 中 只 有 一 
条 记录 能 满足 两 个 属性 上 的 组 合 条 件 。 如 果 有 更 多 的 条 件 ， 则 满足 所 有 条 件 的 记录 在 所 有 记录 中 所 占 的 
比例 可 能 就 很 小 了 。 这 样 ， 系 统 可 通过 在 交 操 作 以 后 的 位 图 中 找 出 值 为 1 的 所 有 位 ， 然 后 检索 相应 的 记 
录 来 计算 出 查询 结果 。 如 果 满 足 条 件 的 记录 所 占 比例 很 大 ， 则 扫描 整个 关系 将 是 代价 更 低 的 一 种 选择 。 

位 图 的 男 一 个 重要 应 用 就 是 统计 满足 所 给 选择 条 件 的 元 组 数 。 这 样 的 检索 对 于 数据 分 析 很 重要 。 
例如 ， 我 们 希望 找到 有 多 少女 性 的 收入 水 平 为 2， 我 们 计算 两 个 位 图 的 交 ， 然 后 统计 交 操 作 后 得 到 的 
位 图 中 值 为 1 的 位 的 数目 。 这 样 我 们 甚至 可 以 在 不 需要 访问 关系 的 条 件 下 从 位 图 索引 得 到 需要 的 结果 。 

和 实际 关系 大 小 相 比 ， 位 图 索引 通常 比较 小 。 典 型 的 记录 至 少 是 几 十 或 几 百 字 节 长 ， 然 而 在 位 图 
中 一 位 就 可 以 代表 一 条 记录 。 这 样 ， 单 个 位 图 占用 的 空间 通常 少 于 关系 所 占 空间 的 1% 。 例 如 ， 如 果 
一 个 给 定 关 系 的 记录 长 度 为 100 字 节 ， 那 么 单个 位 图 所 占 空间 将 是 整个 关系 所 占 空间 的 1% 的 1/8。 如 
果 关 系 的 属性 4 可 以 取 8 “ME, 那么 属性 A 上 的 位 图 索引 将 包含 8 个 位 图 ， 这 8 个 位 图 一 起 仅 占用 该 
关系 大 小 的 1% 。 

删除 记录 会 在 顺序 排列 的 记录 之 间 产 生 间 除 ， 因 为 移动 记录 (或 者 记录 号 ) 来 填充 间隙 需要 极 大 的 
代价 。 为 了 识别 被 删除 的 记录 ， 我们 可 以 存储 一 个 存在 位 图 ( existence bitmap) ， 在 该 位 图 中 如 果 第 i 位 
的 值 为 0， 表 示 记 录 i 不 存在 ,否则 为 1。 我 们 将 在 11. 9.2 节 了 解 存在 位 图 的 必要 性 。 记 录 的 插 人 不 应 
该 影响 到 其 他 记录 的 顺序 编号 。 因 此 ， 我 们 可 以 通过 在 文件 的 末尾 添加 记录 或 者 蔡 换 被 删除 的 记录 来 
完成 插入 操作 。 

11.9.2 ”位 图 操作 的 高 效 实现 

我 们 可 以 简单 地 用 一 个 for 循环 来 计算 两 个 位 图 的 交 : 第 i 个 循环 计算 两 个 位 图 的 第 i 位 的 与 
(and)。 我 们 可 以 通过 大 多 数 计算 机 指令 集 支 持 的 位 模式 and 指令 来 显著 加 快 交 操作 运算 速度 。 根 据 
不 同 的 计算 机 体系 结构 ， 一 个 字 (word) 通 常 有 32 或 64 位 。 位 模式 and 指令 以 两 个 字 作 为 输入 ， 输 出 
一 个 字 ， 该 字 的 每 一 个 位 是 输入 的 两 个 字 对 应 位 的 与 (and) 。 值 得 重点 注意 的 是 ， 位 模式 and 指令 可 
以 用 一 次 运算 得 到 32 位 或 者 64 位 的 交 。 

如 果 一 个 关系 有 100 万 条 记录 ， 每 个 位 图 将 包含 100 万 个 位 ， 相 当 于 128KB。 假 设 字 长 是 32 位 的 ， 
则 为 计算 该 例子 中 的 两 个 位 图 的 交 ， 只 需要 31 250 条 指令 。 因 此 ， 位 图 的 交 运 算 就 相当 快 。 

正如 位 图 的 交 运 算 可 用 于 计算 两 个 条 件 的 与 (and) ， 位 图 的 并 可 用 来 计算 两 个 条 件 的 或 (or) 。 位 
图 并 的 过 程 和 位 图 与 的 过 程 十 分 相似 ， 不 同 之 处 在 于 ， 我 们 用 位 模式 or 指令 代替 位 模式 and 指令 。 

补 码 操作 可 用 于 计算 对 某 个 条 件 取 反 的 断言 ， 例 如 not( income_level =Z1 ) 。 位 图 的 补 码 可 以 用 位 图 
中 每 一 位 的 补 码 来 产生 (1 的 补 码 是 0，0 的 补 码 是 1)。 看 起 来 ， 我们 好 像 可 以 通过 计算 收入 等 级 为 L1 
的 位 图 的 补 码 来 实现 not(income_level =L1)。 但 是 ， 如 果 一 些 记录 已 经 删除 了 ， 那 么 仅仅 计算 位 图 的 补 
码 是 不 够 的 。 与 删除 记录 相对 应 的 位 在 原 位 图 中 为 0, 但 在 补 码 中 将 为 1， 而 实际 上 该 记录 已 经 不 存在 
了 。 当 属性 值 为 空 (nwl) 的 时 候 ， 也 会 出 现 同样 的 问题 。 例 如 ， 如 果 income_level 的 值 为 空 ， 在 原来 的 
位 图 中 ,， 值 L1 对 应 的 位 的 值 为 0， 而 在 补 码 位 图 中 为 1 。 

为 了 确保 对 应 于 被 删除 记录 的 位 在 结果 中 设置 为 0, 补 码 位 图 必须 和 存在 位 图 进行 交 操作 使 
得 已 删除 记录 对 应 的 位 为 0。 类 似 地 ， 处 理 空 值 时 ， 补 码 位 图 也 必须 和 空 值 (nwull) 的 补 码 位 图 进行 





© Abe A is unknown 之 类 的 断言 会 导致 更 多 麻烦 ， 这 通常 需要 使 用 为 一 个 位 图 来 跟踪 未 知 的 操作 结果 。 
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可 以 通过 一 个 巧妙 的 技术 ， 使 计算 位 图 中 值 为 1 的 位 的 数目 变 得 很 快 。 可 以 维护 一 个 具有 256 个 
项 的 数组 ， 其 中 第 i 个 项 存储 i 的 二 进 制 表示 中 值 为 1 的 位 的 个 数 。 开 始 时 设置 总 计数 值 为 0。 我 们 取 
得 位 图 中 的 每 一 个 字 节 ， 将 它 作为 数组 的 下 标 ， 然 后 将 其 中 存储 的 值 加 到 总 计数 值 上 。 加 操作 的 数目 

将 是 整个 元 组 数 的 1/8 ， 因 此 该 计数 过 程 是 很 有 效 的 。 一 个 大 的 数组 ( 使 用 28 = 65536 个 项 ) 用 多 个 字 

节 来 做 数组 下 标 ， 将 会 得 到 更 高 的 加 速 比 ， 但 是 需要 更 大 的 存储 开销 。 
11.9.3 位 图 和 B* Bt 

对 于 一 些 属性 值 经 常 出 现 ， 而 另外 一 些 属性 值 虽 然 也 出 现 ， 但 出 现 频率 很 小 的 关系 ， 位 图 可 以 和 
一 般 的 B* 树 索引 组 合 起 来 使 用 。 在 B* 树 索引 的 叶 结 点 中 ， 对 于 每 个 值 ， 我 们 通常 保留 以 这 个 值 为 索 
引 属 性 值 的 所 有 记录 的 列表 。 列 表 的 每 个 元 素 可 以 是 记录 的 标识 符 ， 至 少 有 32 位 ， 而 通常 会 更 多 。 对 
于 一 个 在 许多 记录 中 都 出 现 的 值 ， 我 们 存储 一 个 位 图 而 不 是 记录 的 列表 。 

假设 一 个 特殊 的 值 w 在 1/16 的 关系 记录 中 出 现 。 令 N 为 关系 中 的 记录 数目 ， 并 假设 每 条 记录 有 一 
个 64 位 的 号 来 标识 它 。 位 图 仅 需要 1 位 来 表示 每 条 记录 ， 总 共 需 要 N 位 。 相 对 而 言 ， 在 值 出 现 的 地 
H, IREE 64 位 来 表示 每 条 记录 ， 即 总 共 64 * N/16 =4N 位 。 因 此 ， 我 们 更 倾向 于 使 用 位 图 来 表示 
fio 的 记录 列表 。 在 该 例子 (使 用 64 位 记录 标识 ) 中， 如果 少 于 1/64 的 记录 具有 相同 的 值 ， 对 于 标识 
具有 这 种 特殊 值 的 记录 而 言 ， 则 更 倾向 于 使 用 列表 表示 ， 因 为 它 比 位 图 表示 使 用 更 少 的 位 。 如 果 多 于 
1/64 的 记录 具有 相同 的 值 ， 则 倾向 于 使 用 位 图 表示 。 

因此 ， 对 于 经 常 出 现 的 那些 值 ， 我 们 可 以 在 B* 树 的 叶 结 点 中 使 用 位 图 来 作为 一 种 压缩 存储 机 制 ， 


11.10 SQL 中 的 索引 定义 


SQL 标准 并 未 为 数据 库 用 户 或 管理 员 提 供 任 何在 数据 库 系统 中 控制 创建 和 维护 何 种 索引 的 方法 
由 于 索引 是 元 余 的 数据 结构 ， 因 此 索引 对 保证 正确 性 来 说 并 不 是 必需 的 。 但 是 ， 索 引 对 事务 的 高 效 处 
理 十 分 重要 ， 既 包括 更 新 事务 又 包括 查询 。 索 引 对 完整 性 约束 的 有 效 实 施 也 很 重要 。 

原则 上 ， 数 据 库 系统 可 以 自动 决定 创建 何 种 索引 。 但 是 ， 由 于 索引 的 空间 代价 和 索引 对 更 新 操作 
的 影响 ， 在 维护 何 种 索引 上 自动 地 做 出 正确 选择 并 不 容易 。 因 此 ， 大 多 数 SQL 实现 允许 程序 员 通过 数 
据 定义 语言 的 命令 对 索引 的 创建 和 删除 进行 控制 。 

下 面 我 们 举例 说 明 这 些 命令 的 语法 。 尽 管 我 们 给 出 的 语法 被 很 多 数据 库 系 统 使 用 和 支持 ， 但 它 并 
不 是 SQL 标准 的 一 部 分 。SQL 标准 不 支持 物理 数据 模式 的 控制 ， 它 将 自身 约束 在 逻辑 数据 模式 层面 。 

528 我 们 使 用 create index 命令 创建 索引 ， 它 的 形式 为 
create index <index-name > on <relation-name > ( < attribute-list > ) 

attribute-list 是 构成 索引 搜索 码 的 关系 属性 列表 。 

为 了 在 关系 instructor 上 定义 以 dept_name 为 搜索 码 的 名 为 dept_index 的 索引 ， 我 们 写作 

create index dept_index on instructor( dept_name ) 
如 果 我 们 想 要 声明 该 搜索 码 是 一 个 候选 码 ， 就 在 索引 定义 中 加 入 属性 unique。 于 是 ， 命 令 
create unique index dept_index On instructor( dept_name ) 

声明 了 dept_name 是 instructor 的 一 个 候选 码 ( 这 个 有 可 能 不 是 在 我 们 的 大 学 数据 库 中 真正 想 要 的 ) 。 如 
果 当 我 们 输入 create unique index 命令 时 dept_name 不 是 候选 码 ， 系 统 就 会 显示 错误 消息 ， 并 且 索 引 创 
建 失败 。 如 果 创 建 该 索引 成 功 ， 接 下 来 任何 违反 码 声明 的 元 组 插入 企图 都 将 失败 。 注 意 ， 如 果 数 据 库 
系统 支持 SQL 标准 的 unique 声明 ， 那 么 这 里 的 unique 特性 就 是 多 余 的 。 

很 多 数据 库 系 统 也 提供 一 种 方法 来 详细 说 明 要 使 用 的 索引 类 型 (如 B' 树 或 散 列 )。 有 些 数据 库 系 
统 也 允许 一 个 关系 上 的 某 个 索引 声明 是 聚集 的 ; 这 样 系统 就 以 聚集 索引 的 搜索 码 顺序 来 存储 这 个 关系 。 

为 索引 指定 的 索引 名 在 删除 索引 时 是 需要 的 。drop index 命令 采用 的 形式 是 : 


drop index < index-name > 


11.11 总 结 
© 许多 查询 只 涉及 文件 中 很 少 一 部 分 记录 。 为 了 减少 查找 这 些 记 录 的 开销 ， 我 们 可 以 为 存储 数据 库 的 
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文件 创建 索引 。 

。 索引 顺序 文件 是 数据 库 系统 中 最 古老 的 索引 模式 之 一 。 为 了 允许 按 搜索 码 顺序 快速 检索 记录 ， 记 录 
按 顺序 存储 ， 而 无 序 记 录 链 接 在 一 起 。 为 了 允许 快速 的 随机 访问 ,使 用 了 索引 结构 。 

。 可 以 使 用 的 索引 类 型 有 两 种 : 稠密 索引 和 稀 玻 索引 。 笛 密 索引 对 每 个 搜索 码 值 都 有 索引 项 ， 而 稀疏 [529 
索引 只 对 某 些 搜索 码 值 包含 索引 项 。 

。 如 果 搜 索 码 的 排序 序列 和 关系 的 排序 序列 相 匹配 ， 则 该 搜索 码 上 的 索引 称 为 聚集 索引 ， 其 他 的 索引 
称 为 非 聚 集 索 引 或 辅助 索引 。 辅 助 索 引 可 以 提高 不 以 聚集 索引 的 搜索 码 作为 搜索 码 的 查询 的 性 能 。 
_ 但是， 辅助 索引 增加 了 修改 数据 库 的 开销 。 

。 索引 顺序 文件 组 织 的 主要 缺陷 是 随 着 文件 的 增 大 ， 性 能 会 下 降 。 为 了 克服 这 个 缺陷 ， 可 以 使 用 BY 树 
索引 。 

。 B 树 索 引 采 用 平衡 树 的 形式 ， 即 从 树 根 到 树叶 的 所 有 路 径 长 度 相等 。B ` 树 的 高 度 与 以 关系 中 的 记录 
数 NN 为 底 的 对 数 成 正比 ， 其 中 每 个 非 叶 结 点 存储 N 个 指针 ，N 值 通常 约 为 50 ~ 100。 因 此 ，B sith 
其 他 的 平衡 二 又 树 ( 如 AVL 树 ) 要 矮 很 多 ， 故 定位 记录 所 需 的 磁盘 访问 次 数 也 较 少 。 

。 B 树 上 的 查询 是 直接 而 且 高 效 的 。 然 而 ， 插 人 和 删除 要 更 复杂 一 些 ， 但 是 仍然 很 有 效 。 在 B' 树 中 ， 
查询 、 插 入 和 删除 所 需 操 作 数 与 以 关系 中 的 记录 数 N 为 底 的 对 数 成 正比 ， 其 中 每 个 非 叶 结 点 存储 N 
个 指针 。 

。 可 以 用 了 B 树 去 索引 包含 记录 的 文件 ， 也 可 以 用 它 组 织 文件 中 的 记录 。 

。B 树 索引 和 B MRAM. 树 的 主要 优点 在 于 它 去 除了 搜索 码 值 存储 中 的 宛 余 。 主 要 缺点 在 于 整 
体 的 复杂 性 以 及 结 点 大 小 给 定时 减 小 了 扇 出 。 在 实际 应 用 中 ,系统 设计 者 几乎 无 一 例外 地 倾向 于 使 
H Bo 树 索引 。 

。 顺序 文件 组 织 需 要 一 个 索引 结构 来 定位 数据 。 相 比 之 下 ， 基 于 散 列 的 文件 组 织 允 许 我 们 通过 计算 所 
需 记 录 搜 索 码 值 上 的 一 个 函数 直接 找 出 一 个 数据 项 的 地 址 。 由 于 设计 时 我 们 不 能 精确 知道 哪些 搜索 
码 值 将 存储 在 文件 中 ， 因 此 一 个 好 的 散 列 函数 应 该 能 均匀 且 随 机 地 把 搜索 码 值 分 散 到 各 个 桶 中 ， 

。 静态 散 列 所 用 散 列 函数 的 桶 地 址 集合 是 固定 的 。 这 样 的 散 列 函 数 不 容 易 适应 数据 库 随 时 间 的 显著 增 
长 。 有 几 种 允许 修改 散 列 函数 的 动态 散 列 技术 。 可 扩充 散 列 是 其 中 之 一 ， 它 可 以 在 数据 库 增 长 或 缩 
减 时 通过 分 裂 或 合并 桶 来 应 付 数据 库 大 小 的 变化 。 530 

© 也 可 以 用 散 列 技术 创建 辅助 索引 : 这 样 的 索引 称 为 散 列 索引 。 为 使 记 法 简便 ， 假 定 散 列 文件 组 织 中 

用 于 散 列 的 搜索 码 上 有 一 个 隐 式 的 散 列 索 引 。 

像 B 树 和 散 列 索引 这 样 的 有 序 索 引 可 以 用 作 涉 及 单个 属性 且 基 于 相等 条 件 的 选择 操作 。 当 一 个 选择 

条 件 中 涉及 多 个 属性 时 ， 可 以 取 多 个 索引 中 检索 到 的 记录 标识 符 的 交 。 

。 对 于 索引 属性 只 有 少数 几 个 不 同 值 的 情况 ， 位 图 索引 提供 了 一 种 非常 紧凑 的 表达 方式 。 位 图 索引 的 
交 操 作 相当 得 快 ， 使 得 它 成 为 一 种 支持 多 属性 上 的 查询 的 理想 方式 。 





术语 回顾 
© 访问 类 型 。 MARRS 。 自 底 向 上 Baye 
。 访问 时 间 。 多 级 索引 。 B 树 索 引 
。 插入 时 间 。 顺序 扫描 。 静态 散 列 
。 删除 时 间 。B 树 索引 。 散 列 文件 组 织 
。 空间 开销 。 叶 结 点 。 散 列 索引 
。 顺序 索引 e 非 叶 结 点 ° fii 
。 聚集 索引 。 平衡 树 © 散 列 函数 
。 RII 。 范围 查询 o 桶 溢出 
。 非 聚集 索引 。 结 点 分 裂 © ie 
。 辅助 索引 ° 结 点 合并 ° 闭 地 址 
。 索引 顺序 文件 。 不 唯一 搜索 码 。 动态 散 列 
。 索引 记录 /项 © B’ 树 文件 组 织 。 可 扩充 散 列 
。 稠密 索引 。 批量 加 载 。 多 码 访问 
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。 多 码 索引 
。 位 图 索引 
。 位 图 操作 
口交 
O F 
o 补 码 
口 存在 位 图 
实践 习题 
11.1 索引 加 速 了 查询 处 理 ， 但 是 在 作为 潜在 的 搜索 码 的 每 一 个 属性 上 或 者 每 一 个 属性 组 上 创建 索引 ， 通 常 
并 不 是 一 个 很 好 的 方法 ， 请 解释 为 什么 。 
11.2 在 一 个 关系 的 不 同 搜索 码 上 建立 两 个 主 索引 一 般 来 说 是 否 可 能 ? 解释 你 的 答案 。 
11.3 ”用 下 面 的 关键 码 值 集合 建立 一 个 B' 树 
(B73 
假设 树 初始 为 空 ， 值 按 上 升 顺序 加 入 。 根 据 一 个 结 点 所 能 容纳 指针 数 的 下 列 情况 分 别 构造 B' 树 : 
a4 
b. 6 
c.8 
11.4 对 习题 11. 3 中 的 每 一 棵 B 树 ， 给 出 下 列 各 操作 后 树 的 形状 : 
a. 插入 9 
b. 搬入 10 
c. 插入 8 
d. 删除 23 
e. 删除 19 
11.5 考虑 11.4.1 节 所 述 修改 后 的 B 树 重 分 布 模式 。 树 的 预期 高 度 与 之 间 的 郴 数 关系 是 什么 ? 
11.6 假设 我 们 在 一 个 文件 上 使 用 可 扩充 散 列 ， 该 文件 所 含 记录 的 搜索 码 值 如 下 : 
2,3, 5, 7, 11, 17, 19, 23,29, 31 
如 果 散 列 函数 为 h(x) =x mod 8， 且 每 个 桶 可 以 容纳 3 条 记录 。 给 出 此 文件 的 可 扩充 散 列 结构 。 
11.7 进行 下 列 各 步 以 后 ， 习 题 11.6 中 的 可 扩充 散 列 结构 如 何 变化 ? 
a. 删除 11 
b. 删除 31 
c. 插 入 1 
d. 插入 15 
11.8 给 出 B* 树 函数 findlterator( ) 的 伪 码 ， 该 伪 码 类 似 于 函数 find( ) ， 除 了 它 返回 如 11. 3.2 节 描 述 的 迭代 
对 象 。 同 时 ， 给 出 迭代 类 的 伪 代 码 ， 包 括 和 迭代 对 象 中 的 变量 和 next( ) 方 法 。 
11.9 给 出 从 可 扩充 散 列 结构 中 删除 项 的 伪 代 码 ， 包 括 何 时 和 如 何 合并 桶 的 细节 。 不 必 关 心 减少 桶 地 址 表 的 


.11 


大 小 。 


.10 通过 与 桶 地 址 表 一 起 存储 一 个 额外 计数 ， 提 出 一 种 有 效 的 方法 来 测试 是 否 能 减少 可 扩充 散 列 桶 地 址 


表 的 大 小 。 详 细 描 述 在 桶 分 裂 、 合 并 和 删除 时 如 何 维护 这 个 计数 。( 注意 : 减少 桶 地 址 表 大 小 的 操 

作 是 一 个 代价 很 高 的 操作 ， 随 后 的 插入 可 能 导致 表 的 再 次 增长 。 因 此 最 好 尽 可 能 不 要 减少 表 的 大 小 ， 

只 有 当 索 引 项 的 数目 与 桶 地 址 表 的 大 小 相 比 较 小 时 才 这 样 做 ,) 

考虑 在 图 11-1 中 表示 的 关系 instructor。 

a. 在 属性 salary 上 构建 一 个 位 图 索引 ， 把 salary 的 值 分 成 4 个 区 间 : 小 于 50000, 50000 ~ 60000 以 
下 ，60000 ~70000 以 下 ，70000 及 其 以 上 。 

b. 考虑 一 个 查询 ， 即 在 金融 系 中 所 有 工资 为 80 000 美元 或 更 多 的 教师 。 假 设 上 述 salary 上 的 位 图 索 
引 和 dept_name 上 的 位 图 索引 可 用 概述 回答 该 查询 的 步骤 ， 并 且 给 出 为 回答 这 个 查询 而 构建 的 中 
间 和 最 终 位 图 。 


第 11 章 索引 与 散 列 303 


11.12 ”如 果 索 引 项 按照 已 排 好 的 序 插入 ，B ` 树 的 每 个 叶 结 点 的 充满 情况 如 何 ? 解释 为 什么 ? 
11.13 假设 你 有 一 个 包括 n 条 元 组 的 关系 "*， 需 要 在 上 面 建立 一 个 辅助 B 树 索 引 。 


a. 通过 一 次 插入 一 条 记录 来 建立 B' 树 索引 的 代价 是 多 少 ? 给 出 计算 公式 。 假 设 平均 每 个 页 面 存储 
条 索引 项 ， 并 且 所 有 高 于 叶 级 的 结 点 都 在 内 存 中 。 

b. 假设 一 次 随机 磁盘 访问 的 时 间 是 10 毫秒 ， 在 一 个 包含 1 000 万 条 记录 的 关系 上 建立 索引 的 代价 
是 多 少 ? 

c， 请 写 出 如 11. 4. 4 节 描 述 的 自 底 向 上 构建 B' 树 的 伪 代 码 。 你 可 以 假设 存在 一 个 可 以 有 效 排序 大 文 
件 的 函数 。 


11.14 为 什么 B 树 文件 组 织 的 叶 结 点 可 能 会 丢失 顺序 性 ? 


:23 


.24 


a 请 建议 文件 组 织 该 如 何 重新 组 织 来 恢复 顺序 性 。 

b. 对 于 一 个 相当 大 的 n， 另 一 种 重新 组 织 的 方法 是 以 n 块 为 单位 重新 分 配 叶 子 页 。 当 分 配 B' 树 的 第 一 
个 叶子 时 , n 块 单元 中 只 有 一 块 被 使 用 ， 剩 下 的 页 是 空 亲 的。 如果 有 一 页 分 裂 ， 并 且 它 的 n 块 单元 
有 空闲 页 ， 则 新 的 页 可 以 使 用 该 空间 。 如 果 n 块 单元 已 经 存 满 了 ,分 配 男 一 个 n 抉 单元 ， 并且 前 n/ 
2 叶子 页 被 放 人 第 一 个 n 块 单元 ,剩余 的 放 入 第 二 个 n 块 单元 中 。 简 单 起 见 ， 假 设 没有 删除 操作 。 
i 假设 没有 删除 操作 ， 当 第 一 个 n 块 单元 存 满 时 ,已 分 配 空间 的 充满 度 的 最 坏 情况 是 什么 ? 

ii, 有 没有 可 能 出 现 这 样 的 情况 : 分 配给 一 个 nn 结 点 块 单元 的 叶子 结 点 是 不 连贯 的 ， 也 就 是 说 有 可 
能 有 两 个 叶子 结 点 分 配 到 同一 个 n 结 点 块 中 ,但 是 在 它们 之 间 的 男 一 个 叶子 结 点 分 配 到 了 另 一 
个 不 同 的 n 结 点 块 中? 

ii 在 缓冲 区 对 于 存储 一 个 页 的 块 来 说 是 足够 的 这 一 合理 假设 下 ，B ` 树 的 页 级 扫描 在 最 坏 情况 
下 需要 多 少 次 寻 道 ? 请 把 该 数字 和 如 果 每 次 只 为 叶子 页 分 配 一 个 块 的 最 坏 情况 进行 比较 ， 

iv. 为 了 提高 空间 利用 率 而 将 值 重新 分 配给 兄弟 结 点 的 技术 如 果 与 上 述 用 于 叶子 结 点 的 分 配 策略 
结合 使 用 可 能 会 更 有 效 。 请 解释 为 什么 。 


什么 情况 下 使 用 稠密 索引 比 使 用 稀 朴 索引 更 可 取 ? 解释 你 的 答案 。 

聚集 索引 和 辅助 索引 有 何 区 别 ? 

对 习题 11.3 中 的 每 一 棵 B' 树 ,给 出 下 列 查询 中 涉及 的 步骤 : 

a. 找 出 搜索 码 值 为 11 的 记录 。 

b. 找 出 搜索 码 值 在 7 ~ 17 之 间 ( 包 括 7 和 17) 的 记录 。 

11.3.4 节 列 出 的 处 理 不 唯一 搜索 码 的 解决 方案 是 通过 为 每 个 搜索 码 添加 一 个 附加 的 属性 。 这 种 改变 

会 为 B' 树 的 高 度 带 来 什么 样 的 影响 ? 

解释 闭 地 址 和 开 地 址 的 区 别 。 讨 论 这 两 种 技术 在 数据 库 应 用 中 的 相对 优点 。 

在 散 列 文件 组 织 中 导致 桶 溢出 的 原因 是 什么 ”如 何 减 少 桶 溢出 的 发 生 ? 

为 什么 对 于 一 个 可 能 在 其 上 进行 范围 查询 的 搜索 码 而 言 散 列 结构 不 是 最 佳 选择 ? 

假设 有 一 个 关系 (A, 中 ，C) ， 带 有 一 个 搜索 码 为 (4，B ) 的 B' 树 索引 。 

a. 用 这 个 索引 查找 满足 10 < A < 50 条 件 的 记录 ， 最 坏 情况 下 的 代价 是 多 少 ? 用 获取 的 记录 数目 n, 
和 树 的 高 度 h 来 度量 。 

b. 用 这 个 索引 查找 满足 10 < A < 50 和 人 5 < B8 < 10 条 件 的 记录 ， 最 坏 情况 下 的 代价 是 多 少 ? 用 满 
足 条 件 的 记录 数目 mn 和 上 面 定 义 的 nn, 和 来 度量 。 

c 4 on, 和 nn 满足 什么 条 件 的 时 候 这 个 索引 对 于 查找 满足 10 < 4 < SOAS < B < 10 条 件 的 记录 
是 一 个 高 效 的 手段 ? 

假设 你 必须 在 大 量 的 名 字 上 建立 一 个 B 树 索引 ， 这 些 名 字 的 最 大 长 度 可 能 非常 大 (比如 40 个 字 

符 ) ， 并 且 这 些 名 字 长 度 的 平均 值 本 身 也 很 大 (比如 10 个 字符 )。 解 释 一 下 如 何 用 前 缀 压缩 来 使 内 部 

结 点 的 平均 扇 出 尽 可 能 大 。 

假设 一 个 关系 以 B 树 文件 组 织 的 形式 存储 。 假 设 辅助 索引 存储 的 记录 标识 符 是 指向 磁盘 中 记录 的 

指针 。 
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a， 如 果 一 个 文件 组 织 中 发 生 磁盘 页 分 裂 ， 会 对 辅助 索引 产生 什么 影响 ? 
b 更 新 辅助 索引 中 所 有 影响 到 的 记录 ， 代 价 是 多 少 ? 
c. 使 用 一 个 逻辑 记录 标识 符 作为 文件 组 织 的 搜索 码 如 何 能 够 解决 这 个 问题 ? 
d. 使 用 这 样 的 逻辑 记录 标识 符 会 带 来 什么 附加 的 代价 ? 

11.25 说 明 如 何 从 其 他 位 图 中 计算 出 存在 位 图 。 通 过 使 用 空 (nuwll) 值 位 图 ， 确 保 你 的 方法 能 在 有 空 值 存在 
的 情况 下 仍然 能 够 保持 其 正确 性 。 

11.26 数据 加 密 是 如 何 影响 索引 方案 的 ?” 特别 地 ， 在 试图 按 排序 顺序 存储 数据 时 ， 它 是 如 何 影 响 索 引 方 
案 的 ? 

11.27 我们 对 静态 散 列 的 描述 作 了 这 样 的 假设 : 一 段 大 型 连续 的 磁盘 块 能 够 分 配给 静态 散 列 表 。 假 设 你 只 
能 分 配 C 个 连续 磁盘 块 。 提 出 如 何 实现 可 能 远 比 C 个 磁盘 块 大 的 散 列表 。 对 磁盘 块 的 访问 仍然 能 够 

535 高 效 。 


文献 注解 


有 关 索 引 和 散 列 中 所 用 的 基本 数据 结构 的 讨论 可 在 Cormen 等 [1990 ] 中 找到 。B 树 索 引 最 先是 由 Bayer 
[1972 ] LAK Bayer 和 McCreight[ 1972 ] 引 入 的 。Comer[ 1979 ] Bayer 和 Unterauer [ 1977] 以 及 Knuth[ 1973 | 对 
B * 树 进行 了 讨论 。 第 15 章 的 文献 注解 提供 了 有 关 人 允许 对 B 树 的 并 发 访问 和 更 新 的 研究 工作 的 参考 。GCray 
和 Reuter[ 1993 ] 在 B 树 实现 的 问题 上 提供 了 很 好 的 描述 。 

人 们 已 经 提出 了 几 种 可 选 的 树 和 类 树 搜索 结构 。try 是 一 种 其 结构 基于 码 中 的 “数字 ”( 例 如 ， 字 典 中 的 
thumb 索引 对 每 个 字母 有 一 个 索引 项 ) 的 树 。 这 种 树 可 能 不 像 B’ 树 那样 是 平衡 的 。try 在 Ramesh 等 [1989 | 、 
Orenstein[ 1982] 、Litwin [ 1981 ] 以 及 Fredkin[ 1960 ] 中 进行 了 讨论 。 相 关 工 作 包括 Lomet[ 1981 ] 中 的 数字 
B 树 。 

Knuth [ 1973 ] 对 大 量 不 同 的 散 列 技术 做 了 分 析 。 动 态 散 列 模式 有 几 种 。 可 扩充 散 列 由 Fagin 等 [1979 | 5| 
入 。 线 性 散 列 由 Litwin[ 1978] 和 Litwin[ 1980] 引 入 ; Rathi 等 [1990 ] 给 出 了 线性 散 列 与 可 扩充 散 列 的 性 能 比 
较 ; Ramakrishna 和 Larson[ 1989 ] 给 出 的 另 一 种 模式 以 少数 数据 库 更 新 开销 很 大 为 代价 ， 使 检索 只 须 访 问 一 
次 磁盘 。 分 段 散 列 是 对 多 属性 散 列 的 扩充 ， 见 Rivest[ 1976] 、Burkhard[ 1976 ] 和 Burkhard[ 1979 ] 。 

Vitter[ 2001 ] 对 外 存 的 数据 结构 和 算法 给 出 了 广泛 的 综述 。 

位 图 索引 和 它 派生 的 位 片 索引 (bit-sliced index) 以 及 投影 索引 ( projection index) 由 O'Neil 和 Quass[ 1997 | 
描述 。 它 们 在 平台 AS400 上 的 IBM Model 204 文件 管理 器 中 首次 提出 。 它 们 对 某 些 类 型 的 查询 提供 了 很 大 的 
加 速 比 ， 在 现在 的 大 多 数 数 据 库 系 统 中 都 有 实现 。 近 来 ， 最 近 的 有 关 位 图 索引 的 研究 ， 可 参考 Wu 和 

Buchmann[ 1998 ] 、Chan 和 Ioannidis[ 1998 ] | Chan 和 Ioannidis[ 1999 ] 以 及 Johnson[ 1999 ] 。 
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Database System Concepts, 6E 


查询 处 理 


查询 处 理 ( query processing) 是 指 从 数据 库 中 提取 数据 时 涉及 的 一 系列 活动 。 这 些 活动 包括 : 将 用 
高 层 数 据 库 语 言 表示 的 查询 语句 翻译 为 能 在 文件 系统 的 物理 层 上 使 用 的 表达 式 ， 为 优化 查询 而 进行 各 
种 转换 ， 以 及 查询 的 实际 执行 。 


12.1 概述 
查询 处 理 步 又 如 图 12-1 所 示 。 基 本 步骤 包括 ; 
1. 语法 分 析 与 翻译 。 
2. 优化 。 
3. 执行 。 
MR 
EZE — 关系 代数 表达 式 


A < w > 执行 计划 
| 
mle 
数据 
图 12-1 查询 处 理 的 步 台 


查询 处 理 开 始 之 前 ， 系 统 必须 将 查询 语句 翻译 成 可 使 用 的 形式 。 如 SQL 这 样 的 语言 适合 人 使 用 ， 
然而 并 不 适合 查询 的 系统 内 部 表示 。 一 种 更 有 用 的 内 部 表示 是 建立 在 扩展 的 关系 代数 基础 上 的 。 

因此 ， 查 询 处 理 中 系统 首先 必须 把 查询 语句 翻译 成 系统 的 内 部 表示 形式 。 该 翻译 过 程 类 似 于 编译 
器 的 语法 分 析 器 所 做 的 工作 。 在 产生 查询 语句 的 系统 内 部 表示 形式 的 过 程 中 ， 语 法 分 析 器 检查 用 户 查 
询 的 语法 ， 验 证 查询 中 出 现 的 关系 名 是 数据 库 中 的 关系 名 等 。 系 统 构造 该 查询 语句 的 语法 分 析 树 表 示 ， 
然后 将 之 翻译 成 关系 代数 表达 式 。 如 果 查 询 是 用 视图 形式 表示 的 ， 翻 译 阶段 还 要 用 定义 该 视图 的 关系 
代数 表达 式 来 替换 所 有 对 该 视图 的 引用 。 “大 多 数 有 关 编 译 器 的 教科 书 中 都 有 讨论 语法 分 析 的 内 容 。 ”[537 

对 于 给 出 的 一 个 查询 ， 一 般 都 会 有 多 种 计算 结果 的 方法 。 例 如 ， 我 们 已 知 在 SQL 中 ,一 个 查询 能 
够 用 几 种 不 同 的 方式 表示 。 每 个 SQL 查询 可 以 用 其 中 的 一 种 方式 翻译 成 关系 代数 表达 式 。 另 外 ,查询 
的 关系 代数 表达 式 形式 仅仅 部 分 地 指定 了 如 何 执行 查询 ; 通常 有 许多 方式 来 计算 关系 代数 表达 式 。 作 
为 例子 ， 考 虑 查询 : 











有 关 数 据 
的 统计 值 





O ”对 于 物化 视图 ， 定 义 视 图 的 表达 式 已 经 执行 并 存储 了 结果 。 故 此 ， 可 以 使 用 存储 的 关系 ， 而 不 需要 用 定义 视图 
的 表达 式 蔡 换 视图 。 递 归 视 图 的 处 理 与 此 不 同 ， 它 通过 不 动 点 过 程 来 处 理 ， 如 5. 4 节 和 附录 B. 3.6 所 述 。 
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select salary 
from instructor 
where salary < 75000; 


该 查询 语句 可 翻译 成 下 面 两 个 关系 代数 表达 式 中 的 任意 一 个 : 

© Gy < 75000 (Tatar) ( instructor ) ) 

© TL (Gaory < 75000 ( instructor ) ) 

进一步 地 ， 我 们 可 以 用 其 中 一 种 不 同 的 算法 来 执行 每 个 关系 代数 运算 。 例 如 ， 要 实现 前 面 的 选择 ， 
可 以 通过 扫描 instructor 的 每 个 元 组 找 出 满足 salary < 75 000 条 件 的 元 组 。 如 果 存 在 属性 salary 上 的 B* 
树 索 引 ， 我 们 可 以 改 用 它 来 定位 元 组 。 

要 全 面 说 明 如 何 执行 一 个 查询 ， 我 们 不 仅 要 提供 关系 代数 表达 式 ， T salary 
还 要 对 表达 式 加 上 注释 来 说 明 如 何 执 行 每 个 操作 。 注 释 可 以 声明 某 个 具 
体操 作 所 采用 的 算法 ,或 将 要 使 用 的 一 个 或 多 个 特定 的 索引 。 加 了 “如 
何 执行 "注释 的 关系 代数 运算 称 为 计算 原 语 ( evaluation primitive), HF 
执行 一 个 查询 的 原 语 操作 序列 称 为 查询 执行 计划 ( query-execution plan) “salary <75 000; FARR! 1 
或 查询 计算 计划 ( query-evaluation plan) 。 图 12-2 表示 对 所 举 查询 例子 的 
一 个 执行 计划 。 图 12-2 中 为 选择 运算 指定 了 一 个 具体 的 索引 (图 12-2 
中 用 “索引 1 表示) 。 查 询 执行 引擎 ( query-execution engine) 接受 一 个 查 instructor 
询 执行 计划 ， 执 行 该 计划 并 把 结果 返回 给 查询 。 图 12-2 ”一 个 查询 执行 计划 

给 定 查询 的 不 同 执行 计划 会 有 不 同 的 代价 。 我 们 不 能 寄 希 望 于 用 户 
写 出 具有 最 高 效率 执行 计划 的 查询 语句 。 相 反 ， 构 造 具有 最 小 查询 执行 代价 的 查询 执行 计划 应 当 是 系 
统 的 责任 。 这 项 工作 叫 作 查询 优化 。 第 13 章 将 详细 介绍 查询 优化 。 

一 旦 选 定 了 查询 计划 ， 就 用 该 计划 来 执行 查询 并 输出 查询 结果 。 

以 上 对 查询 语句 的 处 理 步骤 的 描述 是 示意 性 的 ; 并 不 是 所 有 数据 库 系统 都 完全 遵从 这 些 步 又 。 举 
个 例子 来 说 ， 许 多 数据 库 系 统 并 不 用 关系 代数 表达 式 来 表示 查询 ， 而 是 采用 基于 给 定 SQL 查询 结构 的 
带 注释 的 语法 分 析 树 来 表示 。 然 而 ， 我 们 此 处 所 讲述 的 概念 构成 了 数据 库 中 查询 处 理 的 基础 。 

为 了 优化 查询 ， 查 询 优 化 器 必须 知道 每 个 操作 的 代价 。 虽 然 精 确 计算 代价 是 很 难 的 ， 因 为 这 依赖 
于 许多 参数 ( 例如 该 操作 实际 能 用 的 内 存 ) ， 但 对 每 个 操作 的 执行 代价 得 出 一 个 粗略 的 估计 是 可 能 的 . 

这 一 章 我 们 将 学 习 在 一 个 查询 计划 中 如 何 执行 单个 的 操作 ， 以 及 如 何 估计 它们 的 代价 。 第 13 章 将 
回 到 查询 优化 的 讨论 。12. 2 节 概 述 如 何 度 量 某 个 查询 的 执行 代价 。12.3 ~ 12.6 节 介 绍 单个 关系 代数 操作 
的 执行 。 某 些 操作 可 以 组 合成 流水 线 (pipeline) ， 其 中 的 每 个 操作 都 同时 在 输入 元 组 上 开始 执行 ， 即 使 某 
个 操作 的 输入 元 组 由 男 一 个 操作 产生 。12.7 节 将 讨论 在 一 个 查询 执行 计划 中 如 何 协 调 多 个 操作 的 执行 ， 
特别 是 如 何 将 操作 组 织 成 流水 线 ， 以 避免 将 中 间 结 果 立 即 写 入 磁盘 。 


12.2 查询 代价 的 度量 


数据 库 中 可 以 存在 多 种 可 能 的 查询 计算 计划 ， 重 要 的 是 要 能 够 根据 它们 的 (估计 ) 代 价 来 对 不 同 的 
计划 做 比较 ， 并 选择 最 佳 方案 。 为 此 ， 我们 必须 估计 个 别 操作 的 成 本 ， 并 结合 它们 得 到 了 一 个 查询 计 
算计 划 的 开销 。 因 此 ， 后 面 的 章节 会 研究 每 一 个 操作 的 执行 算法 ， 也 会 略 述 如 何 估计 操作 的 代价 。 

查询 处 理 的 代价 可 以 通过 该 查询 对 各 种 资源 的 使 用 情况 进行 度量 ， 这 些 资源 包括 磁盘 存 取 、 执 
行 一 个 查询 所 用 CPU 时 间 ， 还 有 在 并 行 / 分 布 式 数据 库 系 统 中 的 通信 代价 (我 们 将 在 第 18 ~ 19 章 中 
讨论 )。 

然而 在 大 型 数据 库 系统 中 ， 在 磁盘 上 存 取 数据 的 代价 通常 是 最 主要 的 代价 ， 因 为 磁盘 存 取 比 内 存 
操作 速度 慢 。 此 外 ，CPU 速度 的 提升 比 磁盘 速度 的 提升 要 快 得 多 ， 这 样 很 可 能 花费 在 磁盘 存 取 上 的 时 
间 仍 将 决定 着 整个 查询 执行 的 时 间 。 一 个 任务 消耗 的 CPU 时 间 比 较 难 以 估计 ， 因 为 它 取 决 于 执行 代码 
的 低层 详细 情况 。 尽 管 实际 应 用 中 查询 优化 器 的 确 把 CPU 时 间 考 虑 在 内 ,但 为 了 简化 起 见 我 们 将 忽略 
CPU 时 间 ， 而 仅仅 用 磁盘 存 取 代价 来 度量 查询 执行 计划 的 代价 。 

我 们 用 传送 磁盘 块 数 以 及 搜索 磁盘 次 数 来 度量 查询 计算 计划 的 代价 。 假 设 磁 盘子 系统 传输 一 个 块 
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的 数据 平均 消耗 i; 秒 ， 磁 盘 块 平均 访问 时 间 ( 磁盘 搜索 时 间 加 上 旋转 延迟 ) H ts 秒 ， 则 一 次 传输 "个 块 
以 及 执行 S 次 磁盘 搜索 的 操作 将 消耗 b* ti +S ts Bo tAlt, 的 值 必须 针对 所 使 用 的 磁盘 系统 进行 计 
算 ， 而 当今 高 端 磁 盘 的 典型 数值 通常 是 1, =4 毫秒 和 t, =0. 1 毫秒 (假定 磁盘 块 的 大 小 是 4KB， 传 输 率 
为 40MB/ 秒 = ) 。 

通过 把 读 磁盘 块 与 写 磁盘 块 区 分 开 ， 我 们 可 以 进一步 细 化 磁盘 存 取代 价 的 估算 ， 因 为 写 磁 盘 块 的 
代价 通常 是 读 磁盘 块 的 两 倍 ( 这 是 由 于 磁盘 系统 在 写 完 扇 区 后 还 会 重新 读 取 该 扇 区 以 验证 写 操作 已 经 
成 功 ) 。 简 化 起 见 我 们 忽略 这 个 细节 ， 并 把 它 留 给 读者 对 各 种 操作 做 出 更 精确 的 代价 估算 。 

我 们 给 出 的 代价 估算 没有 包括 将 操作 的 最 终结 果 写 回 磁盘 的 代价 ， 当 需要 时 再 单独 考虑 。 我 们 所 
考虑 的 所 有 的 算法 代价 依赖 于 主 存 中 缓冲 区 的 大 小 。 最 好 的 情形 是 所 有 的 数据 可 以 读 入 到 缓冲 区 中 ， 
不 必 再 访问 磁盘 。 最 坏 的 情形 是 假定 缓冲 区 只 能 容纳 数目 不 多 的 数据 块 一 一 大 约 每 个 关系 一 块 。 涉 及 
代价 估算 时 ， 我 们 通常 假定 是 最 坏 的 情形 。 

另外 ， 尽 管 我 们 假定 开始 时 数据 必须 从 磁盘 中 读 取 出 来 ， 但 是 很 可 能 我 们 访问 的 磁盘 块 已 经 在 内 
存 缓冲 区 中 ， 为 简化 起 见 ， 对 这 种 情况 我 们 也 忽略 了 。 由 此 ， 执 行 一 个 查询 计划 过 程 中 的 实际 磁盘 存 
取代 价 可 能 会 比 估算 的 代价 要 小 。 

假设 计算 机 中 没有 其 他 活动 在 进行 ， 那 么 一 个 查询 计算 计划 的 响应 时 间 ( response time) ( 即 执行 计 
划 所 需 的 挂钟 时 间 ) 就 是 所 有 的 这 些 开销 ， 并 可 以 作为 计划 的 代价 的 度量 。 遗 憾 的 是 ， 没 有 实际 地 执行 
计划 ， 就 很 难 估算 计划 的 响应 时 间 ， 原 因 如 下 : 

1. 当 查 询 开 始 执行 ， 响 应 时 间 依 赖 于 缓冲 区 中 的 内 容 ; 在 对 查询 进行 优化 时 ， 该 信息 是 无 法 获取 
的 ， 而 且 即 便 可 以 获取 也 很 难 用 于 计算 。 

2. 在 具有 多 张 磁盘 的 系统 中 ， 响 应 时 间 依 赖 于 访问 如 何 分 布 在 各 磁盘 上 ， 没 有 对 分 布 在 磁盘 中 的 
数据 的 详细 了 解 这 是 很 难 估 计 的 。 

有 趣 的 是 ， 以 额外 的 资源 消耗 为 代价 ， 计 划 可 能 获得 更 好 的 响应 时 间 。 例 如 ， 假 如 一 个 系统 有 多 
张 磁盘 ， 一 个 计划 A 需要 额外 的 磁盘 读 取 ， 但 它 并 行 地 跨 多 张 磁盘 执行 读 ， 它 可 能 比 男 一 个 计划 B 完 
RER, Sie B 有 较 少 的 磁盘 读 取 ， 但 它 从 同一 张 磁盘 读 。 然 而 ， 如 果 一 个 查询 的 许多 实例 同时 
使 用 计划 A 来 运行 ， 整 体 响应 时 间 可 能 比如 果 相 同 的 这 些 实例 使 用 计划 B 来 执行 要 长 ， 这 是 因为 计划 
A 带 来 更 多 的 磁盘 负载 。 

因此 ， 优 化 器 通常 努力 去 尽 可 能 降低 查询 计划 总 的 资源 消耗 (resource consumption) ， 而 不 是 尽 可 能 
缩 低 响应 时 间 。 我 们 用 于 估计 总 的 磁盘 访问 时 间 ( 包 括 寻 道 和 数据 传输 ) 的 模型 ， 就 是 一 个 这 样 的 基于 
资源 消耗 的 查询 代价 模型 的 实例 。 


12.3 选择 运算 


在 查询 处 理 中 ,文件 扫描 (file scan) 是 存 取 数 据 最 低级 的 操作 。 文 件 扫描 是 用 于 定位 、 检 索 满足 选 
择 条 件 的 记录 的 搜索 算法 。 在 关系 系统 中 ， 若 关系 保存 在 单个 专用 的 文件 中 ， 采 用 文件 扫描 就 可 以 读 
取 整 个 关系 。 
12.3.1 使 用 文件 扫描 和 索引 的 选择 
考虑 所 有 元 组 都 保存 在 单个 文件 的 关系 上 的 一 个 选择 运算 。 执 行 一 个 选择 最 简单 的 方式 如 下 。 
。 Al( 线性 搜索 ) : 在 线性 搜索 中 ， 系 统 扫描 每 一 个 文件 块 ， 对 所 有 记录 都 进行 测试 ， 看 它们 是 
否 满 足 选择 条 件 。 开 始 时 需 做 一 次 磁盘 搜索 来 访问 文件 的 第 一 个 块 。 如 果 文 件 的 块 不 是 顺序 存 
放 的 ， 也 许 需要 更 多 的 磁盘 搜索 ， 不 过 为 简化 起 见 我 们 忽略 这 种 情况 。 
虽然 线性 搜索 比 其 他 实现 选择 操作 的 算法 速度 要 慢 ， 但 它 可 用 于 任何 文件 ， 不 用 管 该 文件 
的 顺序 、 索 引 的 可 用 性 ， 以 及 选择 操作 的 种 类 。 我 们 将 要 研究 的 其 他 算法 并 不 能 应 用 到 所 有 情 
况 下 ， 但 在 可 用 情况 下 它们 一 般 都 比 线性 搜索 要 快 。 








名 “一 些 数 据 库 系 统 会 进行 磁盘 寻 道 和 磁盘 块 传输 的 测试 来 估算 平均 寻 道 代价 和 磁盘 块 传输 代价 ， 并 把 这 个 步 又 作 
为 安装 过 程 的 一 部 分 。 
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线性 扫描 以 及 其 他 选择 算法 的 代价 估计 如 图 12-3 所 示 。 在 图 12-3 中 ,我 们 使 用 六 表示 BS 
树 的 高 度 。 现 实 中 的 优化 器 通常 假设 树 的 根 在 内 存 的 缓冲 区 中 ， 因 为 它 被 频繁 地 访问 。 有 的 优 
化 器 甚至 假设 树 的 所 有 非 叶 级 别 都 是 保存 在 内 存 中 的 ， 因 为 它们 被 相对 频繁 地 访问 ， 并 且 BS 
树 结 点 中 通常 只 有 小 于 1% 的 是 非 叶 结 点 。 代 价 公式 可 以 做 适当 的 修改 。 

索引 结构 称 为 存 取 路 径 ( access path) ， 因 为 它们 提供 了 定位 和 存 取 数 据 的 一 条 路 径 。 在 第 
11 章 中 ， 我 们 曾 指出 按 与 物理 顺序 一 致 的 顺序 读 取 文 件 记录 的 效率 较 高 。 回 想 一 下 ， 主 索引 
(也 称 为 聚集 索引 ) 允许 文件 记录 可 以 按 与 其 在 文件 中 的 物理 顺序 一 致 的 顺序 进行 读 取 。 不 是 主 
索引 的 索引 称 为 辅助 索引 。 

使 用 索引 的 搜索 算法 称 为 索引 扫描 (index scan) 。 我 们 用 选择 谓词 来 指导 我 们 在 查询 处 理 
中 选择 使 用 哪个 索引 。 使 用 索引 的 搜索 算法 有 以 下 几 种 。 
A2 ( 主 索引 ， 码 属性 等 值 比较 ) : 对 于 具有 主 索引 的 码 属 性 的 等 值 比较 ， 我 们 可 以 使 用 索引 检 
索 到 满足 相应 等 值 条 件 的 唯一 一 条 记录 。 代 价 估计 如 图 12-3 所 示 。 
A3 ( 主 索 引 ， 非 码 属性 等 值 比较 ) : 当选 择 条 件 是 基于 非 码 属性 4 的 等 值 比较 时 ， 我们 可 以 利 
用 主 索引 检索 到 多 条 记录 。 与 前 一 种 情况 唯一 不 同 的 是 ， 这 种 情况 下 需要 取 多 条 记录 。 然 而 ， 
因为 文件 是 依据 搜索 码 进 行 排序 的 ， 所 以 这 些 记 录 在 文件 中 必然 是 连续 存储 的 。 代 价 估 计 如 
图 12-3 所 示 。 
A4 ( 辅助 索引 ， 等 值 比较 ) : 使 用 等 值 条 件 的 选择 可 以 使 用 辅助 索引 。 若 等 值 条 件 是 码 属 性 上 
的 ， 则 该 策略 可 检索 到 唯一 一 条 记录 ; 若 索 引 字 段 是 非 码 属性 ， 则 可 能 检索 到 多 条 记录 。 

在 第 一 种 情况 下 ， 只 检索 到 一 条 记录 。 这 种 情况 下 的 时 间 代 价 与 主 索引 的 情况 一 样 ( 参 
看 A2)。 

在 第 二 种 情况 下 ， 每 条 记录 可 能 存在 于 不 同 的 磁盘 块 中 ， 可 能 导致 每 检索 到 一 条 记录 需要 
一 次 VO 操作 ， 以 及 一 次 VO 操作 需要 一 次 搜索 和 一 次 磁盘 块 传输 。 如 果 每 条 记录 位 于 不 同 磁 





































































盘 块 并 且 所 取 块 是 任意 排列 的 ， 在 这 种 情形 下 的 最 坏 情 形 时 间 代 价 是 (六 +n) * (t, +t), n 
所 取 的 记录 数目 。 如 果 要 检索 大 量 记 录 ， 最 坏 情形 开销 甚至 会 比 线性 搜索 更 差 。 
如 果 内 存 缓冲 区 较 大 ， 那 么 包含 该 记录 的 块 可 能 已 经 在 缓冲 区 中 。 我 们 可 以 将 包含 该 记录 
的 块 已 经 位 于 缓冲 区 中 的 可 能 性 考虑 进去 ， 来 构建 选择 操作 的 平均 ( average ) 或 期 望 (expected) 
代价 的 估算 。 对 于 大 的 缓冲 区 ， 这 样 的 估计 会 比 最 坏 情形 的 估计 小 很 多 。 
算 法 F 销 E E 
销 | 
Al | ”线性 搜索 ntb #1, 一 次 初始 搜索 加 上 6 个 块 传输 ，b, 表示 在 文件 中 的 块 数量 
a | 线性 搜索 ， 码 属性 | 平均 情形 因为 最 多 一 条 记录 满足 条 件 ， 所 以 只 要 找到 所 需 的 记录 ， 扫 描 | 
等 值 比较 t+ (b,/2) #t, | 就 可 以 终止 。 在 最 坏 的 情形 下 ， 仍 需要 5 个 块 传输 
wo | BWER, 码 属 | +) (其 中 入 表示 索引 的 高 度 ) 索引 查找 穿越 树 的 高 度 ， 再 加 上 | 
性 等 值 比较 (+ 次 1/0 来 取 记录 ， 每 个 这 样 的 7/0O 操作 需要 一 次 搜索 和 一 次 块 传输 
a | 树 的 每 层 一 次 搜索 ， 第 一 个 块 一 次 搜索 。b 是 包含 具有 指定 搜 
了 a 索 码 记录 的 块 数 。 假 定 这 些 块 是 顺序 存储 ( 因为 是 主 索引 ) 的 叶子 
r [SOFARERE MNAR 
B* 树 销 助 索引 ， 码 | +1) » j 
| e a) | 六 和 情形 和 主 家 下 相似 
(其 中 是 所 取 记 录 数 .) 索 引 查 找 的 代价 和 AB 相似 ， 但 是 每 条 
+ h +n)* 
A4 cena ae 记录 可 能 在 不 同 的 块 上 ， 这 需要 每 条 记录 一 次 搜索 ， 如 果 n 值 比 
A 较 大 ， 代 价 可 能 会 非常 高 
h; * (tp +t,) 十 
as | B* 树 主 索引 ,比较 | 和 AS ， 非 码 属性 等 值 比较 情形 一 样 
as | B 树 辅助 索引 ，| tm) * 和 44， 非 码 属性 等 值 比较 情形 一 样 
比较 (tr +1,) 








图 12-3 ”选择 算法 代价 估计 
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在 某 些 算法 中 ,包括 A2， 因 为 记录 存储 于 树 的 叶子 级 结 点 ， 所 以 使 用 B 树 文件 组 织 可 以 节省 一 
次 存 取 。 

正如 11.4.2 节 所 描述 的 ， 当 记录 以 B' 树 文件 组 织 或 其 他 可 能 需要 把 记录 重新 配置 的 文件 组 织 
方式 存储 时 ， 辅 助 索引 通常 不 存储 指向 记录 的 指针 “”。 反 之 ， 辅 助 索 引 存储 的 是 B' 树 文件 组 织 中 作为 
码 值 的 属性 值 。 通 过 这 种 辅助 索引 存 取 一 条 记录 的 代价 将 更 大 : 首先 必须 搜索 辅助 索引 以 找到 主 索引 
的 搜索 码 值 ， 然 后 查找 主 索引 来 找到 记录 。 如 果 使 用 这 样 的 索引 ， 对 辅助 索引 的 代价 公式 的 描述 需要 
做 适当 的 调整 。 
12. 3.2 涉及 比较 的 选择 

考虑 形 如 oia (r) 的 选择 。 我 们 可 以 用 线性 搜索 ， 或 按 以 下 方法 之 一 使 用 索引 来 实现 选择 运算 . 

© A5 ( 主 索引 ， 比 较 ) : 在 选择 条 件 是 比较 时 ， 可 使 用 顺序 主 索引 (如 B 树 主 索引 )。 形 如 4 >” 
BR ASv 的 比较 条 件 ， 可 按 以 下 方式 使 用 4 上 的 主 索 引 来 指导 元 组 的 检索 。 对 于 4 三 v， 我们 在 
索引 中 寻找 值 z， 以 检索 出 满足 条 件 4 =v 的 首 条 记录 。 从 该 元 组 开始 到 文件 末尾 进行 一 次 文件 
扫描 就 返回 所 有 满足 该 条 件 的 元 组 。 对 于 4 >v， 文件 扫描 从 第 一 条 满足 4 >v 的 记录 开始 。 这 
种 情况 下 的 代价 估算 跟 43 的 情况 一 样 。 

对 于 形 如 A <v RAS 的 比较 式 ， 没 有 必要 查找 索引 。 对 于 4 <vw， 只 是 简单 地 从 文件 头 开 
始 进行 文件 扫描 ， 直 到 遇 上 (但 不 包含 ) 首 条 满足 4 =v 的 元 组 为 止 。4 <v 的 情形 类 似 ， 只 是 扫 
描 直 到 遇 上 (但 不 包含 ) 首 条 满足 4 >v 的 元 组 为 止 。 这 两 种 情况 下 ， 索 引 都 没有 什么 用 处 。 

。 A6 (辅助 索引 ， 比 较 ) : 可 以 使 用 有 序 辅 助 索引 指导 涉及 < 、<、 三 、> 的 比较 条 件 的 检索 。 
对 于 “ <” 及 “<” 情形 ， 扫 描 最 底层 索引 块 是 从 最 小 值 开 始 直 到 vw 为止; 对 于 ”> "及 ”= "情形 
扫描 是 从 v 开始 直到 最 大 值 为 止 。 

辅助 索引 提供 了 指向 记录 的 指针 ， 但 我 们 需要 使 用 指针 以 取得 实际 的 记录 。 由 于 连续 的 记 
录 可 能 存在 于 不 同 的 磁盘 块 中 ， 因 此 每 取 一 条 记录 可 能 需要 一 次 IO 操作 。 和 前 面 一 样 ， 一 次 
VO 操作 需要 一 次 磁盘 搜索 和 一 次 块 传输 。 如 果 检 索 得 到 的 记录 数 很 大 的 话 ， 使 用 辅助 索引 的 
代价 甚至 比 线性 搜索 还 要 大 。 因 此 辅助 索引 应 该 仅 在 选择 得 到 的 记录 很 少时 使 用 。 
12. 3.3 复杂 选择 的 实现 
到 此 为 止 ， 我 们 只 考虑 了 形 如 4 op B 的 简单 选择 条 件 ， 其 中 op 是 等 值 或 比较 运算 。 现 在 我 们 来 看 
看 更 复杂 的 选择 谓词 。 
e SM: ARH (conjunctive selection) 形式 如 下 , 
Ge AeA--Ae (7) 
© 析 取 : 析 取 选择 (disjunctive selection) 形 式 如 下 ， 
Gra vev-.ve.(T) 
所 有 满足 单个 简单 条 件 9; 的 记录 的 并 集 满足 该 析 取 条 件 。 

eo MR: 选择 操作 o_, (7) 的 结果 就 是 关系 7 中 对 条 件 9 取 值 为 假 的 元 组 的 集合 。 如 果 没 有 空 值 的 
话 ， 该 结果 就 是 那些 不 在 oo(r) 中 的 元 组 的 集合 。 

我 们 可 以 用 下 列 算 法 之 一 来 实现 涉及 多 个 简单 条 件 的 合 取 或 析 取 的 选择 操作 。 

e A7 (利用 一 个 索引 的 合 取 选 择 ) : 首先 我 们 判断 是 否 存在 某 个 简单 条 件 中 的 某 个 属性 上 的 一 条 存 
取 路 径 。 若 存在 ， 则 可 以 用 选择 算法 A2 ~ A6 中 的 一 个 来 检索 满足 该 条 件 的 记录 。 然 后 在 内 存 组 
冲 区 中 ， 我 们 通过 测试 每 条 检索 到 的 记录 是 否 满足 其 余 的 简单 条 件 ， 来 最 终 完成 这 个 操作 。 

为 减少 代价 ， 我 们 选择 某 个 0, 及 Al ~ A6 算法 之 一 ,它们 的 组 合 可 使 cs (7) 的 代价 达到 最 
小 。 算法 A7 的 代价 由 所 选 算法 的 代价 给 出 。 
。 A8 (使 用 组 合 索 引 的 合 取 选择 ) : 某 些 合 取 选 择 可 能 可 以 使 用 合适 的 组 合 索引 (composite index) 





O 回想 一 下 ， 如 果 用 B * 树 文件 组 织 存储 关系 ， 则 当 叶 结 点 分 裂 、 合 并 或 记录 重新 配置 的 时 候 记录 可 能 在 磁盘 块 之 
间 移 动 。 
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( 即 在 多 个 属性 上 建立 的 一 个 索引 ) 。 如 果 选 择 指定 的 是 两 个 或 多 个 属性 上 的 等 值 条 件 ， 并 且 在 

这 些 属性 字段 的 组 合 上 又 存在 组 合 索引 ， 则 可 以 直接 搜索 索引 。 索 引 的 类 型 将 决定 使 用 A2、 

A3 、A4 算法 中 的 哪 一 个 。 
© AO 通过 标识 符 的 交 实现 合 取 选 择 ) : 另 一 种 可 选 的 实现 合 取 选 择 的 方法 是 利用 记录 指针 或 记 
录 标 识 符 。 该 算法 要 求 各 个 条 件 所 涉及 的 字段 上 有 带 记录 指针 的 索引 。 该 算法 对 每 个 索引 进行 
扫描 ， 获 取 那 些 指向 满足 单个 条 件 的 记录 的 指针 。 所 有 检索 到 的 指针 的 交集 就 是 那些 满足 合 取 
条 件 的 指针 的 集合 。 然 后 算法 利用 该 指针 集合 获取 实际 的 记录 。 如 果 并 非 各 个 条 件 上 均 存在 索 
引 ， 则 该 算法 要 用 剩余 条 件 对 所 检索 到 的 记录 进行 测试 。 

算法 A9 的 代价 是 扫描 各 个 单独 索引 代价 的 总 和 加 上 获取 检索 到 的 指针 列表 的 交集 中 的 记 
录 的 代价 。 对 指针 列表 进行 排序 并 按照 排序 顺序 检索 记录 能 够 减少 该 算法 的 代价 。 因 此 ，(1) 
应 把 指向 一 个 磁盘 块 中 所 有 记录 的 指针 归并 到 一 起 ， 这 样 只 需 通过 一 次 1/0 操作 就 可 以 获取 到 
在 该 磁盘 块 中 选择 的 所 有 记录 ; 并 且 (2) 磁 盘 块 的 读 取 也 要 按 存储 次 序 执行 ， 这 样 磁盘 臂 的 移 
动 最 少 。12. 4 节 描述 排序 算法 。 
A10( 通过 标识 符 的 并 实现 析 取 选择 ) : 如 果 在 析 取 选 择 中 所 有 条 件 上 均 有 相应 的 存 取 路 径 存 
在 ， 则 逐个 扫描 索引 获取 满足 单个 条 件 的 元 组 指针 。 检 索 到 的 所 有 指针 的 并 集 就 是 指向 满足 析 
取 条 件 的 所 有 元 组 的 指针 集 。 然 后 利用 这 些 指针 检索 实际 的 记录 。 

然而 ， 即 使 只 有 其 中 的 一 个 条 件 不 存在 存 取 路 径 ， 我 们 也 不 得 不 对 这 个 关系 进行 一 次 线性 
扫描 以 找 出 那些 满足 该 条 件 的 元 组 。 因 此 ， 只 要 析 取 式 中 有 一 个 这 样 的 条 件 ， 最 有 效 的 存 取 方 
法 就 是 线性 扫描 ， 扫 描 的 同时 对 每 个 元 组 进行 析 取 条 件 测试 。 
具有 取 反 条 件 的 选择 的 实现 留 作 练 习 ( 实践 习题 12. 6) 。 


12.4 排序 


数据 排序 在 数据 库 系 统 中 有 重要 的 作用 ， 其 原因 有 两 个 : 第 一 个 原因 是 SQL 查询 会 指明 对 结果 进行 
排序 ; 第 二 个 原因 是 当 输 入 的 关系 已 排序 时 ， 关 系 运算 中 的 一 些 运算 (如 连接 运算 ) 能 够 得 到 高 效 实现 ， 
这 个 原因 对 查询 处 理 而 言 也 是 同等 重要 。 因 此 ， 本 节 先 讨论 排序 ， 然 后 在 12. 5 节 中 讨论 连接 运算 。 

通过 在 排序 码 上 建立 索引 ， 然 后 使 用 该 索引 按 序 读 取 关 系 ， 可 以 完成 对 关系 的 排序 。 然 而 ， 这 一 
过 程 仅仅 在 逻辑 上 通过 索引 对 关系 排序 ， 而 没有 在 物理 上 排序 。 因 此 ， 顺 序 读 取 元 组 可 能 导致 每 读 一 
个 元 组 就 要 访问 一 次 磁盘 (磁盘 搜索 加 上 磁盘 块 传输 ) 。 由 于 记录 数目 可 能 比 磁盘 块 的 数目 大 很 多 ， 因 
此 这 样 做 的 代价 会 很 大 。 出 于 以 上 原因 ， 有 时 需要 在 物理 上 对 记录 排序 。 

人 们 已 对 排序 的 有 关 问 题 进行 了 广泛 的 研究 ， 这 些 研究 既 有 针对 内 存 中 能 够 完全 容纳 的 关系 的 ， 
又 有 针对 不 能 完全 被 内 存 容纳 的 关系 的 。 在 第 一 种 情况 下 ， 可 以 利用 标准 的 排序 技术 ( 如 快速 排序 ) 。 
这 里 讨论 如 何 处 理 第 二 种 情况 。 
12. 4.1 外 部 排序 归并 算法 

对 不 能 全 部 放 在 内 存 中 的 关系 的 排序 称 为 外 排序 (external sorting) 。 外 排序 中 最 常用 的 技术 是 外 部 
HE FF AF (external sort-merge) 算 法 。 下 面 讲述 该 算法 。 令 M 表示 内 存 缓冲 区 中 可 以 用 于 排序 的 块 数 ， 
即 内 存 的 缓冲 区 能 容纳 的 磁盘 块 数 。 

1. 第 一 阶段 ， 建 立 多 个 排 好 序 的 归并 段 (run) 。 每 个 归并 段 都 是 排序 过 的 ， 但 仅 包 含 关系 中 的 部 
分 记录 。 


E= 

repeat 
读 入 关系 的 M 块 数据 或 剩 下 的 不 足 MRE; 
在 内 存 中 对 关系 的 这 一 部 分 进行 排序 ; 
将 排 好 序 的 数据 写 到 归并 段 文件 RR P: 
i=it+l; 


until 到 达 关 系 末 尾 
2. 第 二 阶段 ， 对 归并 有 段 进行 归并 。 暂 时 假定 归并 有 段 的 总 数 NN 小 于 MW， 这 样 我 们 可 以 为 每 个 归并 段 
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文件 分 配 一 个 块 ， 此 外 剩 下 的 空间 还 应 能 容纳 存放 结果 的 一 个 块 。 归 并 阶段 的 工作 流程 如 下 : 
为 NN 个 归并 有 段 文件 R 各 分 配 一 个 内 存 缓冲 块 ， 并 分 别 读 入 一 个 数据 块 ; 
repeat 
在 所 有 缓冲 块 中 按 序 挑选 第 一 个 元 组 ; 
把 该 元 组 作为 输出 写 出 ， 并 将 其 从 缓冲 块 中 删除 ; 
if 任何 一 个 归并 段 文 件 R; 的 缓冲 块 为 空 并 且 没 有 到 达 R, 末尾 
then #AR, 的 下 一 块 到 相应 的 缓冲 块 
until 所 有 的 缓冲 块 均 空 

归并 阶段 的 输出 是 已 排序 的 关系 。 输 出 文件 也 被 缓冲 以 减少 写 磁盘 次 数 。 上 面 的 归并 算法 是 对 标 
准 内 存 排序 归并 算法 中 的 二 路 归并 算法 的 推广 ; 由 于 该 算法 对 N 个 归并 段 进 行 归并 ， 因 此 它 称 为 N E 
归并 (N-way merge), 

一 般 而 言 ， 若 关系 比 内 存 大 得 多 ， 则 在 第 一 阶段 可 能 产生 M 个 甚至 更 多 的 归并 段 ， 并 且 在 归并 阶 
段 为 每 个 归并 段 分 配 一 个 块 是 不 可 能 的 。 在 这 种 情况 下 ， 归 并 操作 需要 分 多 趟 进行 。 由 于 内 存 足 以 容 
SYM - 1 个 缓冲 块 ， 因 此 每 趟 归并 可 以 用 MN -1 个 归并 段 作 为 输入 。 

最 初 那 趟 归并 过 程 如 下 : 头 M-=-1 个 归并 段 如 前 第 2 点 所 述 进行 归并 得 到 一 个 归并 段 作 为 下 一 趟 
的 输入 。 接 下 来 的 W - 1 个 归并 段 类 似 地 进行 归并 ， 如 此 下 去 ， 直 到 所 有 的 初始 归并 段 都 处 理 过 为 止 。 
此 时 ， 归 并 有 段 的 数目 减少 到 原来 的 1A(M - 1) ， 如 果 归 并 后 的 归并 段 数目 仍 大 于 等 于 M, MA Ei 
归并 创建 的 归并 有 段 作为 输入 进行 下 一 趟 归并 。 每 一 赵 归 并 有 段 的 数目 均 减少 为 原来 的 1/(M - 1) 。 如 有 
需要 归并 过 程 将 不 断 重复 ， 直 到 归并 有 段 数目 小 于 M， 此 时 作 最 后 一 趟 归并 ， 得 到 排序 的 输出 结果 。 

图 12-4 显示 了 对 一 个 示例 关系 进行 外 部 归并 排序 的 过 程 。 为 了 方便 说 明 ， 我 们 假定 每 块 只 能 容纳 1 
个 元 组 (f, = 1)， 同 时 假定 内 存 最 多 只 能 提供 3 个 块 。 在 归并 阶段 ， 两 个 块 用 于 输入 ， 另 一 块 用 于 输出 -。 














归并 段 归并 段 
创建 = 


图 12-4 使 用 归并 排序 的 外 排序 
12. 4.2 ”外 部 排序 归并 的 代价 分 析 
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下 面 我 们 计算 外 部 归并 排序 的 磁盘 存 取 代价 。 令 b, 代表 包含 关系 7 中 记录 的 磁盘 块 数 。 在 第 一 阶 [548] 


段 要 读 入 关系 的 每 一 数据 块 并 写 出 ， 共 需 2b, 次 磁盘 块 传输 。 初 始 归并 段 数 为 | b,AM 1|。 由 于 每 一 趟 归 
并 会 使 归并 有 段 数目 减少 为 原来 的 1/(M - 1) ， 因 此 总 共 所 需 归 并 趟 数 为 | logy_, (6b,AM) | 。 对 于 每 一 趟 
归并 ， 关 系 的 每 一 数据 块 读 写 各 一 次 ， 其 中 有 两 趟 例外 。 首 先 ， 最 后 一 趟 可 以 只 产生 排序 结果 而 不 写 
人 和 磁盘。 其 次 ， 可 能 存在 在 某 一 趟 中 既 没有 读 和 人 又 没有 写 出 的 归并 段 一 一 例如 ， 某 一 趟 有 MW 个 归并 段 
WAF, Hp M -1 个 被 读 和 人 并 归并 ， 而 另 一 个 归并 段 在 该 趟 归并 中 却 未 被 访问 。 忽 略 后 一 种 特殊 情 
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况 ( 相 对 少 地 ) 所 能 节省 的 磁盘 存 取 ， 关 系 外 排序 的 磁盘 块 传输 的 总 数 为 : 
b,(2[ logy_1(b,/M) ] +1) 

把 该 公式 用 到 图 12-4 所 示 的 例子 上 ， 我 们 算出 共 需 12 * (4 +1) =60 次 块 传输 ， 这 一 结果 可 以 在 
图 12-4 中 得 以 验证 。 注 意 ， 上 面 的 值 不 包括 将 最 后 结果 写 到 外 存 的 开销 。 

此 外 ， 我 们 还 要 加 上 磁盘 搜索 的 代价 。 在 产生 归并 段 阶段 需要 为 读 取 每 个 归并 段 的 数据 作 磁 盘 搜 
索 ， 也 要 为 写 回 归并 自作 磁盘 搜索 。 在 归并 阶段 ， 如 果 每 次 从 一 个 归并 有 段 读 取 b, 块 数据 (也 就 是 说 ， 
把 b, 个 缓冲 块 分 配给 每 个 归并 段 ) ， 则 每 一 趟 归并 需要 作 [「 b,/ b, | 次 磁盘 搜索 以 读 取 数 据 ”“。 尽 管 输出 
结果 是 顺序 写 回 磁盘 的 ， 如 果 它 和 输入 归并 段 在 一 个 磁盘 块 上 ， 磁 盘 头 在 写 回 连续 的 块 的 间隔 中 可 能 
已 经 移 到 别处 。 这 样 我 们 需要 为 每 趟 归并 加 上 总 共 2[ b, b, | 次 磁盘 搜索 ， 除 了 最 后 一 趟 以 外 ( 因为 我 
们 假定 最 终结 果 不 写 回 磁 盘 ) 。 假 设 输出 阶段 也 分 配 了 bb, 个 块 ， 每 一 趟 可 以 归并 L M/b, | -1 个 归并 段 ， 
则 磁盘 搜索 的 总 次 数 为 : 

2b, /M] +[b,/ b, 1(20 log ws,)-1(6,/M) 1-1) 

如 果 我 们 把 分 配给 每 个 归并 有 段 的 缓冲 块 数 b, 设 为 1， 把 该 公式 用 到 图 12-4 所 示 的 例子 上 ， 我们 算 

出 共 需 8+12* (2*2-1) =44 次 磁盘 搜索 。 


12.5 连接 运算 


这 一 节 将 探讨 计算 关系 连接 的 几 种 算法 ， 并 分 析 各 种 算法 的 代价 。 

我 们 用 等 值 连接 (equi-join ) 这 个 词 来 表示 形 如 ra-se s 的 连接 ， 其 中 4、B 分 别 为 关系 7 与 s 的 属 
性 或 属性 组 。 

我 们 使 用 下 面 的 表达 式 作为 例子 : 

student [xl takes 

我 们 就 用 在 第 2 章 用 过 的 同样 的 关系 模式 ， 假 定 关于 这 两 个 关系 有 如 下 信息 。 

© student 的 记录 数 : ms = 5000 

© student 的 磁盘 块 数 : b=100 

© takes 的 记录 数 : mw =10 000 

© takes 的 磁盘 块 数 : bare, =400 
12.5.1 ERM 

图 12-5 给 出 了 一 个 计算 两 个 关系 r+ A s HOR r Xo sy MAI, h TAAA EE HM MREN for 
循环 构成 ， 因 此 它 称 为 瞬 套 循环 连接 ( nested-loop join) 。 由 于 算法 中 有 关 7 的 循环 包含 有 关 ; 的 循环 ， 因 
此 关系 了 称 为 连接 的 外 层 关系 (outer relation), T s 称 为 连接 的 内 层 关 系 (inner relation ) 。 该 算法 使 用 了 
te t, 这 个 记号 ， 其 中 1, Me, RRT, s WIH, t, t, 表示 将 t, 和 1, 元 组 的 属性 值 拼接 而 成 的 一 个 元 组 。 

与 选择 算法 中 使 用 的 线性 文件 扫描 算法 类 似 ， 艇 套 循 环 连接 算法 不 要 求 有 索引 ， 并 且 不 管 连接 条 
件 是 什么 ， 该 算法 均 可 使 用 。 对 此 算法 进行 扩展 来 计算 自然 连接 也 是 简单 明了 的 ， 因 为 自然 连接 可 表 
示 为 一 个 9 连接 然后 做 去 掉 重 复 属性 的 投影 运算 。 唯 一 需要 的 修改 是 在 将 t,- t, 放 人 结果 集 之 前 删除 
t,* t, 的 重复 属性 。 





for each 元 组 上 in r do begin 
for each 元 组 t,in s do begin 
测试 元 组 对 (1,, t, ) 是否 满足 连接 条 件 9 
如 果 满 足 ， 把 t,t, 加 到 结果 中 
end 
end 











图 12-5 REHE 





o ”更 精确 一 点 ， 由 于 归并 段 都 是 分 开 读 取 的 ， 在 读 到 归并 段 未 尾 的 时 候 可 能 会 读 到 小 于 久 个 块 ， 因 此 我 们 也 许 对 
每 个 段 都 需要 一 次 额外 的 磁盘 搜索 。 简 单 起 见 我 们 省 略 了 这 个 细节 。 
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嵌 套 循环 连接 算法 的 代价 很 大 ， 因 为 该 算法 逐个 检查 两 个 关系 中 的 每 一 对 元 组 。 考 虑 嵌 套 循环 连 
接 算法 的 代价 ， 所 需 考 虑 的 元 组 对 数目 是 n, n, XE n, 指 r 中 的 元 组 数 ,，n, Hs 中 的 元 组 数 。 对 于 
关系 7 中 的 每 一 条 记录 ， 我 们 必须 对 ; 作 一 次 完整 的 扫描 。 在 最 坏 的 情况 下 ,缓冲 区 只 能 容纳 每 个 关系 
的 一 个 数据 块 ， 这 时 共 需 n, * b, +b, 次 块 传输 ， 这 里 5b, Ab, 分 别 代表 包含 关系 > 和 s 中 元 组 的 磁盘 块 
数 。 对 每 次 扫描 内 层 关系 :我们 只 需 一 次 磁盘 搜索 ， 因 为 它 的 数据 是 顺序 读 取 的 ， 读 取 关 系 7 一 共 需 要 
b, 次 磁盘 搜索 ， 这 样 得 到 总 的 磁盘 搜索 次 数 为 n, + b,。 在 最 好 的 情况 下 ， 内 存 有 足够 空间 同时 容纳 两 
个 关系 ， 此 时 每 一 数据 块 只 需 读 一 次 ; 从 而 只 需 b, + b, 次 块 传输 ， 加 上 两 次 磁盘 搜索 。 

如 果 其 中 一 个 关系 能 完全 放 在 内 存 中 ,那么 把 这 个 关系 作为 内 层 关系 来 处 理 是 有 好 处 的 。 因 为 这 
样 内 层 循 环 关系 只 需要 读 一 次 。 所 以 ， 如 果 s 小 到 可 以 装 人 内 存 ， 那 么 我 们 的 策略 只 需 久 + b, 次 块 传 
输 和 两 次 磁盘 搜索 一 一 其 代价 与 两 个 关系 能 同时 装 和 内存 的 情形 相同 。 

现在 考虑 student 与 takes 的 自然 连接 。 暂 时 假设 两 个 关系 中 没有 任何 索引 可 以 利用 ,并且 也 不 想 创 
建 任何 索引 。 我 们 可 以 用 艇 套 循 环 来 计算 连接 ， 假 定 连 接 中 studet 是 外 层 关系 ，takes 是 内 层 关 系 。 这 
时 我 们 需要 检查 5000 * 10000 = 50 * 10° 对 元 组 。 在 最 坏 的 情况 下 ， 块 传输 次 数 是 5000 * 400 + 100 = 
2 000 100， 加 上 5000 + 100 =5100 次 磁盘 搜索 ; 然而 在 最 好 的 情况 下 ， 两 个 关系 只 需要 读 一 次 ， 然 
后 进行 计算 ， 其 代价 最 多 只 要 100 +400 = 500 次 块 传输 和 两 次 磁盘 搜索 一 一 大 大 优 于 最 坏 的 情况 。 如 
果 我 们 把 takes 作为 外 层 关系 ， 把 student 作为 内 层 关 系 ， 此 策略 在 最 坏 情况 下 需要 10000 * 100 + 400 = 
1 000 400 次 块 传输 加 上 10 400 次 磁盘 搜索 。 块 传输 的 数目 显著 地 减少 了 ， 不 过 磁盘 搜索 的 次 数 增加 了 ， 
不 过 假定 i; =4 毫秒 ，t; = 0. 1 毫秒 ， 总 的 时 间 代 价 还 是 减少 了 。 
12.5.2 KREEME 

因 缓 冲 区 太 小 而 内 存 不 能 完全 容纳 任何 一 个 关系 时 ， 如 果 我 们 以 块 的 方式 而 不 是 以 元 组 的 方式 处 
理 关 系 ， 仍 然 可 以 减少 不 少 块 读 写 次 数 。 图 12-6 所 示 过 程 是 块 嵌 套 循环 连接 (block nested-loop join) , 
它 是 峙 套 循环 连接 的 一 个 变种 ， 其 中 内 层 关系 的 每 一 块 与 外 层 关 系 的 每 一 块 形 成 一 对 。 在 每 个 块 对 中 ， 
一 个 块 中 的 每 一 个 元 组 与 男 一 块 的 每 一 元 组 形成 元 组 对 ， 得 到 全 体 元 组 对 。 和 前 面 一 样 ， 把 满足 连接 
条 件 的 所 有 元 组 对 添加 到 结果 中 。 





for each 块 B, of r do begin 
for each 块 B,of s do begin 
for each 元 组 1 in B, do begin 
for each 元 组 ¢, in B, do begin 
测试 元 组 对 (t,，t, ) 是 否 满足 连接 条 件 
WRH, We, -t 加 到 结果 中 
end 
end 
end 
end 











图 12-6 RREME 
块 嵌 套 循环 连接 与 基本 的 肉 套 循环 连接 算法 代价 的 主要 差别 在 于 : 在 最 坏 的 情况 下 ， 对 于 外 层 关 
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系 中 的 每 一 个 块 ， 内 层 关系 ， 的 每 一 块 只 须 读 一 次 ， 而 不 是 对 外 层 关系 的 每 一 个 元 组 读 一 次 。 因 此 ，[551 


在 最 坏 的 情况 下 ， 共 需 b, * b, +b, 次 块 传输 ， 这 里 b, M b, 分 别 代 表 含 有 关系 + 和 s 中 元 组 的 磁盘 块 数 。 
对 内 层 关系 的 每 一 次 扫描 需要 一 次 磁盘 搜索 ， 对 外 层 关系 的 扫描 需要 每 块 一 次 磁盘 搜索 ， 这 样 总 共 是 
2b, 次 磁盘 搜索 。 显 然 ， 如 果 内 存 不 能 容纳 任何 一 个 关系 ， 则 使 用 较 小 的 关系 作为 外 层 关系 更 有 效 。 在 
最 好 的 情况 下 ， 内 存 能 够 容纳 内 层 关系 ， 需 要 b, +b, 次 块 传输 加 上 两 次 磁盘 搜索 (在 这 种 情况 下 我 们 把 
较 小 的 关系 作为 内 层 关系 ) 。 

回 到 计算 student X takes 的 例子 ， 考 虑 用 块 嵌 套 循环 连 接 算法 来 计算 。 在 最 坏 的 情况 下 ， 我 们 必须 
为 student 的 每 一 个 块 读 取 takes 的 所 有 块 ， 因 此 ， 在 最 坏 的 情况 下 ， 共 需 100 * 400 + 100 =40 100 次 块 
传输 加 上 2 * 100 = 200 次 磁盘 搜索 。 这 个 代价 与 采用 基本 艇 套 循 环 连接 算法 所 需 的 5000 * 400 + 100 = 
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2 000 100 次 块 传输 和 5100 次 磁盘 搜索 相 比 ， 是 一 个 显著 的 改进 。 而 最 好 的 情况 下 的 代价 和 原来 一 
样 一 一 100 +400 =500 次 块 传输 和 两 次 磁盘 搜索 。 
嵌 套 循环 与 块 檬 套 循 环 算法 的 性 能 可 以 进一步 地 改进 : 
。 如 果 自 然 连 接 或 等 值 连接 中 的 连接 属性 是 内 层 关系 的 码 ， 则 对 每 个 外 层 关系 元 组 ， 内 层 循环 一 
且 找 到 了 首 条 匹配 元 组 就 可 以 终止 。 

。 在 块 财 套 循 环 连 接 算法 中 ， 外 层 关系 可 以 不 用 磁盘 块 作为 分 块 的 单位 ， 而 以 内 存 中 最 多 能 容纳 
的 大 小 为 单位 ， 当 然 同 时 要 留 出 足够 的 缓冲 空间 给 内 层 关 系 及 输出 结果 使 用 。 也 就 是 说 ， 如 果 
AFA MN 块 ， 我 们 一 次 读 取 外 层 关系 中 的 M -2 块 ， 当 我 们 读 取 到 内 层 关系 中 的 每 一 块 时 ， 我 
们 把 它 与 外 层 关系 中 的 所 有 M -2 块 做 连接 。 这 种 改进 使 内 层 关系 的 扫描 次 数 从 b, 次 减少 到 
[b,/( M -2) | 次 ,这 里 的 b, 是 外 层 关系 所 占 的 块 数 。 这 样 全 部 代价 为 [7A(CM -2) * b, +b, 1 次 
块 传输 和 2[b,/( M -2) | 次 磁盘 搜索 。 

对 内 层 循环 轮流 做 向 前 、 向 后 的 扫描 。 该 扫描 方法 对 磁盘 块 读 写 请 求 进行 排序 ， 使 得 上 一 次 扫 
描 时 留 在 缓冲 区 中 的 数据 可 以 重用 ， 从 而 减少 磁盘 存 取 次 数 。 
。 若 内 层 循环 的 连接 属性 上 有 索引 ， 可 以 用 更 有 效 的 索引 查找 法 替代 文件 扫描 法 。 这 一 改进 在 
12. 5. 3 节 讲 述 。 
12.5.3 RREME 

ERENER 见 图 12-5 ) 中 ， 若 在 内 层 循 环 的 连接 属性 上 有 索引 ， 则 可 以 用 索引 查找 替代 文件 
扫描 。 对 于 外 层 关 系 r 的 每 一 个 元 组 t,， 可 以 利用 索引 查找 中 和 元 组 i, 满足 连接 条 件 的 元 组 。 

上 述 连接 方法 称 为 索引 散 套 循环 连接 (indexed nested-loop join)， 它 可 以 在 已 有 索引 或 者 为 了 计算 
该 连接 而 专门 建立 临时 索引 的 情况 下 使 用 。 

在 关系 中 查找 和 给 定 元 组 i, 满足 连接 条 件 的 元 组 本 质 上 是 在 * 上 做 选择 运算 。 例 如 ， 考 虑 
student takes, {RIX student 中 有 一 个 ID 为 “00128” 的 元 组 ， 那 么 takes 中 相应 的 元 组 就 是 那些 满足 选择 
条 件 ID =“00128” 的 元 组 。 

索引 髓 套 循环 连接 的 代价 可 以 如 下 计算 。 对 于 外 层 关系 7 的 每 一 个 元 组 ， 需 要 在 关系 : 的 索引 上 进 
行 查找 ， 检 索 相 关 元 组 。 在 最 坏 的 情况 下 ,缓冲 区 只 能 容纳 关系 7 的 一 块 和 索引 的 一 块 。 此 时 ， 读 取 
KA rmb, 次 WO 操作， 这 里 的 b, 指 包 含 关系 + 中 记录 的 磁盘 块 数 。 每 次 VO 操作 需要 一 次 磁盘 搜索 
和 一 次 块 传输 ， 因 为 磁盘 头 可 能 在 IO 操作 的 间隔 中 移动 过 。 对 于 关系 + 中 的 每 个 元 组 ， 在 ; 上 进行 索 
引 查 找 。 这 样 ， 连 接 的 时 间 代 价 可 用 b(t, +t.) +n, *c 来 计算 , Hin, 是 关系 r 中 的 记录 数 ,c 是 使 用 
连接 条 件 对 关系 * 进行 单 次 选择 操作 的 代价 。 在 12.3 节 中 我 们 已 经 知道 对 单个 选择 算法 (可 能 使 用 索 
引 ) 如 何 估计 代价 ， 这 可 以 使 我 们 估算 出 ec 的 值 。 

代价 计算 公式 表明 ， 如 果 两 个 关系 r-、s 上 均 有 索引 时 ， 一 般 把 元 组 较 少 的 关系 作 外 层 关系 时 效果 
较 好 。 

例如 ， 考 虑 student takes HRI REVI, HP student 作 外 层 关系 。 假 设 关系 takes 在 连接 属 
性 1D 上 有 B' 树 主 索 引 ， 平均 每 个 索引 结 点 包含 20 个 索引 项 。 由 于 takes 有 10 000 个 元 组 ， 因 此 树 高 
度 为 4， 存 取 实 际 数据 还 需要 一 次 磁盘 访问 。 又 由 于 nsw 是 5000， 因 此 总 代价 为 100 + 5000 * 5 = 
25 100 次 磁盘 访问 ， 其 中 每 次 访问 都 需要 一 次 磁盘 搜索 和 一 次 磁盘 块 传输 。 反之， 正如 我 们 此 前 看 到 
的 , 一 次 块 嵌 套 循环 连接 操作 需要 40 100 次 块 传输 和 200 次 磁盘 搜索 。 尽 管 块 传输 的 次 数 减 少 了 ， 但 
磁盘 搜索 的 代价 增加 了 。 这 样 总 的 代价 还 是 增加 了 ， 因 为 一 次 磁盘 搜索 的 代价 比 一 次 块 传输 要 高 。 然 
而 ， 如 果 我 们 在 student 关系 上 有 一 个 选择 操作 使 得 行 数 显著 地 减少 ， 索 引 艇 套 循 环 连接 可 以 比 块 嵌 套 
循环 连接 快 得 多 。 

12.5.4 归并 连接 

归并 连接 ( merge join) 算 法 (又 称 排序 -归并 - 连接 (sort-merge join ) 算 法 ) 可 用 于 计算 自然 连接 和 等 值 连 
接 。 令 r(R) 、*(S) 表 示 要 执行 自然 连接 运算 的 关系 ， 并 令 ROS 表示 两 个 关系 的 公共 属性 。 假 定 两 个 关系 均 
按 属性 RMS 排序 ， 那 么 它们 的 连接 可 用 与 归并 排序 算法 中 的 归并 阶段 非常 类 似 的 处 理 过 程 来 计算 . 
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12.5.4.1 归并 算法 
归并 连接 算法 如 图 12-7 所 示 。 在 这 个 算法 中 ，Join4ttrs 表示 RAS 中 的 属性 ; t, Mi, 表示 具有 相同 [553] 
JoinAttrs 属性 值 的 两 个 元 组 t. t, 的 拼接 ， 接 着 通过 投影 去 除 其 中 重复 的 属性 。 归 并 连接 算法 为 每 个 关 
系 分 配 一 个 指针 。 这 些 指 针 一 开始 指向 相应 关系 的 第 一 个 元 组 。 随 着 该 算法 的 进行 ， 指 针 遍 历 整 个 关 
系 。 一 个 关系 中 在 连接 属性 上 具有 相同 值 的 一 组 元 组 被 读 人 到 5S, 中 。 图 12-7 所 示 算 法 要 求 每 个 5, 元 
组 集合 都 能 装 和 人 主 存 ; 本 节 稍 后 将 讲述 如 何 扩展 该 算法 以 避免 这 一 限制 。 接 下 来 ， 另 一 关系 中 相应 的 
元 组 (如 果 有 的 话 ) 被 读 和 人 ， 并 在 读 和 的 同时 加 以 处 理 。 





pr := 的 第 一 个 元 组 的 地 址 ; 
ps := s 的 第 一 个 元 组 的 地 址 ; 
while ( ps # null and pr # null ) do 


t,:= ps 所 指向 的 元 组 ; 

S= | tts 

ik ps 指向 关系 ;的 下 一 个 元 组 ; 

done := false; 

while ( not done and ps # null ) do 


begin 
t= ps 所 指向 的 元 组 ; 
if ( 2’ [ JoinAttrs | =t,[ JoinAttrs| ) 
then begin 
S,:= SU tl; 
让 ps 指向 关系 :的 下 一 个 元 组 ; 
end 
else done := true; 


end 
上 := pr 所 指向 的 元 组 ; 
while ( pr # null and t,[ JoinAttrs| < ¢,{ JoinAtrs] ) do 
begin 
ik pr 指向 关系 上 的 下 一 个 元 组 ; 
4 := pr 所 指向 的 元 组 ; 
end 
while ( pr # null and 1 [ JoinAtirs| =1,| JoinAtirs| ) do 


for each 1, in S, do 


将 i, Mi, 加 入 结果 中 ; 
end 
让 pr 指向 关系 7 的 下 一 个 元 组 ; 
t,:= pr 所 指向 的 元 组 ; 


end 





end 








图 12-7 归并 连接 [554 | 


图 12-8 给 出 了 在 连接 属性 cl 上 排序 的 两 个 关系 。 利 用 图 12-7 中 的 两 个 关系 具体 地 走 一 遍 归 并 连 
al a3 





接 算 法 是 很 有 启发 性 的 。 
图 12-7 所 示 的 归并 连接 算法 要 求 主 存 能 容纳 在 连接 属 
性 上 有 相同 值 的 元 组 集 So BERR s 很 大 ， 这 个 要 求 也 
通常 可 以 满足 。 如 果 对 于 某 些 连接 属性 值 ，$, 大 于 可 用 内 
存 ， 则 可 以 在 集合 S, 与 关系 r 中 具有 相同 连接 属性 值 的 元 
组 之 间 采 用 块 典 套 循环 连接 。 
如 果 任 意 一 个 输入 关系 或 * 未 按 连 接 属 性 排序 ， 那 么 
可 以 先 对 它们 进行 排序 ， 然 后 再 使 用 归并 连接 算法 。 归 并 连 
接 算法 也 可 以 很 容易 地 从 自然 连接 拓展 到 更 一 般 的 等 值 r 


连接 。 图 12-8 在 归并 连接 中 使 用 的 已 排序 关系 
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12.5.4.2 代价 分 析 

一 旦 关系 已 排序 ， 在 连接 属性 上 有 相同 值 的 元 组 是 连续 存放 的 。 所 以 已 排序 的 每 一 元 组 只 须 读 一 
次 ， 因 而 每 一 块 也 只 须 读 一 次 。 由 于 两 个 文件 都 只 须 读 一 遍 ( 假 设 所 有 集合 S, 均 可 装 入 内 存 )， 因 此 可 
知 归并 连接 算法 是 高 效 的 。 所 需 磁 盘 块 传输 次 数 是 两 个 文件 块 数 之 和 : b, +b, o 

假设 为 每 个 关系 分 配 久 个 缓冲 块 ， 那么 所 需 磁 盘 搜 索 次 数 为 [6b,/ b, | +1 0,76, | 。 由 于 磁盘 搜索 代 
价 远 比 数据 传输 高 ， 假 设 还 有 额外 的 内 存 ， 因 此 为 每 个 关系 分 配 多 个 缓冲 块 是 有 意义 的 。 例 如 ， 假 设 
对 于 每 个 4KB 的 块 ，t, =0. 1 毫秒 ,ts; =4 毫秒， 缓冲 区 大 小 为 400 块 (或 者 1.6 MB) ， 则 每 4 毫秒 的 磁 

盘 搜索 时 间 对 应 每 40 毫秒 的 传输 时 间 。 换 句 话 说， 磁盘 搜索 时 间 将 只 占 传输 时 间 的 10% . 

如 果 任 意 一 个 输入 关系 r 或 * 未 按 连 接 属 性 排序 ， 那 么 必须 先 对 它们 进行 排序 ， 排 序 代 价 必 须 加 在 
上 述 所 有 的 代价 上 。 假 如 一 些 集合 S 不 能 装 人 内 存 ， 代 价 将 有 轻微 的 增加 。 

假设 将 归并 连接 算法 应 用 到 我 们 的 student M takes 例子 上 ， 连 接 属性 是 ID。 假 定 两 个 关系 已 按 连接 
属性 ID 排序 。 在 这 种 情况 下 ， 归 并 连接 需要 400 + 100 =500 次 块 传输 。 如 果 我 们 假设 在 最 坏 情况 下 每 
个 输入 关系 仅 分 配 到 一 个 缓冲 块 ( 即 b, =1)， 则 总 共 也 需要 400 +100 = 500 次 磁盘 搜索 。 实 际 上 b, (A 
可 以 设 得 远 比 这 个 值 高 ， 因 为 我 们 仅 需 要 对 两 个 关系 进行 缓冲 ， 所 以 磁盘 搜索 的 代价 远 比 上 述 的 要 小 。 

假设 两 个 关系 未 排序 ， 内 存 大 小 也 属于 最 差 情形 : 只 有 3 块 。 代 价 计算 如 下 所 示 : 

1. 使 用 我 们 在 12. 4 节 得 到 的 公式 对 takes 进行 排序 需要 | log, _, (400/3) | = 8 趟 归并 。 则 对 takes 关 
系 进行 排序 需要 400 * (2[ log;_, (400/3) ] +1) =6800 次 块 传输 ， 再 加 上 将 结果 写 回 的 400 次 块 传输 。 
排序 所 需 磁盘 搜索 的 次 数 是 2 *|400/3 | +400* (2*8 -1) =6268 次 ， 加 上 写 回 结果 需要 400 次 磁盘 搜 
索 ， 总 共 是 6668 次 磁盘 搜索 ， 因 为 每 个 归并 段 只 能 分 配 到 一 个 缓冲 块 。 

2. 类 似 地 对 student 进行 排序 需要 | log, (100/3) |] =6 趟 归并 ， 即 100 * (2[ log; (100/3) | +1) = 
1300 次 块 传输 ， 还 有 将 结果 写 回 的 100 次 块 传输 。 对 student 进行 排序 所 需 的 磁盘 搜索 次 数 为 
2 x [100/3] +100 * (2 *6-1) =1164， 另 外 写 回 结果 需要 100 次 磁盘 搜索 ， 所 以 总 共 是 1264 次 搜索 。 

3. 最 后 ， 归 并 这 两 个 关系 需要 400 + 100 = 500 次 块 传输 和 500 次 磁盘 搜索 。 

因此 ， 在 关系 未 排序 ， 内 存 大 小 仅 能 容纳 3 块 的 情况 下 ， 总 共 需 要 9100 次 块 传输 和 8932 次 磁盘 搜索 

如 果 内 存 大 小 能 容纳 25 个 磁盘 块 ， 关 系 未 排序 ， 则 先 排 序 然后 归并 连接 的 代价 如 下 所 示 : 

1. 对 关系 takes 的 排序 可 以 只 用 一 个 归并 步骤 完成 ， 总 共 花 费 400 * (2[ log,, (400/25) | +1) =1200 
次 磁盘 块 传输 。 类 似 地 ， 对 关系 student 的 排序 需要 300 次 磁盘 块 传输 。 把 排序 结果 写 回 磁盘 需要 400 
+100 =500 次 磁盘 块 传输 ， 并 且 归 并 步骤 还 需要 500 次 磁盘 块 传输 以 读 回 数据 。 把 所 有 这 些 代价 加 起 
来 一 共 是 2500 次 磁盘 块 传输 。 

2. 如 果 我 们 假设 每 个 归并 段 仅 分 配 一 个 缓冲 块 ， 在 这 种 情况 下 对 takes 关系 进行 排序 以 及 把 排序 结 
果 写 回 磁盘 ， 所 需 的 磁盘 搜索 次 数 是 2 * [400/25 | +400 +400 =832 次 。 类 似 地 ， 对 关系 student 来 说 需 
要 2*[| 100/25] +100 + 100 =208 次 磁盘 搜索 ， 再 加 上 归并 阶段 读 取 已 排序 数据 的 400 + 100 次 磁盘 搜 

索 。 把 这 些 代价 加 起 来 得 到 总 代价 为 1640 次 磁盘 搜索 。 

通过 为 每 个 归并 段 分 配 更 多 的 缓冲 块 ， 磁 盘 搜索 的 次 数 能 够 显著 地 减少 。 例 如 ， 如 果 为 每 个 归并 段 
和 输出 结果 保留 5 个 缓冲 块 ， 则 归并 student 的 4 个 归并 段 的 代价 从 208 次 磁盘 搜索 降 到 2 * | 100/25 | + 
[ 100/5 ] +[ 10075 | =48 次 磁盘 搜索 。 如 果 归 并 连接 阶段 为 take 和 student 保留 12 个 缓冲 块 ， 则 这 一 阶段 
的 磁盘 搜索 次 数 将 从 500 UC REF 400/12] + [100/12] =43 次 。 于 是 磁盘 搜索 的 总 次 数 是 251 。 

这 样 ， 如 果 关 系 未 排序 且 内 存 大 小 是 25 块 ， 总 代价 是 2500 次 磁盘 块 传输 加 上 251 次 磁盘 搜索 。 

12.5.4.3 混合 归并 连接 

当 两 个 关系 的 连接 属性 上 存在 辅助 索引 时 ， 可 以 对 未 排序 的 元 组 执行 归并 连接 运算 的 变种 。 该 算 
法 通过 索引 扫描 记录 ， 从 而 按 顺 序 检索 记录 。 但 这 种 变种 有 很 大 的 缺陷 ， 因 为 记录 可 能 分 散在 文件 的 
多 个 块 中 ， 从 而 每 个 元 组 的 存 取 都 可 能 导致 一 次 磁盘 访问 ， 代 价 很 大 。 

为 避免 这 种 代价 ， 我 们 可 以 使 用 一 种 混合 归并 - 连接 技术 ， 该 技术 把 索引 与 归并 连接 相 结合 。 假 
设 两 个 关系 中 有 一 个 排 了 序 ， 另 一 个 未 排序 ， 但 未 排序 的 关系 在 连接 属性 上 有 B 树 辅助 索引 。 混 合 归 
并 - 连接 算法 (hybrid merge-join algorithm) 把 已 排序 关系 与 B 树 辅助 索引 叶 结 点 进行 归并 。 所 得 结果 文 
件 包 含 了 已 排序 关系 的 元 组 及 未 排序 关系 的 元 组 地 址 。 然 后 ， 将 该 文件 按 未 排序 关系 元 组 的 地 址 进行 
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排序 ， 从 而 能 够 对 相关 元 组 按照 物理 存储 顺序 进行 有 效 的 检索 ， 最 终 完成 连接 和 运算。 扩展 这 个 技术 用 
于 处 理 两 个 未 排序 关系 的 工作 留 作 练习 。 
12.5.5 散 列 连接 
类 似 于 归并 连接 算法 ， 散 列 连接 算法 可 用 于 实现 自然 连接 和 等 值 连接 。 在 散 列 连接 算法 中 ， 用 散 
列 函 数 h 来 划分 两 个 关系 的 元 组 。 此 算法 的 基本 思想 是 把 这 两 个 关系 的 元 组 划分 成 在 连接 属性 值 上 具 
有 相同 散 列 值 的 元 组 集合 。 
我 们 假设 : 
© hh 是 将 JoinAttrs 值 映射 到 |0，1 ，… ,nn | 的 散 列 函 数 ， 其 中 JoinAurs 表示 自然 连接 中 7 与 ;的 公 
共 属 性 。 
n, Tis ttt RRRA r 的 元 组 的 划分 ， 一 开始 每 个 都 是 空 集 。 每 个 元 组 t, © r+ 被 放 入 划分 
中 ， 其 中 i=h(z[ JoinAttrs |), 
© So, Sty Tne sm 表示 关系 的 元 组 的 划分 ,一 开始 每 个 都 是 空 集 。 每 个 元 组 1, es 被 放 人 划分 





中 ， 其 中 i=h(i[ JoinAttrs |). 557 











散 列 函数 应 当 具 有 在 第 11 章 讨论 过 的 “良好 ” 特 
性 一 一 随机 性 和 均匀 性 。 关 系 的 划分 如 图 12-9 所 示 。 
12.5.5.1 基本 思想 l 
散 列 连接 算法 背后 的 思想 如 下 。 如 果 关 系 的 一 个 
元 组 与 关系 * 的 一 个 元 组 满足 连接 条 件 ， 那 么 它们 在 连 
接 属 性 上 就 会 有 相同 的 值 。 若 该 值 经 散 列 函数 映射 到 i， 
则 关系 7 的 那个 元 组 必 在 7; P, MRA s 的 那个 元 组 必 
Æ s 中 。 因 此 , ~ 中 的 元 组 > 只 需要 与 s, 中 的 元 组 s 相 
比较 ， 而 没有 必要 与 其 他 任何 划分 里 的 元 组 s 相 比 较 。 
An, WR d 是 student 中 的 一 个 元 组 ,c 是 takes 中 
的 一 个 元 组 , h 是 元 组 属性 ID 上 的 散 列 函数 ， 那么 只 
有 在 h(c) =h(d) 时 4d 与 c 才 须 比 较 。 若 h(c) 关 h(d)， 











则 4 与 c 在 属性 ID 上 的 值 必 不 相等 。 然 而 ， 如 果 h(c) 关系 r 关系 s 

= 有 hh(d) ,我 们 必须 检查 dc 在 连接 属性 上 的 值 是 否 相 的 划分 的 划分 

同 ， 因 为 可 能 d 与 < 有 不 同 的 ID 值 却 有 相同 的 散 列 值 。 图 12-9 关系 的 散 列 划 分 
/* 对 关系 s 进行 划分 */ 


for each 元 组 t,in s do begin 
i: =h(t,[ JoinAttrs | ) ; 
H, := H, ufel s 
end 
/ x 对 关系 7 进行 划分 */ 
for each 元 组 t, in r do begin 
i:= h(t,| JoinAttrs] ) ; 
H, := H, U |t,}; 
End 
/ 对 每 一 划分 进行 连接 * / 
for i:= 0 to n, do begin 
读 及 ， 在 内 存 中 建立 其 散 列 索引 ; 
for each 元 组 1 in r, do begin 
检索 s; 的 散 列 索引 ， 定 位 所 有 满足 1,[ JoinAttrs] =t,[ JoinAurs| 的 元 组 1 
for each 匹配 的 元 组 t,in H, do begin 
bd, 加 入 结果 中 ; 
end 
end 
end 











图 12-10 ” 散 列 连接 
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图 12-10 显示 了 散 列 连接 (hash join) 算 法 计算 关系 7 与 关系 ;自然 连接 的 详细 过 程 。 和 归并 连接 算 
法 一 样 ，i,M i, 表示 元 组 t,, t, 属性 的 拼接 ， 然 后 对 其 投影 除去 重复 属性 。 对 关系 进行 划分 后 ， 散 列 连 
接 算法 的 其 余部 分 对 各 个 划分 对 i(i=0, 1,… , ni ) 进行 单独 的 索引 嵌 套 循环 连接 。 为 此 ， 该 算法 先 为 
每 个 s, 构造 (build) 散 列 索引 ， 然 后 用 六 中 的 元 组 进行 探查 (probe)( 即 在 s, FÆR). XA s 称 为 构造 
用 输入 (build input), 关系 7 称 为 探查 用 输入 (probe input) 。 
s 的 散 列 索 引 是 在 内 存 中 建立 的 ， 因 此 并 不 需要 访问 磁盘 以 检索 元 组 。 用 于 构造 此 索引 的 散 列 也 
数 与 前 面 使 用 的 散 列 函数 hh 必须 是 不 同 的 ,但 仍 是 只 对 连接 属性 进行 散 列 映射 。 在 进行 索引 骨 套 循环 
连接 时 ， 系 统 使 用 该 索引 检索 那些 与 探查 用 输入 相 匹 配 的 记录 。 
构造 阶段 与 探查 阶段 只 需要 对 构造 用 输入 与 探查 用 输入 作 一 次 扫描 。 将 散 列 连接 算法 推广 到 计算 
更 普遍 的 等 值 连接 是 很 容易 的 。 
应 选择 足够 大 的 n, 值 ， 以 使 对 于 任意 的 i， 内 存 中 可 以 容纳 构造 用 输入 关系 的 划分 s 中 的 元 组 以 
及 划分 上 的 散 列 索引 。 内 存 中 可 以 不 必 容 纳 探查 关系 的 划分 。 显 然 ， 我 们 最 好 用 较 小 的 输入 关系 作为 
构造 用 输入 关系 。 如 果 构 造 用 关系 有 b, 块 ， 那么 要 使 n, 个 划分 中 每 一 个 划分 小 于 等 于 MM，n 值 至 少 
应 是 | b,/M 1。 更 准确 些 ， 我 们 还 应 当 考 虑 该 划分 上 散 列 索引 占用 的 内 存 空 间 ， 因 此 n, 值 应 当 相 应 取 
大 一 点 。 简 单 起 见 ， 在 分 析 中 我 们 有 时 忽略 散 列 索引 所 需 的 内 存 空间 。 
12.5.5.2 递归 划分 
如 果 n 的 值 大 于 或 等 于 内 存 块 数 ， 因 为 没有 足够 的 缓冲 块 ， 所 以 关系 的 划分 不 可 能 一 趟 完成 。 这 
558 | 时 ， 完 成 关系 的 划分 需要 重复 多 趟 。 在 每 一 趟 中 ， 输 入 的 最 大 划分 数 不 超 过 用 于 输出 的 缓冲 块 数 。 每 
559 | 一 趟 产生 的 存储 桶 在 下 一 趟 中 分 别 被 读 和 人 并 再 次 划分 ， 产 生 更 小 的 划分 。 当 然 ， 每 趟 划分 中 所 用 的 散 
列 函 数 与 上 一 趟 所 用 的 散 列 函数 是 不 同 的 。 系 统 不 断 重复 输入 的 分 裂 过 程 直到 构造 用 输入 关系 的 每 个 
划分 都 能 被 内 存 容纳 为 止 。 这 种 划分 方法 称 为 递归 划分 (recursive partitioning ) 。 
在 M> n+ 1, 或 等 价 地 ，M > (b/M) + 1 一 一 可 以 近似 简化 为 M > Wb, 时 ， 关系 不 需要 进行 递 
归 划 分 。 例 如 ， 考 虑 如 下 情形 : 内 存 大 小 是 12MB ， 分 成 4KB 大 小 的 块 ， 则 共有 3K(3072) 个 块 。 我 们 
可 用 这 样 大 小 的 内 存 对 含有 大 至 3K * 3K( BI 36GB) 的 关系 进行 划分 。 类 似 地 ， 为 避免 递归 划分 ，1GCB 
大 小 的 关系 需 V256K 个 内 存 块 ， 约 2MB。 
12.5.5.3 溢出 处 理 
4s, 的 散 列 索引 大 于 主 存 时 ， 构 造 用 输入 关系 的 划分 ;发 生 散 列 表 洪 出 (hash-table overflow ) 。 如 
果 构 造 用 输入 关系 在 连接 属性 上 具有 相同 值 的 元 组 数 很 多 ， 或 所 选 散 列 函数 不 符合 随机 性 、 均 匀 性 ， 
则 会 发 生 散 列 表 溢出 。 在 这 两 种 情况 下 ， 某 些 划分 所 含 元 组 数 多 于 平均 数 ， 而 另 一 些 划 分 所 含 元 组 数 
比 平均 数 少 ; 这 种 划分 称 为 是 偏 斜 的 (skewed ) 。 
少量 的 偏 斜 可 以 通过 增加 划分 个 数 ， 使 得 每 个 划分 的 期 望 大 小 (包括 该 划分 上 的 散 列 索引 在 内 ) 比 
内 存 容量 略 小 。 划 分 数 会 因此 有 少量 增加 ， 增 加 的 数目 称 为 避让 因子 (fudge factor) ， 这 个 因子 通常 大 
PEE 12.5.5 节 所 描述 的 方法 计算 出 的 散 列 划分 数 的 20% 左右 。 
即使 我 们 通过 用 避让 因子 ， 在 划分 的 大 小 上 采取 了 保守 的 态度 ， 散 列表 溢出 仍然 在 所 难免 。 散 列 
表 溢 出 可 以 通过 溢出 分 解 或 溢出 避免 的 方法 来 进行 处 理 。 如 果 在 构造 阶段 发 现 了 散 列 索引 溢出 ， 则 进 
行 溢 出 分 解 (overflow resolution)。 溢 出 分 解 过 程 如 下 。 任 给 i， 若 发 现 s; KK, 我们 就 用 另 一 个 散 列 函 
数 将 之 进一步 划分 成 更 小 的 划分 。 类 似 地 ，r; 也 使 用 新 的 散 列 函数 进行 同样 处 理 ， 而 只 有 相 匹 配 的 划 
分 中 的 元 组 才 需 要 连接 。 
与 溢出 分 解法 不 同 ， 溢 出 避免 (overflow avoidance) 法 进行 并 慎 的 划分 ,保证 构造 阶段 不 会 有 溢出 发 
生 。 在 溢出 避免 法 中 ， 首 先 将 构造 用 输入 关系 划分 成 许多 小 划分 ， 然 后 把 某 些 划分 组 合 在 一 起 ， 但 
要 确保 每 个 组 合 后 的 划分 都 能 被 内 存 容纳 。 探 查 用 关系 7 必须 按照 与 关系 s 上 的 组 合 划 分 相同 的 方式 进 
行 划 分 , (Ar, 的 大 小 无 关 紧 要 。 
如 果 s 中 有 大 量 元 组 在 连接 属性 上 有 相同 的 值 ， 溢 出 分 解 与 溢出 避免 法 在 某 些 划分 上 可 能 会 失效 。 
在 这 种 情况 下 ， 我 们 并 不 采用 创建 内 存 散 列 索引 ， 然 后 用 内 套 循 环 连 接 算法 对 划分 进行 连接 的 方法 ， 
而 是 在 那些 划分 上 使 用 其 他 的 连接 技术 ， 如 块 嵌 套 循 环 连接 。 
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12.5.5.4 散 列 连接 的 代价 
下 面 我 们 考虑 散 列 连接 的 代价 。 我 们 的 分 析 假 定 没 有 散 列 表 溢 出 发 生 。 首 先 考 虑 不 需要 递归 划分 
的 情形 。 
© 两 个 关系 r、s 的 划分 需要 对 这 两 个 关系 分 别 进 行 一 次 完整 的 读 和 与 写 回 ， 该 操作 需要 2( + 
b ) 次 块 传输 ， 这 里 b, Ab, 分 别 代 表 含 有 关系 > 和 * 中 元 组 的 磁盘 块 数 。 在 构造 与 探查 阶段 每 个 
划分 读 人 人 一次， 这 又 需要 b, +b, 次 块 传输 。 划 分 所 占用 的 块 数 可 能 比 b, +b, 略 多 ， 因 为 有 的 块 
只 是 部 分 满 的 。 由 于 n 个 划分 中 的 每 个 划分 都 可 能 有 一 个 部 分 满 的 块 ， 而 这 个 块 需 写 回 、 读 
人 各 一 次 ， 因 此 对 于 每 个 关系 而 言 存 取 这 些 部 分 满 的 块 至 多 增加 2 * n, 次 的 开销 。 从 而 散 列 连 
接 的 代价 估计 和 需要: 
3(b,+b,) +4n, 
次 块 传输 。 其 中 4n, 的 开销 与 b, +b, 相 比 是 很 小 的 ， 可 以 忽略 。 
。 假设 为 输入 缓冲 区 和 每 个 输出 缓冲 区 分 配 了 b, 个 块 ， 划 分 总 共 需 要 2([ 7 bil] +1 b, b, WE 
盘 搜 索 。 在 构造 和 探查 阶段 ， 每 个 关系 中 n 个 划分 中 的 每 一 个 仅 需 一 次 磁盘 搜索 ， 因 为 每 个 
划分 都 可 以 顺序 地 读 取 。 这 样 ， 散 列 连接 需要 2[ 5,/ b, | + b,/ b, | +2n, 次 磁盘 搜索 . 
现在 来 看 看 需要 递归 划分 的 情形 。 每 一 趟 预计 可 将 划分 的 大 小 减 小 为 原来 的 1/(M - 1) ; 不 断 重 
复 操作 直到 每 个 划分 最 多 占 M 块 为 止 。 则 划分 关系 所 需 的 趟 数 预计 为 [ logy_1(4b.) -11。 
。 由 于 在 每 一 趟 中 ， 需 要 对 关系 * 的 每 一 块 进行 读 人 、 写 出 ， 因 此 划分 过 程 中 总 共 需 要 24.| logy 
(b,) -1 1 次 块 传输 。 对 关系 了 进行 划 分 所 需 趟 数 与 划分 关系 s 是 一 样 的 ， 由 此 连接 代价 估计 


需要 : 
2(b, +b,)[ logu.: (b,) -11+ b, +b, 
次 块 传输 。 
© 再 次 假设 为 每 个 划分 分 配 了 b, 个 块 用 于 缓冲 ， 忽 略 构造 和 探查 过 程 中 相对 少 的 磁盘 搜索 ， 用 弟 
归 划 分 的 散 列 连接 需要 
2([ 6,7 b, | +1 b,/ b, 1)[ logy, (b) -11 
次 磁盘 搜索 。 


例如 ， 考 虑 连接 takes Mstudent。 内 存 有 20 HR, student 划分 成 5 个 划分 ， 每 个 划分 占 20 块 ， 正 好 能 
AA. RIA Ri. takes 类似 地 划分 成 5 个 划分 ， 每 个 划分 占 80 块 。 忽 略 写 回 部 分 满 的 块 的 代 
价 ， 共 需 3(100 +400) = 1500 次 块 传输 。 在 划分 过 程 中 有 足够 的 内 存 分 配 3 个 输入 缓冲 区 和 5 个 输出 
缓冲 区 ， 结 果 是 2(| 100/ 3 | + [ 400/3 |) 次 磁盘 搜索 。 

若 主 存 较 大 ， 散 列 连接 性 能 可 以 得 到 提高 。 当 主 存 中 可 以 容纳 整个 构造 用 输入 关系 时 ，m 可 置 为 
0; 此 时 ， 不 管 探 查 用 输入 的 大 小 如 何 ， 不 必 将 关系 划分 成 临时 文件 ， 因 而 散 列 连接 算法 可 以 快速 执 
To HAMREN b, +b, 次 磁盘 块 传输 和 两 次 磁盘 搜索 。 

12.5.5.5 混合 散 列 连接 

混合 散 列 - 连接 (hybrid hash-join) 算法 作 了 另 一 种 优化 。 当 内 存 相 对 较 大 ， 但 还 不 足以 容纳 整个 构 
造 用 输入 关系 时 ， 该 算法 是 很 有 用 的 。 在 划分 阶段 ， 散 列 连接 算法 需要 为 创建 的 每 一 划分 提供 一 个 内 
存 块 作为 缓冲 区 ， 另 需 一 个 内 存 块 作 为 输入 缓冲 区 。 为 了 降低 搜索 的 影响 ， 大 的 块 数 用 作 缓 冲 区 ， 令 
b, 表示 用 作 输 入 和 每 个 划分 的 缓冲 区 的 块 数 。 因 此 划分 两 个 关系 共 需 n, + 1 个 内 存 块 。 如 果 内 存 大 于 
(n, +1) =b, k, 我 们 可 以 用 剩余 的 内 存 块 ( 轩 -(n, +1) * b, 块 ) 作 为 构造 用 输入 关系 的 第 一 个 划分 
( 即 so) 的 缓冲 区 ， 从 而 避免 将 其 写 出 后 再 读 入 。 更 进一步 ,我 们 可 以 适当 设计 散 列 函数 ,使 得 % 上 的 
散 列 索引 能 装 人 M - (n, +1) * b, 个 内 存 块 ; R, ERR s 划分 结束 后 ，s 完全 在 内 存 中 且 可 以 在 
so 上 建立 散 列 索引 。 

当 对 -进行 划分 时 ，m 的 元 组 也 不 必 写 回 磁盘 ; 而 是 在 元 组 产生 时 ， 系 统 利 用 它们 去 查找 驻 留 在 
内 存 中 的 % 散 列 索引 ， 并 产生 连接 后 的 元 组 。n 的 元 组 使 用 后 就 可 以 抛弃 了 ， 因 此 7 划分 不 占 内 存 空 
间 。 这 样 ， 对 于 7 与 so 的 每 一 块 可 以 读 、 写 各 节省 一 次 。 其 他 划分 的 元 组 按 普通 方式 写 出 ， 以 后 再 连 
接 。 在 构造 用 输入 关系 只 是 略 大 于 内 存 时 ， 混 合 散 列 连接 算法 可 以 大 大 降低 代价 。 
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若 构 造 用 输入 关系 大 小 为 6,， 则 n, 近似 为 5/ Ms。 因此， 混合 散 列 连接 算法 在 M> > (b,/ M) * b 
M> > /b,*b, 时 非常 有 用 ,记号 > > 表示 远大 于 。 例如， 设 块 大 小 为 4KB， 构 造 用 输入 关系 大 小 为 
5GB, 6, 是 20。 那 么 混合 连接 算法 在 内 存 远 大 于 20MB 时 是 很 有 用 的 ; 现今 计算 机 拥有 几 GB 或 更 多 的 内 


存 是 很 常见 的 。 假 如 我 们 用 1GB 来 做 连接 算法 ，so 接近 1CB ， 混 合 散 列 索引 比 散 列 索引 节省 20% 。 
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12.5.5.6 复杂 连接 
嵌 套 循环 连接 与 块 垦 套 循环 连接 可 在 任何 连接 条 件 下 使 用 。 其 他 的 连接 技术 比 垦 套 循 环 连接 及 其 
变种 效率 更 高 ， 但 只 能 处 理 简单 的 连接 条 件 ， 如 自然 连接 或 等 值 连接 。 如 果 采 用 12. 3. 3 节 中 用 于 处 理 
复杂 选择 的 技术 ， 则 可 以 用 有 效 的 连接 技术 实现 具有 复杂 连接 条 件 的 连接 ， 如 合 取 式 和 析 取 式 。 
考虑 下 面 带 有 合 取 条 件 的 连接 : 
r DI AoA Aa, S 
前 面 所 述 的 一 种 或 多 种 连接 技术 可 以 用 于 单个 连接 条 件 的 计算 ， 如 r Kas, ros, r Ms,s 等 。 我 们 
可 以 通过 先 计算 这 些 较 简单 的 r xss 连接 中 的 某 一 个 来 计算 整个 连接 ; 每 个 中 间 结 果 中 的 元 组 对 由 7 中 
的 一 个 元 组 与 ;中 的 一 个 元 组 组 成 。 完 整 的 连接 结果 是 中 间 结 果 中 满足 以 下 剩余 条 件 的 那些 记录 : 
[A Nbi NO NNO 
这 些 条 件 可 在 产生 rA ,s 元 组 时 进行 测试 。 
具有 析 取 条 件 的 连接 可 按 如 下 方式 计算 。 考 虑 : 
r Xo, ve Vve.s 
该 连接 可 以 通过 对 单个 连接 r Ms 的 元 组 取 并 集 来 计算 : 
(r,s) U (r Xas) Ur U (r Xs) 
12. 6 节 将 讲述 计算 关系 的 并 的 算法 。 


12.6 其 他 运算 


其 他 关系 运算 以 及 扩展 关系 运算 ， 如 去 除 重 复 、 投 影 、 集 合 运算 、 外 连接 、 聚 集 ， 可 以 按 从 
12. 6. 1 ~ 12.6.5 节 所 述 加 以 实现 。 
12.6.1 去除 重复 

我 们 可 以 用 排序 方法 很 容易 地 实现 去 除 重复 。 排 序 时 等 值 元 组 相互 邻近 ， 删 除 其 他 副本 只 留 一 个 
元 组 副本 即 可 。 对 于 外 部 归并 排序 而 言 ， 创 建 归并 段 文件 时 就 可 以 发 现 重复 元 组 ， 可 在 将 归并 段 文件 写 
回 磁盘 之 前 去 除 重复 元 组 ， 从 而 减少 块 传输 次 数 。 剩 余 的 重复 元 组 可 在 归并 时 去 除 ， 最 后 的 经 排序 的 归 
并 段 是 没有 重复 元 组 的 。 最 坏 情 形 去 除 重复 的 代价 估计 与 最 坏 情 形 对 该 关系 进行 排序 的 代价 估计 一 样 。 

我 们 也 可 使 用 散 列 来 实现 去 除 重 复 ， 像 在 散 列 连接 算法 里 一 样 。 首 先 ， 基 于 整个 元 组 上 的 一 个 散 
列 函 数 对 整个 关系 进行 划分 。 接 下 来 每 个 划分 被 读 和 人 内存， 并 建立 内 存 散 列 索引 。 在 创建 散 列 索引 时 ， 
只 插入 不 在 索引 中 的 元 组 ; 和 否则， 元 组 就 被 抛弃 。 划 分 中 的 所 有 元 组 处 理 完 后 ， 散 列 索引 中 的 元 组 被 
写 到 结果 中 。 其 代价 估算 与 散 列 连接 中 构造 用 输入 关系 的 处 理 (划分 以 及 读 入 每 个 划分 ) 的 代价 一 样 。 

由 于 去 除 重 复 的 代价 相对 较 大 ， 因 此 SQL 查询 语言 要 求 用 户 显 式 指 明 需 要 去 除 重复 ， 若 不 指明 则 
保留 重复 。 
12. 6.2 投影 

我 们 可 以 通过 如 下 方式 比较 容易 地 实现 投影 。 首 先 对 每 个 元 组 作 投影 ， 所 得 结果 关系 可 能 有 重复 
记录 ， 然 后 去 除 重复 记录 。 去 除 重复 可 按 12. 6. 1 节 描 述 的 方法 去 进行 。 若 投影 列表 中 属性 含有 关系 的 
码 ， 则 结果 中 不 会 有 重复 元 组 ， 因 此 不 必 作 去 除 重复 。 广 义 投影 可 以 用 与 投影 一 样 的 方式 来 实现 。 
12. 6.3 集合 运算 

要 实现 集合 运算 并 、 交 、 差 ， 我 们 首先 对 两 个 关系 进行 排序 ， 然 后 对 每 个 已 排序 的 关系 扫描 一 次 ， 
产生 所 需 结果 。 在 rUs 中 ， 当 同时 对 两 个 文件 进行 扫描 发 现 相同 的 元 组 时 ， 只 保留 其 中 一 个 。rmns 的 
结果 只 包含 在 两 个 关系 中 同时 出 现 的 元 组 。 类 似 地 ， 通 过 只 保留 > 中 那些 不 属于 * 的 元 组 ， 我 们 可 以 实 
现 集 合 的 差 运 算 (r - s)o 
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对 所 有 这 些 运算 ， 两 个 输入 关系 仅 须 扫 描 一 次 ， 因 此 如 果 关 系 按 相同 顺序 排序 ， 其 代价 为 六 + 必 
次 块 传输 。 假 设 最 坏 情况 下 每 个 关系 只 有 一 个 缓冲 块 ， 则 总 共 需 要 b, +b, 次 磁盘 搜索 加 上 b, +b, 次 块 
传输 。 分 配额 外 的 缓冲 块 可 以 减少 磁盘 搜索 的 次 数 。 

若 关系 一 开始 未 排序 ， 还 要 考虑 排序 的 代价 。 在 执行 集合 运算 时 ， 任何 排序 顺序 均 可 ， 只 要 两 个 
输入 关系 都 有 相同 的 排序 顺序 。 

散 列 提供 了 实现 集合 运算 的 另 一 种 方法 。 对 于 每 种 运算 ， 首 先 用 相同 的 散 列 函数 对 两 个 关系 进行 
划分 ， 由 此 得 到 划分 ro， ，…r 以 及 s。，s1 ，…s,,。 然 后 根据 操作 的 不 同 ， 对 i =0，1 ，…，n 的 每 
一 划分 执行 以 下 步骤 : 

@ rUs 

1. 对 六 建立 内 存 散 列 索引 。 
2. 把 s 中 的 元 组 加 入 以 上 散 列 索引 中 ， 条 件 是 该 元 组 不 在 散 列 索引 中 。 
3. 把 散 列 索引 中 的 元 组 加 入 结果 中 。 
erns 
1. 对 六 建立 内 存 散 列 索引 。 
2. 对 s; 中 的 每 个 元 组 ， 检 索 散 列 索引 ， 仅 当 它 出 现在 其 中 时 将 该 元 组 写 到 结果 中 。 
L 对 7 建立 内 存 散 列 索 引 。 
2. 对 s; 中 的 每 个 元 组 ， 检 索 散 列 索引 ， 若 它 出 现在 其 中 则 将 之 从 散 列 索引 中 删除 。 
3. 把 散 列 索引 中 剩余 的 元 组 加 入 结果 中 。 
12.6.4 外 连接 

回想 一 下 4.1.2 节 所 描述 的 外 连接 操作 。 例 如 ， 自 然 左 外 连接 takes IX student 包含 takes 与 student 
的 连接 ; 此 外 ， 对 于 takes 中 每 一 个 在 student 中 没有 匹配 元 组 的 元 组 i( 即 1 中 的 力 不 在 student H), 把 
如 下 的 元 组 二 加 入 结果 中 : 对 于 takes 模式 中 的 全 部 属性 ,元 组 4 与 + 有 相同 的 值 ; i, 的 其 余 属 性 (来 
A student 模式 ) 取 空 值 。 

外 连接 可 用 以 下 两 种 策略 之 一 来 实现 : 

1. 计算 相应 的 连接 ， 然 后 将 适当 的 元 组 加 入 连接 结果 中 以 得 到 外 连接 结果 。 考 虑 左 外 连接 运算 与 
两 个 关系 : r(R) 与 S(S) 。 为 计算 > 了 bs， 首先 我 们 计算 rs， 将 结果 存 为 临时 关系 q. RE, RITH 
Ar- ) 以 得 到 所 有 属于 r 但 未 参与 0 连接 的 元 组 。 我 们 可 以 采用 前 面 说 过 的 用 于 计算 连接 、 投 
影 、 集 合 差 的 任何 算法 来 计算 外 连接 。 我 们 用 空 值 填充 这 些 元 组 中 属于 关系 * 的 属性 ， 然 后 将 其 加 到 
q 中 ， 得 到 外 连接 的 结果 。 

右 外 连接 运算 r XL s 等 价 于 s 了 do r， 因 此 可 以 用 与 左 外 连接 对 称 的 方法 实现 。 要 实现 全 外 连接 运 
算 r 了 C9,， 我们 可 以 先 计 算 > 网 *， 然 后 和 前 面 一 样 将 左 、 右 外 连接 的 额外 元 组 加 入 。 

2. 对 连接 算法 加 以 修改 。 将 艇 套 循 环 连 接 算法 扩展 为 计算 左 外 连接 的 算法 很 容易 ， 只 要 把 与 内 层 
关系 的 任何 元 组 都 不 匹配 的 外 层 关系 元 组 在 填充 空 值 后 写 到 结果 中 即 可 。 然 而 ， 要 将 嵌 套 循环 连接 扩 
展 为 计算 完全 外 连接 的 算法 是 很 困难 的 。 

自然 外 连接 与 具有 等 值 连接 条 件 的 外 连接 可 以 通过 扩展 归并 连接 与 散 列 连接 算法 来 计算 。 对 归并 
连接 加 以 扩展 ， 可 以 用 来 计算 完全 外 连接 ， 方 法 如 下 : 当 两 个 关系 的 归并 完成 后 ， 将 两 个 关系 中 那些 
与 另 一 个 关系 的 任何 元 组 都 不 匹配 的 元 组 填充 空 值 后 写 到 结果 中 。 类 似 地 ， 通 过 只 将 一 个 关系 中 不 匹 
配 的 元 组 (在 填充 空 值 后 ) 写 到 结果 中 ， 我 们 可 以 扩展 归并 连接 以 计算 左 、 右 外 连接 。 由 于 关系 是 排序 
的 ， 因 此 很 容易 判断 一 个 元 组 是 否 与 男 一 个 关系 的 元 组 相 匹 配 。 例 如 ， 当 takes 与 student 归并 连接 完成 
后 ,元 组 按 ID 的 顺序 读 入 ， 对 于 每 个 元 组 很 容易 判断 在 男 一 个 关系 中 是 否 有 与 之 匹配 的 元 组 。 

使 用 归并 连接 算法 实现 外 连接 的 代价 估计 同 相 应 连接 的 代价 估计 是 一 样 的 。 唯 一 差异 在 于 结果 的 大 
小 以 及 由 此 引起 的 写 出 结果 的 块 传输 次 数 ， 而 这 一 点 在 之 前 的 代价 估计 中 并 没有 考虑 。 

扩展 散 列 连接 算法 以 计算 外 连接 留 作 练 习 ( 习 题 12. 15 ) 。 
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12.6.5 聚集 
回忆 3.7 节 讲 述 的 聚集 函数 (操作 ) 。 例 如 ， 函 数 


select dept_name, avg( salary) 
from instructor 
group by dept_name 


计算 大 学 中 每 个 系 的 平均 工资 。 

聚集 运算 可 以 用 与 去 除 重复 相 类 似 的 方法 来 实现 。 我 们 使 用 排序 或 散 列 ， 就 像 在 去 除 重复 中 所 做 
的 , 不 同 的 是 这 里 基于 分 组 属性 进行 (上 面 的 例子 中 是 dept_name)。 但 是 ,我 们 不 是 去 除 在 分 组 属性 上 
有 相同 值 的 元 组 ， 而 是 将 之 聚集 成 组 ， 并 对 每 一 组 应 用 聚集 运算 以 获取 结果 。 

对 min, max, sum, count, avg 等 聚集 函数 而 言 ， 实 现 聚 集运 算 的 代价 估计 和 去 除 重 复 的 代价 佑 
计 是 一 样 的 。 

我 们 不 必 等 到 所 有 元 组 聚集 成 组 后 再 进行 聚集 运算 ， 而 可 以 在 组 的 构造 过 程 中 就 实现 sum, min, 
max, count, avg 的 聚集 运算 。 对 于 sum, min 与 max， 当 在 同一 组 中 发 现 了 两 个 元 组 时 ， 系 统 用 包 
含 聚 集 列 上 的 sum, min 或 max 值 的 单个 元 组 替换 它们 。 对 于 count 运算 ， 系统 为 每 一 组 维护 一 个 已 

发 现 元 组 的 计数 值 。 最 后 ，avg 运算 可 以 实现 如 下 ,在 组 构造 过 程 中 ,我 们 计算 每 一 组 的 sum 及 
”count， 最 后 把 sum BRL count 即 获 得 平均 值 。 

如 果 结 果 集 的 所 有 元 组 可 以 装 人 内存， 则 基于 排序 的 实现 方法 与 基于 散 列 的 实现 方法 不 必 将 元 组 
写 到 磁盘 上 。 当 元 组 读 人 时 ， 就 可 以 将 之 插入 到 一 个 有 序 的 树 结构 中 或 插入 到 一 个 散 列 索引 中 。 当 使 
用 以 上 聚集 技术 时 ， 对 于 每 一 个 组 只 需要 保存 一 个 元 组 ， 因 此 ， 内 存 中 将 可 容纳 有 序 树 结构 或 散 列 索 
5|, FAT CE b, 次 块 传输 ( 和 1 次 磁盘 搜索 ) 中 完成 ， 而 用 其 他 方法 需要 3b, 次 块 传输 ( 和 最 坏 情 况 下 
2b, 次 磁盘 搜索 ) 。 


12.7 表达 式 计算 


目前 为 止 ， 我 们 只 研究 了 单个 关系 运算 如 何 执行 。 现 在 我 们 考虑 如 何 计 算 包 含 多 个 运算 的 表达 式 。 
一 种 显而易见 的 方法 是 以 适当 的 顺序 每 次 执行 一 个 操作 ; 每 次 计算 的 结果 被 物化 (materialized ) 到 一 个 
临时 关系 中 以 备 后 用 。 这 一 方法 的 缺点 是 需要 构造 临时 关系 ， 这 些 临时 关系 必须 写 到 磁盘 上 (除非 很 
小 ) 。 另 一 种 方法 是 在 流水 线 (pipeline) 上 同时 计算 多 个 运算 ， 一 个 运算 的 结果 传递 给 下 一 个 ， 而 不 必 
保存 临时 关系 。 

12.7.1~12.7.2 节 将 介绍 物化 方法 与 流水 线 方 Mame 
法 。 我 们 将 会 看 到 这 两 种 方法 的 代价 相差 很 大 ， 并 且 
有 的 情况 下 只 能 用 物化 方法 。 


12.7.1 物化 


要 直观 地 理解 如 何 计算 一 个 表达 式 ， 最 容易 的 方 i 
法 是 看 一 看 以 运算 符 树 ( operator tree) 对 表达 式 所 做 的 Ts 
图 形 化 表示 。 考 虑 图 12-11 所 示 表 达 式 : Opuilding = "Watson! instructor 


Thane ( Opie -wanene ( department) instructor) 


当 采 用 物化 方法 时 ， 我 们 从 表达 式 的 最 底层 的 运 
算 ( 在 树 的 底部 ) 开 始 。 在 该 例子 中 ， 只 有 一 个 底层 运 
算 : department 上 的 选择 运算 。 底 层 运算 的 输入 是 数据 图 12-11 一 个 表达 式 的 图 形 化 表示 
库 中 的 关系 。 我 们 用 前 面 研 究 过 的 算法 执行 这 些 运 算 ， 
并 将 结果 存储 在 临时 关系 中 。 在 树 的 高 一 层 中 ， 使 用 这 些 临时 关系 来 进行 计算 ; 这 时 的 输入 要 么 是 临 
时 关系 ， 要 么 是 来 自 数据 库 的 关系 。 在 该 例子 中 ， 连 接 运算 的 输入 是 instructor 关系 及 在 department 关 
系 上 进行 选择 所 建立 的 临时 关系 。 接 着 可 以 进行 连接 运算 ， 建 立 起 另 一 个 临时 关系 。 
通过 重复 这 一 过 程 ， 最 终 可 以 计算 位 于 树 的 根 结 点 的 运算 ， 从 而 得 到 表达 式 的 最 终结 果 。 在 该 例 


department 
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子 中 ， 通 过 执行 根 结 点 的 投影 运算 ， 以 连接 运算 产生 的 临时 关系 作为 输入 执行 投影 ， 就 可 以 得 到 最 终 
的 结果 。 

上 述 计算 方法 称 为 物化 计算 (materialized evaluation) ， 因 为 运算 的 每 个 中 间 结 果 被 创建 (物化 ) ， 然 
后 用 于 下 一 层 的 运算 。 

物化 计算 的 代价 不 仅仅 是 那些 所 涉及 的 运算 代价 的 总 和 。 当 估计 算法 的 代价 时 ,我们 忽略 了 将 运 
算 结 果 写 到 磁盘 上 的 代价 。 为 了 计算 按 如 上 所 述 执行 一 个 表达 式 的 代价 ， 我 们 必须 把 所 有 运算 的 代价 
相 加 ， 还 要 加 上 把 中 间 结 果 写 回 磁盘 的 代价 。 我 们 假设 结果 记录 在 缓冲 区 中 积累 ， 当 缓冲 区 写 满 时 ， 
把 它们 写 到 磁盘 上 。 写 出 块 数 b, 的 代价 可 按 n/S, 来 估算 ， 其 中 n, 是 结果 关系 > 中 元 组 数 的 估计 , 大 是 
结果 关系 的 块 因 子 ， 即 每 块 可 容纳 的 关系 + 中 的 记录 数 。 除 了 磁盘 块 传输 时 间 ， 还 需要 加 上 磁盘 搜索 
的 时 间 ， 因 为 磁盘 头 在 连续 的 写 回 操作 之 间 可 能 会 移动 到 别处 。 磁 盘 搜 索 的 次 数 可 以 估算 为 [ 5,/ b, |, 
Hep b, 是 输出 缓冲 区 的 大 小 (以 块 数 计算 ) 。 

双 缓 冲 (double buffering) (即使 用 两 个 缓冲 区 ， 其 中 一 个 用 于 连续 执行 算法 ， 另 一 个 用 于 写 出 结 
果 ) 人 允许 CPU 活动 与 V0 活动 并 行 ， 从 而 提高 算法 执行 速度 。 通 过 为 输出 缓冲 区 分 配额 外 的 磁盘 块 以 
及 每 次 同时 写 出 多 个 块 ， 可 以 减少 磁盘 搜索 次 数 。 

12.7.2 流水 线 

通过 减少 查询 执行 中 产生 的 临时 文件 数 ， 可 以 提高 查询 执行 的 效率 。 减 少 临时 文件 数 是 通过 将 多 |567 | 
个 关系 操作 组 合成 一 个 操作 的 流水 线 来 实现 的 ， 其 中 一 个 操作 的 结果 将 传送 到 下 一 个 操作 。 这 样 的 计 sda 
算 叫 做 流水 线 计算 (pipelined evaluation ) 。 

例如 ， 考 虑 表达 式 ( TI, a(r Xs))。 如 果 采 用 物化 方法 ， 在 执行 中 将 创建 存放 连接 结果 的 临时 关 
系 ， 然 后 在 执行 投影 时 又 从 连接 结果 中 读 和 人 。 这 些 操作 可 按 如 下 方式 组 合 : 当 连 接 操作 产生 一 个 结果 
元 组 时 ， 该 元 组 马上 传送 给 投影 操作 去 处 理 。 通 过 将 连接 操作 与 投影 操作 组 合 起 来 ,我 们 可 以 避免 中 
间 结 果 的 创建 ， 从 而 直接 产生 最 终结 果 。 

创建 一 个 操作 的 流水 线 可 以 带 来 两 个 好 处 : 

1. 它 能 消除 读 和 写 临时 关系 的 代价 ,减少 查询 计算 代价 。 

2. 如 果 一 个 查询 计算 计划 的 根 操作 符 及 其 输入 合并 到 流水 线 中 ， 那 么 可 以 迅速 开始 产生 查询 结 
E, 一 旦 它们 生成 ， 如 果 把 结果 显示 给 用 户 ， 这 可 能 是 非常 有 用 的 ， 因 为 不 然 的 话 在 用 户 看 到 任何 查 
询 结果 之 前 可 能 有 一 个 长 时 间 延 迟 。 

12.7.2.1 流水 线 的 实现 

通过 将 所 有 操作 组 合 起 来 构成 流水 线 ， 构 造 一 个 单独 的 复合 操作 ， 我 们 可 以 实现 流水 线 。 尽 管 对 
于 各 种 频繁 发 生 的 情况 ， 这 个 方法 是 可 行 的 ; 但 一 般 而 言 ， 希 望 在 构造 一 个 流水 线 时 能 重用 各 个 操作 
的 代码 。 

在 图 12-11 的 例子 中 ， 三 个 操作 均 可 放 入 一 条 流水 线 中 ; 其 中 ， 选 择 操 作 的 结果 产生 后 传送 给 连 
接 操作 。 接 着 ， 连 接 操作 的 结果 产生 后 又 传送 给 投影 操作 。 由 于 一 个 操作 的 结果 不 必 长 时 间 保 存 ， 因 
此 对 内 存 的 要 求 不 高 。 然 而 ， 由 于 采用 流水 线 ， 各 个 操作 并 非 总 是 能 立即 获得 输入 来 进行 处 理 。 

流水 线 可 按 以 下 两 种 方式 之 一 来 执行 : 

1. 在 一 条 需求 驱动 的 流水 线 ( demand-driven pipeline) 中 ， 系 统 不 停 地 向 位 于 流水 线 顶 端的 操作 发 
出 需要 元 组 的 请 求 。 每 当 一 个 操作 收 到 需要 元 组 的 请 求 ， 它 就 计算 下 一 个 (才干 个 ) 元 组 并 返回 。 如 果 
该 操作 的 输入 不 是 来 自流 水 线 ， 则 返回 的 下 一 个 (若干 个 ) 元 组 可 以 由 输入 关系 计算 得 到 ， 同 时 系统 记 
载 目 前 为 止 已 返回 了 哪些 元 组 。 如 果 该 操作 的 某 些 输入 来 自流 水 线 ， 那 么 该 操作 也 发 出 请 求 以 获得 来 
自流 水 线 输入 的 元 组 。 该 操作 使 用 来 自流 水 线 输入 的 元 组 ， 计 算 输 出 元 组 ， 然 后 把 它们 传 给 父 层 。 

2. 在 一 条 生产 者 驱动 的 流水 线 ( producer-driven pipeline) 中 ， 各 操作 并 不 等 待 元 组 请 求 ， 而 是 积极 
地 (eagerly) 产 生 元 组 。 生 产 者 驱动 的 流水 线 中 的 每 一 个 操作 作为 系统 中 一 个 单独 的 进程 或 线程 建 模 ，[569 
以 处 理 流 水 线 输入 的 元 组 流 ， 并 产生 相应 的 输出 元 组 流 。 

我 们 接 下 来 会 描述 需求 驱动 的 流水 线 和 生产 者 驱动 的 流水 线 如 何 实现 。 
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需求 驱动 的 流水 线 中 的 每 个 操作 可 以 用 迁 代 算 子 (iterator ) 来 实现 ， 该 迭代 算 子 提供 以 下 函数 : 
open( ) 、next( ) 及 close( ) 。 调 用 open( ) 后 ， 对 next ( ) 的 每 次 调用 返回 该 操作 的 下 一 个 输出 元 组 。 该 操 
作为 了 获取 所 需 输入 元 组 ， 在 其 输入 上 按 次 序 调用 open( ) 和 nexi( ) o Zt close( ) 用 于 告知 迭代 算 子 不 
再 需要 元 组 了 。 和 迭代 算 子 维护 两 次 调用 之 间 的 执行 状态 (state) ， 使 得 下 一 个 next( ) 调 用 请 求 可 以 获取 
下 面 的 结果 元 组 。 

例如 ， 对 一 个 采用 线性 搜索 实现 选择 操作 的 迭代 算 子 ，open( ) 操作 开始 一 次 文件 扫描 ， 和 迭代 算 子 
的 状态 记录 文件 中 已 扫描 到 的 位 置 。 当 调用 next( ) 函数 后 ， 文 件 扫描 从 前 次 记录 的 位 置 继续 执行 ;如 
果 通 过 扫描 文件 找到 了 满足 选择 条 件 的 下 一 个 元 组 ， 则 将 所 找到 元 组 的 位 置 存 储 到 迭代 算 子 状态 中 后 
将 元 组 返回 。 一 个 归并 -连接 迭代 算 子 的 open() 操作 将 打开 其 输入 ， 若 输入 未 排序 则 还 将 对 它们 排 
序 。 当 调用 next( ) 时， 和 迭代 算 子 将 返回 下 一 个 匹配 的 元 组 对 。 和 迭代 算 子 的 状态 信息 包含 每 次 输入 曾 扫 
描 过 的 位 置 。 和 迭代 算 子 的 实现 细节 留 作 实践 练习 12.7。 

而 生产 者 驱动 的 流水 线 以 不 同 的 方式 实现 。 对 在 生产 者 驱动 的 流水 线 中 每 一 对 相 邻 的 操作 ， 系 统 
会 创建 一 个 缓冲 区 来 保存 从 一 个 操作 传递 到 下 一 个 的 元 组 。 对 应 不 同 操作 的 进程 或 线程 会 并 发 执行 。 
流水 线 底部 的 每 个 操作 会 不 断 产 生 输 出 元 组 ， 并 将 它们 放 入 输出 缓冲 区 中 ， 直 到 缓冲 区 已 满 。 该 当 得 
到 来 自 更 底层 流水 线 的 输入 元 组 时 ， 流 水 线 的 任何 其 他 层 操作 会 产生 输出 元 组 ， 直 到 输出 缓冲 区 已 满 。 
一 旦 操作 使 用 了 来 自流 水 线 输入 的 元 组 , 便 会 将 它 从 输入 缓冲 区 中 移 除 。 不 管 在 哪 种 情况 下 ， 一旦 输 
出 缓冲 区 已 满 ， 该 操作 会 等 待 ， 直 到 它 的 父 操 作 将 缓冲 区 中 元 组 移 除 ， 以 便 缓冲 区 中 有 空间 放 入 更 多 
的 元 组 。 此 时 ， 该 操作 会 产生 更 多 的 元 组 ， 直 到 缓冲 区 再 次 满 了 为 止 。 操 作 重 复 这 样 的 过 程 ， 直 到 生 
成 所 有 的 输出 元 组 。 

只 有 当 一 个 输出 缓冲 区 已 满 ， 或 一 个 输入 缓冲 区 已 空 ， 需 要 多 的 输入 元 组 用 于 产生 输出 元 组 时 ， 
系统 才 需 要 在 各 操作 之 间 切 换 。 在 一 个 并 行 处 理 系 统 中 ， 流水线 中 的 操作 可 在 不 同 的 处 理 器 上 并 发 执 
行 ( 见 第 18 章 ) 。 

使 用 生产 者 驱动 的 流水 线 方法 可 以 被 看 作 将 数据 从 一 棵 操作 树 的 底层 推 (push) 上 去 的 过 程 ; 而 使 
用 需求 驱动 的 流水 线 方法 可 被 看 成 是 从 树 顶 将 数据 拉 ( pul) 上 来 的 过 程 。 在 生产 者 驱动 的 流水 线 中 ， 
元 组 的 产生 是 积极 的 ， 而 在 需求 驱动 的 流水 线 中 ， 元 组 消极 地 (lazily ) 按 需求 产生 。 需 求 驱 动 的 流水 线 
比 生产 者 驱动 的 流水 线 应 用 得 更 为 普遍 ， 因 为 它 更 容易 实现 。 但是， 生产 者 驱动 的 流水 线 在 并 行 处 理 
系统 中 非常 有 用 。 

12.7.2.2 ”流水线 的 执行 算法 

有 些 操作 例如 排序 ， 其 本 质 上 是 阻塞 操作 (blocking operation) ， 也 就 是 说 ， 它 们 可 能 不 能 输出 任何 
结果 ， 直 到 所 有 的 输入 元 组 被 检查 为 止 =。 

其 他 操作 (例如 连接 ) 本 身 并 不 阻塞 ， 但 具体 的 计算 算法 可 能 会 阻塞 。 例 如 ， 散 列 连 接 算法 是 一 个 
阻塞 操作 ， 因 为 在 输出 任何 元 组 之 前 ， 它 要 求 两 个 输入 都 被 完全 取 回 并 被 划分 。 而 索引 衣 套 循环 连接 
算法 随 着 得 到 外 部 关系 的 元 组 就 可 以 输出 结果 元 组 。 因 此 ， 它 称 为 在 外 部 ( 左 侧 ) 关 系 上 的 流水 线 化 
(pipelined) ， 尽 管 因为 在 索引 符 套 循环 连接 算法 执行 之 前 ， 必 须 充分 构建 索引 所 以 导致 在 其 索引 ( 右 
边 ) 输 入 上 阻塞 。 

混合 散 列 连接 可 以 被 看 作 是 在 探查 关系 上 部 分 流水 线 的 ， 因 为 当 从 探查 关系 中 接收 到 元 组 时 ， 它 
可 以 输出 来 自 第 一 个 划分 中 的 元 组 。 然 而 ， 不 位 于 第 一 个 划分 中 的 元 组 只 有 在 接收 整个 流水 线 输入 关 
系 后 才能 输出 。 如 果 构 造 用 输入 可 以 全 部 存放 在 内 存 中 ， 则 混合 散 列 连接 可 以 在 探查 用 输入 上 提供 流 
水 线 计算 ,或 者 如 果 构 造 用 输入 可 以 大 部 分 存放 在 内 存 中 ， 则 混合 散 列 连 接 可 以 在 探查 用 输入 上 提供 
近似 流水 线 计算 。 

如 果 两 个 输入 均 在 连接 属性 上 有 序 ， 并 且 连 接 条 件 是 等 值 连接 ， 则 可 以 使 用 归并 连接 ， 并 且 在 两 
个 输入 都 可 流水 线 化 。 





O ”如果 得 知 输入 满足 一 些 特殊 的 性 质 ， 例 如 已 经 排序 或 者 部 分 排序 ， 那 么 例如 排序 那样 的 阻塞 操作 就 可 能 能 够 较 
早 地 输出 元 组 。 然 而 ， 在 默认 这 种 信息 的 情况 下 ， 阻 塞 操 作 便 不 能 较 早 地 输出 元 组 。 
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然而 ， 在 更 常见 的 情况 下 ， 我 们 希望 进行 流水 线 化 的 连接 的 两 个 输入 并 没有 排序 。 另 一 种 方法 是 
双流 水 线 连接 ( double-pipelined join) 技术 ， 如 图 12-12 所 示 。 该 算法 假定 输入 关系 r+ 和 ; 的 元 组 都 是 流 
水 线 化 的 。 两 个 关系 的 元 组 放 入 单个 队列 中 等 待 处 理 。 特 别 的 队列 项 ，End, 和 End, , 作为 文件 结 














束 标记 ,在 "> 和。 acta agg vel Bers Leper 

插入 到 队列 中 。 为 了 有 效 地 计算 ， 应 该 在 关系 Dira fili 

RERSEG@A. BENE Ay; Pah r=: 

相关 的 索引 也 必须 保持 更 新 。 当 在 " 和 * 上 使 用 散 ware 

列 索引 时 ， 由 此 产生 的 算法 称 为 双流 水 线 散 列 连 while not done, or not done, do 

接 ( double-pipeline hash-join ) 技术 。 begin EA D. N 
图 12-12 中 的 双流 水 线 连 接 算法 假设 两 个 输入 gtd Pi 

都 可 以 存放 在 内 存 中 。 如 果 两 个 输入 比 内存 大 ， if 1 = End, then done, := true 

它 仍然 和 平常 情况 一 样 可 以 使 用 双流 水 线 连 接 技 else if 1 = End, then done, := true 

术 ， 直 到 可 用 内 存 全 部 满 了 为 止 。 当 可 用 内 存 满 aco 

Ts 截至 当前 的 r+ 和 的 元 组 可 以 各 自 当 做 处 于 划 r= rU iti; 

分 ro 和 so 中 。 随 后 到 来 的 r 和 的 元 组 被 各 自分 Wi a a 

派 给 划分 r, 和 s, ， 并 直接 写 信 磁盘， 而 不 会 添加 else/ * 1 属于 输入 关系 s */ | 

到 内 存 索引 中 。 但 是 ， 当 它们 写 入 到 磁盘 之 前 ， ba 

被 分 配给 mn 和 s, 的 元 组 会 分 别 用 来 探查 几 AM soo pn RUNG T, 

因此 六 I so 的 连接 以 及 so。 和 的 连接 同样 以 流水 end 

线 方式 执行 。 当 + 和 全 部 处 理 以 后 ， 必 须 执行 = | 

元 组 和 s, 元 组 的 连接 ， 以 完成 连接 操作 。 我 们 先 图 12-12 ”流水线 连 接 算法 


前 看 到 的 任何 连接 技术 都 可 以 用 来 连接 m A so 


12.8 


BS 


对 于 一 个 查询 ， 系 统 首 先 要 做 的 事 就 是 将 之 翻译 成 系统 内 部 表示 形式 。 对 于 关系 数据 库 系统 而 言 ， 

内 部 形式 通常 是 基于 关系 代数 的 。 在 产生 查询 的 内 部 形式 过 程 中 ， ee 
语法 ， 验 证 出 现在 查询 语句 中 的 关系 名 是 数据 库 中 的 关系 名 等 。 如 果 查 询 语句 是 用 视图 表达 的 ， 

法 分 析 器 把 所 有 对 视图 各 的 引用 将 换 成 计算 该 视图 的 关系 代数 表 这 式 。 

给 定 一 个 查询 ， 通 常 有 许多 计算 它 的 方法 。 将 用 户 输入 的 查询 语句 转换 成 等 价 的 、 执 行 效率 更 高 的 [371 

查询 语句 ， 这 是 优化 器 的 责任 。 第 13 章 描述 查询 优化 。 gis 
对 于 包含 简单 选择 的 查询 语句 ， 可 以 通过 线性 扫描 或 利用 索引 来 处 理 。 通 过 计算 简单 选择 结果 的 并 

和 交 ， 可 以 处 理 复杂 选择 操作 。 

可 以 用 外 部 归并 排序 算法 对 大 于 内 存 的 关系 进行 排序 。 

涉及 自然 连接 的 查询 语句 可 以 有 多 种 处 理 方法 ， 如 何 处 理 取决 于 是 否 有 索引 可 用 以 及 关系 的 物理 存 

储 形式 。 

D 若 连 接 的 结果 大 小 几乎 与 两 个 关系 的 笛 卡 儿 积 相当 ， 则 采用 块 襄 套 循环 连接 策略 较 好 。 

若 存在 索引 ， 则 可 用 索引 敬 套 循环 连接 。 

口 车 关系 已 排序 ， 则 归并 连接 比较 可 取 。 在 连接 计算 前 对 关系 排序 是 有 利 的 ( 为 了 能 使 用 归并 连接 算 

法 )。 

O 散 列 连接 算法 把 关系 划分 成 多 个 部 分 ， 使 每 个 部 分 都 能 被 内 存 所 容纳 。 划 分 过 程 是 通过 连接 属性 
上 的 散 列 函数 来 进行 的 ， 这 样 相应 的 划分 对 可 以 独立 地 进行 连接 。 

去 除 重复 、 投 影 、 集 合 操作 ( 并、 交 、 差 ) 、 聚 集 操 作 都 可 以 用 排序 和 散 列 实现 。 























。 外 连接 操作 可 以 通过 对 连接 算法 的 简单 扩展 来 实现 。 


散 列 与 排序 在 某 种 意义 下 是 对 偶 的 。 因 为 任何 能 用 散 列 实现 的 操作 (如 去 除 重复 、 投 影 、 聚 集 、 连 
接 、 外 连接 ) 也 可 用 排序 来 实现 ， 反 之 亦 然 ; 即 任何 能 用 排序 来 实现 的 操作 也 能 用 散 列 实现 。 
可 以 采用 物化 方法 进行 表达 式 的 计算 。 系 统计 算 每 个 子 表达 式 的 结果 并 将 其 存 到 磁盘 上 ， 然 后 用 它 
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进行 父 表达 式 的 计算 。 
。 流水 线 方法 在 子 表达 式 产生 输出 的 同时 就 在 父 表达 式 的 计算 中 使 用 其 输出 结果 ， 帮 助 我 们 避免 了 将 
许多 子 查询 的 结果 写 到 磁盘 的 操作 。 
术语 回顾 
。 查询 处 理 。 外 排序 O 散 列 表 溢 出 
。 计算 原 语 。 外 部 排序 归并 口 偏 余 
。 查询 执行 计划 。 归并 段 口 避让 因子 
。 查询 计算 计划 © N 路 归并 口 溢出 分 解 
。 查询 执行 引擎 。 等 值 连接 口 溢出 避免 
。 查询 代价 度量 © 网 套 循环 连接 。 混合 散 列 连接 
e 顺序 YO © RREME 。 运算 符 树 
。 随机 IO © 索引 嵌 套 循环 连接 。 物化 计算 
。 文件 扫描 。 归并 连接 © 双 缓 冲 
。 线性 搜索 。 排序 - 归并 连接 。 流水 线 计算 
。 使 用 索引 的 选择 。 混合 归并 连接 O 需求 驱动 的 流水 线 
© 存 取 路 径 © 散 列 连接 (消极 ， 拉 的 方式 ) 
。 索引 扫描 o 构造 O 生产 者 驱动 的 流水 线 
。 合 取 选择 探查 (积极 ， 推 的 方式 ) 
© 析 取 选择 构造 用 输入 口 迭代 算 子 
。 复合 索引 探查 用 输入 © 双流 水 线 连接 
© 标识 符 的 交 递归 划分 
实践 习题 


12. 1 (本 题 为 了 简单 起 见 ) 假 设 一 块 中 只 有 一 个 元 组 ， 内 存 最 多 容纳 3 块 。 当 使 用 排序 归并 算法 时 ， 给 出 
对 下 列 元 组 按 第 一 个 属性 排序 各 趟 所 产生 的 归并 段 : (kangaroo，17) 、(wallaby，21) 、(emu，1) 、 
(wombat, 13). (platypus, 3). (lion, 8), (warthog, 4), (zebra, 11), (meerkat, 6), (hyena, 
9). (hornbill, 2), (baboon, 12), 

12.2 考虑 图 12-13 中 银行 数据 库 的 例子 ， 其 中 主 码 以 下 划 线 标 出 。 考 虑 下 面 的 SQL 语句 ; 


573 select T. branch_name 
l from branch T, branch S 
574 where T. assets > S. assets and S. branch_city = " Brooklyn" 


写 一 个 与 此 等 价 的 、 高 效 的 关系 代数 表达 式 ， 并 论证 你 的 选择 。 

12.3 XRT (A, B, C), n(C, D, EE) 有 如 下 特性 : rn 有 20 000 个 元 组 , rn 有 45 000 个 元 组 ， 一 块 中 
可 容纳 25 个 7) 元 组 或 30 fr, 元 组 。 估 计 使 用 以 下 连接 策略 计算 m Mr, 需要 几 次 块 传输 和 磁盘 搜索 : 
a. KEMMET 
b SRE TRE BE 
c. 归并 连接 
d. BJNE 

12.4 ”如果 索引 是 辅助 索引 并 且 在 连接 属性 上 多 个 元 组 有 相同 的 值 ， 则 12. 5. 3 RAR te SRE HE 
算法 效率 不 高 。 为 什么 ? 找 出 一 种 利用 排序 减少 内 层 关系 元 组 检索 代价 的 方法 。 在 什么 条 件 下 该 算法 
比 混合 连接 算法 更 有 效 ? 

12.5 Sr, s 是 没有 索引 的 两 个 关系 ， 并 且 假 设 两 个 关系 也 没有 排序 。 假 设 内存 无 限 大 ， 计 算 >Ms 代价 最 
小 (就 VO 操作 而 言 ) 的 方法 是 什么 ? 该 算法 需 多 大 内 存 ? 

12.6 考虑 图 12-13 的 银行 数据 库 ， 其 中 主 码 用 下 划 线 标 出 。 假 设 关 系 branch 在 branch_city 属性 上 有 B' 树 
索引 ， 此 外 别 无 其 他 索引 。 列 出 处 理 下 列 包含 取 反 运算 的 选择 操作 的 不 同 的 方法 ? 


a.o—(branch_city < “ Brooklyn” ) (branch) 


12.7 


12. 10 


12.14 


12.17 
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b. o4( branch_city = “Brooklyn” ) (branch) 
c. ¢( branch_city < “ Brooklyn” V assets <5000) (branch) 


写 出 实现 索引 蔽 套 循环 连接 的 迭代 算 子 的 伪 码 ， 其 中 外 层 关系 是 流水 线 的 。 要 求 伪 码 定义 标准 迭代 算 


子 的 函数 open( ) 、next( ) 和 close( ) 。 显 示 在 不 同 的 调用 之 间 和 迭代 算 子 需要 维护 的 状态 信息 。 





branch( branch_name , branch_city, assets ) 

customer ( customer_name , customer_street , customer_city ) 
loan(loan_number , branch_name, amount) 

borrowerr( customer_name , loan_number ) 

account ( account_number , branch_name, balance ) 
depositor( customer_name , account_number ) 


图 12-13 银行 数据 库 
设计 基于 排序 的 和 基于 散 列 的 算法 ， 用 于 计算 关系 的 除 运算 ( 有 关 除 运算 定义 请 参照 第 6 章 的 实 
践 练习 ) 。 


为 每 个 归并 段 增加 缓冲 块 ， 而 用 于 缓冲 归并 段 的 总 可 用 内 存 保持 不 变 ， 这 对 于 归并 这 些 段 的 代 
价 有 什么 影响 ? 














假设 需要 排序 40GB 的 关系 ， 使 用 4KB 大 小 的 块 以 及 40GB 大 小 的 内 存 。 假 设 一 次 搜索 代价 是 

5 上 毫秒， 磁盘 传输 速率 是 每 秒 40MB, 

a. 对 于 久 =1 Alb, =100 的 情况 ,分 别 计算 排序 该 关系 的 代价 ( 以 秒 为 单位 ) 。 

b. 在 上 述 每 种 情况 下 ， 各 需要 多 少 遍 归并 ? 

c. 假设 用 一 个 闪存 设 备 来 替代 磁盘 ， 它 的 搜索 时 间 是 1 微妙 ， 传 输 速率 是 每 秒 40MB。 在 这 样 
的 设置 下 ， 对 于 4b =1 F b, =100 的 情况 ,分 别 重新 计算 关系 排序 的 代价 ( 以 秒 为 单位 )， 

考虑 如 下 关系 代数 运算 的 扩展 。 描 述 如 何 使 用 排序 和 散 列 实现 每 个 操作 。 

a, 半 连 接 ( semijoin) (Xa); r&os MAT g(r Kos), EP R 是 模式 7 的 属性 集合 。 即 在 7 中选 
择 如 下 的 元 组 7;: Es 中 存在 元 组 ;;， 使 得 7 与 ;能 满足 谓词 9。 

b. 反 半 连接 ( anti-semijoin) (Xa): r Kos 定义 为 r- IIR(CrxesS) ， 其 中 RR 是 模式 7 的 属性 集合 ; BI 
fer 中 选择 如 下 的 元 组 7;: 在 s 中 不 存在 元 组 s，, 使 得 7 与 s, 能 满足 谓词 6。 

为 什么 不 应 当 要 求 用 户 显 式 地 选择 查询 处 理 计划 ?是 否 存在 希望 用 户 知道 两 个 候选 的 查询 处 理 

计划 代价 的 情形 ?请 做 出 解释 。 

两 个 关系 都 在 物理 上 没 排 序 ， 但 各 自 都 有 在 连接 属性 上 排序 的 辅助 索引 ， 为 混合 归并 连接 算法 

设计 一 个 变 体 以 适应 这 种 情况 。 

估算 习题 12. 13 中 你 给 出 的 计算 r Mr, 的 解决 方案 所 需 磁 盘 块 传输 和 磁盘 搜索 次 数 ， 其 中 7、 

r 按照 实践 习题 12. 3 的 定义 。 

12. 5. 5 节 讲 述 的 散 列 连接 算法 用 于 计算 两 个 关系 的 自然 连接 。 说 明 如 何 扩 展 散 列 连接 算法 ， 以 

计算 自然 左 外 连接 、 自 然 右 外 连接 和 自然 全 外 连接 。( 提示 : 在 散 列 索引 中 保存 每 个 元 组 的 额 

外 信息 ， 判 断 在 探查 用 关系 中 是 否 有 与 散 列 索引 中 元 组 相 匹 配 的 元 组 -) 将 你 的 算法 用 到 关系 

takes 与 student 上 。 

流水 线 用 于 避免 把 中 间 结 果 写 回 磁盘 。 假 设 你 需要 用 排序 归并 法 对 一 个 关系 7 排序， 并 且 用 归 

并 连接 法 把 结果 与 已 排序 的 关系 * 做 连接 操作 。 

a. 描述 关系 7 排序 的 输出 如 何 组 成 流水 线 以 避免 写 回 磁盘 ? 

b. 即使 归并 连接 的 两 个 输入 都 来 自 排序 归并 操作 的 输出 ， 同 样 的 思想 还 是 适用 的 。 然 而 可 用 
的 内 存 必 须 在 两 个 归并 操作 之 间 共 享 (归并 连接 算法 本 身 只 需要 很 少 的 内 存 )， 这样， 必须 
共享 内 存 对 每 个 排序 归并 操作 的 代价 有 什么 影响 ? 

用 伪 码 书写 实现 排序 归并 算法 的 一 个 版 本 的 和 迭代 算 子 ， 其 中 最 后 一 次 归并 的 结果 使 用 流水 线 传 
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给 下 一 个 操作 。 要 求 伪 码 定义 标准 迁 代 算 子 的 函数 open( ) 、next( ) 和 close( ) 。 显 示 在 不 同 的 
调用 之 间 迭 代 算 子 需要 维护 的 状态 信息 。 

12. 18 ”假设 你 要 计算 , Gamo (7) Ma Ganco (7) 。 描 述 如 何 对 进行 一 次 排序 实现 对 这 两 个 表达 式 的 同 
时 计算 。 


文献 注解 


查询 处 理 器 必须 对 查询 语言 中 的 语句 做 语法 分 析 ， 并 且 必 须 将 它们 转换 成 某 种 内 部 表示 。 查 询 语 
言 的 语法 分 析 与 传统 编程 语言 的 语法 分 析 几 乎 没有 区 别 。 大 多 数 有 关 编 译 器 的 书 都 包含 主要 的 语法 分 
析 技 术 ， 并 从 编程 语言 的 角度 描述 了 优化 技术 。 

Graefe 和 McKenna[ 1993b ] 给 出 了 一 份 关 于 查询 执行 技术 的 非常 优秀 的 调研 。 

Knuth[ 1973 ] 给 出 了 关于 外 排序 算法 (包括 其 优化 算法 ) 的 极 好 描述 ， 叫 做 替代 选择 。 这 个 算法 能 
创建 大 小 (平均 来 说 ) 为 内 存 大 小 两 倍 的 初始 归并 段 。Nyberg 等 [1995 ] 的 研究 显示 ， 由 于 低 效 的 处 理 器 
缓存 行为 ， 对 产生 归并 段 来 说 替代 选择 方法 性 能 比 内 存 中 的 快速 排序 性 能 要 差 ， 抵 消 了 产生 更 长 的 归 
并 段 带 来 的 好 处 。Nyberg 等 [1995 ] 提出 一 种 高 效 的 外 排序 算法 ， 这 种 算法 把 处 理 器 缓存 的 效应 考虑 在 
内 。 处 理 器 缓存 的 效应 考虑 在 内 的 查询 执行 算法 已 得 到 广泛 的 研究 。 作 为 例子 可 以 参考 Hariopoulos 和 
Ailamaki[ 2004 | 。 

根据 20 世纪 70 年 代 中 期 所 进行 的 性 能 研究 ， 当 时 的 数据 库 系 统 只 使 用 符 套 循环 连接 和 归并 连接 ， 
包括 Blasgen 和 Eawaran [1976] ， 这 些 同 System R 的 开发 相 联系 的 研究 表明 ， 骨 套 循环 连接 或 归并 连接 
几乎 总 能 提供 最 佳 连接 方式 ， 因 此 ，System R 中 实现 的 连接 算法 只 有 这 两 种 。 然 而 ，Blasgen 和 
Eswaran [1976] 没 有 包括 对 散 列 连接 算法 的 分 析 。 现 在 ， 散 列 连接 被 认为 是 效率 很 高 的 并 得 到 广泛 的 
使 用 。 

散 列 连接 算法 最 初 为 并 行 数据 库 系统 而 设计 。 散 列 连接 技术 在 Shapiro[ 1986 ] 中 描述 。Zeller 和 
Gray[ 1990 ] 以 及 Davison 和 Graefe[ 1994 ] 所 描述 的 散 列 连接 技术 ， 可 以 根据 可 用 内 存 作 调整 ， 而 这 一 点 
在 多 个 查询 可 同时 运行 的 系统 上 非常 重要 。Graefe 等 [ 1998 ] 描述 了 散 列 连接 和 散 列 组 的 使 用 ， 他 们 采 
用 一 种 在 一 个 流水 线 序列 中 对 所 有 的 散 列 连接 进行 相同 划分 的 方法 ， 在 Microsoft SQL Server 中 对 散 列 
连接 进行 流水 线 化 。 
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查询 优化 


对 一 个 给 定 的 查询 ， 尤 其 是 复杂 查询 ， 通 常会 有 许多 种 可 能 的 策略 ， 查 询 优 化 ( query optimization) 
就 是 从 这 许多 策略 中 找 出 最 有 效 的 查询 执行 计划 的 一 种 处 理 过 程 。 我 们 不 期 望 用 户 能 够 写 出 一 个 能 高 
效 处 理 的 查询 ， 而 是 期 望 系 统 能 够 构造 一 个 能 让 查询 执行 代价 最 小 化 的 查询 执行 计划 。 这 正 是 查询 优 
化 起 作用 的 地 方 。 

优化 一 方面 在 关系 代数 级 别 发 生 ， 即 系统 尝试 找 出 一 个 与 给 出 的 表达 式 等 价 但 执行 起 来 更 为 高 效 
的 表达 式 。 另 一 方面 是 为 处 理 查 询 选 择 一 个 详细 的 策略 ， 比 如 对 一 个 操作 的 执行 选择 所 用 的 算法 ， 选 
择 使 用 的 特定 索引 等 。 

一 个 好 的 查询 策略 和 一 个 差 的 查询 策略 在 代价 (执行 时 间 ) 上 通常 会 有 相当 大 的 区 别 ， 可 能 会 相差 
好 几 个 数量 级 。 因 此 ， 即 使 查询 只 执行 一 次 ， 系 统 为 处 理 查询 选择 一 个 好 的 策略 花费 一 定量 的 时 间 是 
完全 值得 的 。 


13.1 概述 
考虑 下 面 查 询 “ 找 出 Music 系 的 所 有 教师 名 字 以 及 每 个 教师 所 教授 课程 名 称 " 的 关系 表达 式 ; 


Tl pame tinle ( O depi name = "musie" (nstructor[IX(teaches DXX Tleourse_id, title( course) ) ) ) 


注意 ，course 上 (course_id, title) 的 投影 是 必需 的 ， 因 为 course 和 instructor 有 一 个 公共 属性 dept _ 
name ， 如 果 我 们 不 通过 投影 来 删 掉 这 个 属性 ， 则 上 面 自然 连接 的 表达 式 会 仅 返 回 Music 系 的 课程 ， 尽 
管 Music 系 的 一 些 教师 可 能 教授 其 他 系 的 课程 。 

以 上 表达 式 需 产生 一 个 很 大 的 中 间 关 系 ，insiructor M teaches M Tlcourse_id，title( course)。 然 而 ， 我 
们 只 对 这 个 关系 的 少数 元 组 感 兴趣 (那些 与 音乐 系 的 教师 有 关 的 ) ， 并 且 只 对 这 个 关系 的 10 个 属性 中 的 
两 个 感 兴趣 。 由 于 我 们 只 关心 instructor 关系 中 与 音乐 系 有 关 的 元 组 ， 我 们 没有 必要 考虑 不 满足 dept_ 
name = “ Music” 条 件 的 元 组 。 通 过 减少 要 访问 的 instructor 关系 的 元 组 数 ， 也 就 减少 了 中 间 结 果 的 大 小 。 
现在 将 查询 表示 为 如 下 的 关系 代数 表达 式 : 


TIname, title( (Ga name =" muie” (instructor) ) DI (teaches M Tcourse_id, title( course) ) ) 


它 与 我 们 前 面 的 表达 式 等 价 ， 但 它 产 生 的 中 间 关 系 较 小 。 初 始 表 达 式 以 及 变换 后 表达 式 如 图 13-1 所 示 。 


name, title 





e, title 
a namete 
x oe i 
instructor x ie = = Music x my 
teaches M ours A gi instructor teaches | course_id, title 
course course 
a) 初始 表达 式 树 b) 转化 后 的 表达 式 树 


图 13-1 等 价 表达 式 
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一 个 执行 计划 确切 地 定义 了 每 个 运算 应 使 用 的 算法 ， 以 及 运算 之 间 的 执行 应 该 如 何 协调 。 图 13-2 
表明 了 图 13-1b 的 表达 式 的 一 个 可 行 的 执行 计划 。 正 如 我 们 看 到 的 ， 每 个 关系 运算 可 以 有 几 种 不 同 的 
算法 ， 从 而 可 产生 其 他 的 执行 计划 。 在 图 13-2 中 ， 连 接 运算 中 的 一 个 选择 了 散 列 连接 ， 另 一 个 则 在 连 
接 的 ID 属性 上 将 关系 排序 后 ， 选 用 归并 连接 。 在 凡 被 标记 流水 线 的 边 上 ， 生 产 者 的 输出 直接 流向 消费 
者 ， 而 不 会 被 写 和 磁盘。 

给 定 一 个 关系 代数 表达 式 ， 查 询 优化 器 的 任务 是 产生 一 个 查询 执行 计划 ， 该 计划 能 获得 与 原 关系 
表达 式 相同 的 结果 ， 并 且 得 到 结果 集 的 执行 代价 最 小 (或 至 少 是 不 比 最 小 执行 代价 大 多 少 ) 

为 了 找到 代价 最 小 的 查询 执行 计划 ， [了 (排序 以 消除 重复 ) 
查询 优化 器 需要 产生 一 些 能 和 给 定 表达 name; title 
式 得 到 相同 结果 的 候选 计划 ， 并 选择 代 | 
价 最 小 的 一 个 。 查 询 执行 计划 的 产生 有 DI (归并 连接 ) 

三 步 : (1) 产 和 逻辑 上 与 给 定 表达 式 等 价 pipeline “流水线 

的 表达 式 ; (2) 对 所 产生 的 表达 式 以 不 同 sort 

方式 作 注 释 ， 产 生 不 同 的 查询 计划 ; (3) | 

估计 每 个 执行 计划 的 代价 ， 选 择 估计 代 sorti DI (BEE) 
价 最 小 的 一 个 。 | 流水线 Naira 

查询 优化 器 中 第 (1) ~ (3) 步 是 交叉 6 I 
的 : 先 产 生 一 些 表 达 式 并 加 以 注释 ， 注 
释 后 产生 执行 计划 ， 然 后 再 进一步 产生 / 
一 些 表达 式 并 加 以 注释 ， 依 此 类 推 。 执 instructor teaches Course 
行 计划 产生 后 ， 其 代价 通过 关系 的 统计 图 13-2 一 个 执行 计划 
信息 (如 关系 的 大 小 和 索引 的 深度 ) 来 
估计 。 

要 完成 第 一 步 ， 查 询 优化 器 需要 产生 与 给 定 表 达 式 等 价 的 表达 式 ， 这 是 通过 等 价 规则 来 进行 的 ， 
等 价 规则 详细 说 明了 如 何 将 一 个 表达 式 转换 成 逻辑 上 等 价 的 另 一 个 表达 式 ，13. 2 节 将 讲述 这 些 规则 。 

13. 3 节 描述 了 如 何 估计 一 个 查询 计划 中 每 个 操作 的 结果 的 统计 大 小 。 将 这 些 统计 结果 应 用 到 第 12 
章 中 的 代价 公式 就 可 以 估计 出 单个 操作 的 代价 。 把 这 些 单个 操作 的 代价 合 起 来 就 能 够 确定 出 执行 给 定 
关系 代数 表达 式 的 代价 估计 ， 就 像 此 前 12. 7 节 概 述 的 那样 。 

13. 4 节 讲 述 如 何 选择 一 个 查询 执行 计划 。 我 们 可 以 基于 执行 计划 的 代价 估计 来 进行 选择 。 由 于 代 
价 是 估计 值 ， 因 此 所 选 计划 未 必 是 代价 最 小 的 计划 ; 但 是 ， 只 要 估计 得 好 ， 该 计划 很 可 能 是 代价 最 小 
的 计划 ， 或 其 代价 不 比 最 小 值 大 多 少 。 

最 后 ， 物 化 视图 能 够 帮助 加 速 某 些 查询 的 处 理 。13. 5 节 将 研究 如 何 “ 维 护 "物化 视图 ( 即 ， 使 它们 
保持 最 新 ) 以 及 如 何 利 用 物化 视图 执行 查询 优化 。 


13.2 关系 表达 式 的 转换 


一 个 查询 可 以 表示 成 多 种 不 同 的 形式 ， 每 种 形式 具有 不 同 的 执行 代价 。 在 这 一 节 里 ， 我 们 不 是 仅 
仅 按 照 给 定 的 关系 表达 式 那 样 去 做 ， 而 是 考虑 其 他 可 选 的 等 价 表 达 式 。 

如 果 两 个 关系 表达 式 在 每 一 个 有 效 数 据 库 实 例 中 都 会 产生 相同 的 元 组 集 ， 则 我 们 称 它们 是 等 价 的 
(equivalent) 。( 回 忆 一 下 ， 一 个 有 效 的 数据 库 实例 是 指 满足 在 数据 库 模 式 中 指定 的 所 有 完整 性 约束 的 
数据 库 实 例 。) 注 意 ， 元 组 的 顺序 是 无 关 紧要 的 ; 两 个 表达 式 可 能 以 不 同 的 顺序 产生 元 组 ， 但 只 要 元 组 
集 是 一 致 的 ， 就 认为 它们 是 等 价 的 。 

在 SQL 语言 中 ， 输 入 和 输出 都 是 元 组 的 多 重 集合 ， 关 系 代数 的 多 重 集合 版 本 ( 在 本 节 的 示例 栏 中 
描述 ) 用 于 评估 SQL 查询 。 若 对 于 任意 有 效 的 数据 库 ， 两 个 表达 式 产 生 相 同 的 元 组 多 重 集合 ， 则 称 多 
重 集合 版 本 的 这 两 个 关系 代数 表达 式 是 等 价 的 。 这 一 章 的 讨论 是 基于 关系 代数 的 。 我 们 将 关系 代数 的 
多 重 集合 版 本 的 扩充 留 给 读者 作为 练习 。 


dept_name = Music 


(使 用 索引 1) 


course_id, title 








查看 查询 执行 计划 


第 13 章 查询 优化 331 


许多 数据 库 系 统 提供 一 种 方式 来 查看 执行 给 定 查询 所 选择 的 查询 执行 计划 。 通 常 最 好 的 方式 是 
用 数据 库 系统 提供 的 图 形 用 户 界面 来 查看 执行 计划 。 然 而 ， 如果 你 采用 命令 行 界面 ， 许 多 数据 库 支 
持 一 条 命令 “explain < query > ”的 变种 ， 来 显示 对 于 特定 查询 < query > 所 选择 的 执行 计划 。 不 同 的 


数据 库 采 用 不 同 的 严格 语法 : 


© PostgreSQL 采用 上 述 语 法 。 


e Oracle 采用 语法 explain plan for。 但 是 ， 此 命令 将 结果 计划 存储 在 一 个 四 plan_table 的 表 中 ， 
而 不 是 直接 显示 它 。 查 询 “select ”from table( dbms_xplan. display) ; ”显示 存储 的 计划 。 
© DB2 采用 和 Oracle 类 似 的 方法 ， 但 是 要 求 执行 db2exfmt 程序 来 显示 存储 的 计划 。 
© SQL Server 要 求 提交 查询 前 执行 命令 set showplan_text on， 然 后 当 提 交 查 询 后 ， 显 示 查 询 计 
划 ， 而 不 显示 执行 查询 。 
为 计划 估计 的 代价 也 随 着 计划 显示 。 值 得 注意 的 是 ， 代 价 通常 没有 以 外 在 意义 的 (例如 秒 或 了 
0 操作 ) 单 位 表示 ， 而 以 优化 器 采用 的 代价 模型 的 单位 表示 。 有 些 优 化 器 显示 两 个 估计 代价 数字 ， 
例如 PostgreSQL。 第 一 个 表示 对 第 一 个 输出 结果 估计 的 代价 ， 第 二 个 表示 对 所 有 输出 结果 估计 的 


代价 。 


13. 2. 1 等 价 规 则 


等 价 规则 ( equivalence rule) 指出 两 种 不 同形 式 的 表达 式 是 等 价 的 。 我 们 可 以 用 第 二 种 形式 的 表达 式 
代替 第 一 种 ， 或 者 反之 一 一 可 以 用 第 一 种 形式 的 表达 式 代替 第 二 种 ， 这 是 因为 这 两 种 表达 式 在 任何 有 
效 的 数据 库 中 将 产生 相同 的 结果 集 。 优 化 器 利 用 等 价 规则 将 表达 式 转 换 成 逻辑 上 等 价 的 其 他 表达 式 。 

下 面 列 出 关系 代数 表达 式 的 一 些 通用 等 价 规则 。 所 列 出 的 等 价 式 中 的 一 些 在 图 13-3 做 了 说 明 。 我 


们 用 9、6 、 
ar 
7 X 
E} E, 
Xx 
OS 
x 
7 ~ 
E; Eo 


Pe 


规则 5 





规则 6.a 


规则 7.a 
如 果 8 只 含有 E 的 属性 


图 13-3 ”等 价 表达 式 的 图 形 化 表示 
1. 合 取 选择 运算 可 分 解 为 单个 选择 运算 的 序列 。 该 变换 称 为 o 的 级 联 : 


Tana (E) =04 (ce (E)) 


2. 选择 运算 满足 交换 律 (commnutative ) : 


6, 等 表示 谓词 ，L, L, L FRANZ, ME, E E, 等 表示 关系 代数 表达 式 。 关 系 
名 上 是 关系 代数 表达 式 的 特例 ,在 五 出 现 的 任何 地 方 它 都 可 以 出 现 。 


X g 
O N 
E; E} 
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Oo (T (E)) =T (0; (E)) 
3. 一 系列 投影 运算 中 只 有 最 后 一 个 运算 是 必需 的 ， 其 余 的 可 省 略 。 该 转换 也 可 称 为 开 的 级 联 : 
I (Te, (2) 9) = M, (E) 
4. 选择 操作 可 与 笛 卡 儿 积 以 及 0 连接 相 结合 
a. o,(E, x E,) =E WE 
该 表达 式 就 是 9 连接 的 定义 。 
b. Ca (E, x, E,) =E 1 网 。AoE2 
5. 0 连接 运算 满足 交换 律 : 
EM E, = E,W ,bE 
事实 上 ， 左 端 和 右 端的 属性 顺序 不 同 ， 所 以 如 果 考 虑 属性 顺序 的 话 ， 等 式 不 成 立 。 可 以 对 等 价 规 
则 的 其 中 一 端 加 入 一 个 投影 操作 以 适当 重 排 属性 ， 但 为 了 简化 ， 我 们 省 略 了 该 投影 并 且 在 大 部 分 例子 
中 忽略 属性 顺序 。 
回忆 一 下 ， 自 然 连接 是 9 连接 的 特例 ， 因 此 自然 连接 也 满足 交换 律 。 
6. a 自然 连接 运算 满足 结合 律 ( associative ) : 
(EME,) XE, =E (E, E, ) 
b. 9 连接 具有 以 下 方式 的 结合 律 : 
(E a Ez) Mens Es = EM ono, (EM, E3 ) 
其 中 & AWE E, 与 的 属性 。 由 于 其 中 的 任意 一 个 条 件 都 可 为 空 ， 因 此 笛 卡 儿 积 ( x ) 运算 也 满 
足 结合 律 。 连 接 运 算 满 足 结合 律 、 交 换 律 在 查询 优化 中 对 于 重 排 连接 顺序 是 很 重要 的 。 
7. 选择 运算 在 下 面 两 个 条 件 下 对 9 连接 运算 具有 分 配 律 : 
584 a. 当选 择 条 件 9, 中 的 所 有 属性 只 涉及 参与 连接 运算 的 表达 式 之 一 (比如 E, ) 时 ， 满 足 分 配 律 : 
oo (EM E) = (04, (E) ) MXE, 
b， 当 选择 条 件 9, 只 涉及 E, 的 属性 ， 选 择 条 件 9, 只 涉及 E, 的 属性 时 ， 满 足 分 配 律 : 
Tano (EM E) = (o4,(E,)) Xa a (E) ) 
8. 投影 运算 在 下 面条 件 下 对 9 连接 运算 具有 分 配 律 : 
a OL, L PAAR E, E, 的 属性 。 假 设 连接 条 件 9 只 涉及 万 UL, 中 的 属性 ， 则 : 
Meu, (EE) = (I (E) ) pg 0C, (E) ) 
b. FIBER EMK, E. SL, L PIRRE., E 的 属性 集 ; $ L Æ E 中 出 现在 连接 条 件 6 中 
BRE L UL 中 的 属性 ; $ L Æ E, 中 出 现在 连接 条 件 9 中 但 不 在 五 UL, 中 的 属性 。 那 么 : 
Iu, (EMKE) = | ¢ ( Te GB ) ) Mg Tew, (2s ))) 
9. 集合 的 并 与 交 满 足 交 换 律 。 
E, UE, = E,UE, 
E, NE, = EAE, 
集合 的 差 运算 不 满足 交换 律 。 
10. 集合 的 并 与 交 满足 结合 和 
(E, UE) UE, = EU(E,UE,) 
(ENE) NE, = Ei NE AQE) 
11. 选择 运算 对 并 、 交 、 差 运算 具有 分 配 律 
Op(E -E,) =op(E,) -op(E,) 
类 似 地 ， 上 述 等 价 规则 将 ”- ”替换 成 U 或 时 也 成 立 。 进 一 步 有 : 
op(E, -E,) =op(E,) - E, 
上 述 等 价 规则 将 ”- “替换 成 作 时 也 成 立 , 但 将 ”-“ 替 换 成 U 时 不 成 立 。 
12. 投影 运算 对 并 运算 具有 分 配 律 。 
585 IL(E VE,) = (I(E) )U (I(E) ) 


第 13 章 查询 优化 333 


以 上 列 出 的 只 是 等 价 规则 的 一 部 分 。 涉 及 扩展 关系 代数 运算 符 ( 如 外 连接 和 聚集 ) 的 更 多 等 价 规则 
将 在 习题 中 讨论 。 
13. 2.2 转换 的 例子 

下 面 举例 说 明 等 价 规则 的 用 法 。 我 们 用 大 学 这 个 例子 ， 其 关系 模式 如 下 : 


Instructor( ID, name, dept_name, salary) 
teaches( ID, course_id, sec_id, semester, year ) 
course( course_id, title, dept_name, credits ) 


在 13. 1 节 的 例子 中 ， 表 达 式 : 


T pame title ( O depi name = “musie” ( instructor DX (teaches DX! Tcourse_id , title( course) ) ) ) 


转换 成 以 下 表达 式 : 


Tl pame title ( (aap name = “Musie” (instructor) ) DX ( teaches DXI Teourse_id, title( course) ) ) 


转换 后 表达 式 等 价 于 原始 关系 代数 表达 式 ， 但 产生 较 小 的 中 间 关 系 。 这 一 转换 可 用 规则 7. a 来 实 
现 。 记 住 ， 规则 只 是 说 两 个 表达 式 等 价 ， 而 未 表明 就 优 就 劣 。 

针对 一 个 查询 或 查询 的 一 部 分 ， 可 以 连续 使 用 多 条 等 价 规则 。 作 为 一 个 例子 ,假设 我 们 对 原先 的 
查询 加 以 修改 ,将 注意 力 限制 在 2009 年 教授 一 门 课程 的 那些 教师 。 新 的 关系 代数 查询 可 写 为 : 


Tame title ( Ø dep name = “Musie” year =2009 ( instructor DX ( teaches DX TY, sa tute (course) ) ) ) 


我 们 不 能 把 选择 谓词 直接 应 用 到 instructor 关系 上 ， 因 为 该 谓词 同时 牵涉 instructor 和 teaches 两 个 关系 的 
属性 。 然 而 ， 我 们 可 以 先 用 规则 6.a (自然 连接 的 结合 律 ) 把 连接 instructor 网 (teaches 网 Teguise id ite 
(course) ) 转换 成 (instructor MX teaches ) MII id tue ( course) : 





TI ame stile ( © dept_name = “Music” A year = 2009 ( (instructor M teaches ) DX Tow Hii (course) ) ) 586 











然后 使 用 规则 7. a， 可 将 查询 改写 为 : 


了 aa ( © dept_name = “Music” A year = 2009 (instructor MX teaches ) ) DX TH .ourse-id site ( Course ) ) 


我 们 再 看 看 该 表达 式 的 选择 子 表 达 式 。 利 用 规则 1， 可 以 把 选择 条 件 分 解 为 两 个 选择 条 件 ， 得 到 
以 下 子 表达 式 : 


© dept_name = “Music” (T joar s2009 (instructor DX teaches ) ) 


上 述 两 个 表达 式 均 选择 出 同时 满足 dept_name = “ Music” X year = 2009 条 件 的 元 组 。 但 后 一 表达 式 
形式 可 以 让 我 们 应 用 7. aC “尽早 执行 选择 ”) 这 条 规则 ， 得 到 如 下 子 表 达 式 : 


O depi name = “musie” (instructor) DXI O ear -2009 ( teaches ) 


初始 表达 式 及 经 过 上 述 转换 后 的 最 终 表达 式 的 图 形 化 表示 如 图 13-4 所 示 。 实 际 上 我 们 也 可 以 应 用 
规则 7. b 直接 得 到 最 后 的 表达 式 ， 而 不 必用 规则 1 将 选择 分 解 为 两 个 选择 。 事 实 上 ， 规 则 7. b 本 身 可 
由 规则 1 及 7.a 导 出 。 

车 一 组 等 价 规则 中 任意 一 条 规则 都 不 能 由 其 他 规则 联合 起 来 导出 ， 称 这 组 等 价 规则 集 为 最 小 的 
(minimal) 等 价 规则 集 。 上 例 表明 13. 2. 1 节 中 的 等 价 规则 集 不 是 最 小 的 。 一 个 与 初始 表达 式 等 价 的 表 
达 式 可 以 用 不 同 的 方式 产生 。 若 不 使 用 等 价 规则 的 最 小 集 ， 则 产生 表达 式 的 不 同方 法 的 数量 也 会 增加 。 
因此 ， 查 询 优化 器 使 用 等 价 规则 的 最 小 集 。 

对 上 述 例子 的 查询 ， 现 在 考虑 如 下 的 形式 : 

Trame title ( ( O depi name = "musie" ( instructor ) DX teaches ) DA Ts ia tite ( course ) ) 

当 计算 子 表达 式 时 : 

(O epi name =" musie” ( instructor) DX teaches ) 


得 到 具有 如 下 模式 的 关系 : 


(ID, name, dept_name, salary, course_id, sec_id, semester, year) 


通过 使 用 等 价 规则 8. a 及 8. b 先 做 投影 运算 ， 可 以 从 模式 中 去 除 几 个 属性 。 要 保留 的 属性 是 那些 
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name, title | name, title 


dept_name = Music 
A year = 2009 
x] we oe Ji course_id, title 
Pe Ma Odept_name = Music O year = 2009 


teaches Il wit instructor teaches course 
| course_id, title 


q= a 





instructor 


course 


a) 初始 表达 式 树 b) 多 次 转换 后 的 表达 式 树 
图 13-4 多 次 转换 


出 现在 查询 结果 中 或 在 后 续 运 算 中 要 处 理 的 属性 。 通 过 去 除 不 必要 的 属性 ， 可 以 减少 中 间 结 果 的 列 数 ， 
从 而 减 小 中 间 结 果 的 大 小 。 在 该 例子 中 ， 从 instructor 与 teaches 的 连接 中 我 们 只 需 属性 name 和 course_ 
id。 因 此 可 将 表达 式 修 改 为 : 
T pame, tiste ( ( Iname course id ( ( O dept name =" Musie” (instructor) ) MK teaches) DI TI ourse id rite ( course) ) 

投影 II wc a 减 小 了 中 间 连 接 结果 的 大 小 。 
13.2.3 连接 的 次 序 

一 个 好 的 连接 运算 次 序 对 于 减少 临时 结果 的 大 小 是 很 重要 的 ， 因 此 大 部 分 查询 优化 器 在 连接 次 序 
上 花 了 很 多 工夫 。 正 如 第 6 章 及 在 等 价 规则 6. a 提 到 的 ， 自 然 连接 运算 满足 结合 律 。 所 以 ， 对 任 给 关 
Arn 7, in, A 

(rAr) Mr, = rX (r MAr) 


虽然 这 两 个 表达 式 等 价 ， 但 计算 它们 的 代价 可 能 不 同 。 再 次 考虑 表达 式 


pame rite ( ( O depe name =" Musie” (instructor) ) DX teaches MK Tours id site ( Course) ) 


我 们 可 以 选择 先 计算 teaches MT www (course) ， 然 后 将 结果 与 


O sp name =" Musio" (instructor ) 


相连 接 。 
ABE, teaches MT ia site (Course) 可 能 是 一 个 很 大 的 关系 ， 因 为 每 门 课 均 对 应 一 个 元 组 。 与 此 
相反 ， 


O depi name = “Musie” (instructor) ) MK teaches 


很 可 能 是 一 个 小 关系 。 为 说 明 这 一 点 ， 我 们 注意 到 因为 一 所 大 学 拥有 很 多 系 ， 很 可 能 只 有 一 小 部 分 大 
学 教师 和 音乐 系 相 关 。 因 此 ， 上 述 表 达 式 得 到 的 结果 对 于 音乐 系 的 每 个 教师 所 教授 的 每 门 课 有 一 个 元 
组 。 这 样 ， 我 们 需要 保存 的 临时 关系 比 先 计算 teaches MII, id tiie ( Course ) 连接 所 需 保存 的 关系 要 小 。 

执行 查询 还 需要 考虑 其 他 因素 。 我 们 不 关心 属性 在 连接 中 出 现 的 次 序 ， 因 为 在 显示 结果 前 改变 属 
性 的 顺序 是 很 容易 的 。 因 此 ， 对 于 任何 关系 7 、7: 

rAr, =r,Mn, 

即 自然 连接 满足 交换 律 ( 等 价 规则 5) 。 

利用 自然 连接 满足 结合 律 与 交换 律 (规则 5 与 6) 的 性 质 ， 考 虑 如 下 关系 代数 表达 式 : 

(instructor Dl TI purse ia site (course) ) DX teaches 


请 注意 ， 因 为 Mouse idii (Course) 与 instructor 之 间 没 有 公共 属性 ， 所 以 以 上 连接 为 笛 卡 儿 积 。 若 
instructor 中 有 a NICH, Ioue id we (course) 中 有 5 个 元 组 ,该 笛 卡 儿 积 将 产生 a xb 个 元 组 ， 结 果 集 中 的 
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每 个 元 组 均 为 instructor 的 一 个 元 组 与 course 的 一 个 元 组 所 可 能 形成 的 元 组 对 (该 计算 没有 考虑 教师 是 否 
教授 课程 ) 。 因 此 ， 该 笛 卡 儿 积 将 产生 较 大 的 临时 关系 。 然 而 ， 如 果 用 户 输入 以 上 表达 式 ， 我 们 可 以 用 
自然 连接 的 结合 律 与 交换 律 把 这 个 表达 式 转换 成 前 面 我 们 所 用 的 更 有 效 的 表达 式 : 


(instructor DX teaches ) DC TI id ute ( Course ) 


13.2.4 等 价 表达 式 的 枚 举 

查询 优化 器 使 用 等 价 规则 系统 地 产生 与 给 定 表达 式 等 价 的 表达 式 。 在 概念 上 ， 该 流程 如 图 13-5 所 
描述 。 处 理 过 程 如 下 : 给 定 一 个 表达 式 EE， 等 价 表 达 式 集合 EQ 最 初 只 包含 所。 现在 ,将 EQ 中 的 每 条 
表达 式 与 每 条 等 价 规则 匹配 。 如 果 表 达 式 E, 中 有 任何 子 表达 式 e 作为 特例 ， 可 能 就 是 E A) 与 等 
价 规则 的 某 一 边 相 匹配 ， 优 化 器 就 产生 一 个 新 的 表达 式 ， 其 中 子 表达 式 e, 被 蔡 换 成 与 它 相 匹配 的 规则 
的 男 一 边 。 结 果 表 达 式 加 入 到 EQ 中 。 该 处 理 过 程 不 断 进行 下 去 ， 直 到 不 再 有 新 表达 式 产生 为 止 。 

上 述 处 理 方式 无 论 在 时 间 上 还 是 在 空间 上 代价 都 很 大 。 但 是 采用 两 种 关键 思想 ， 优 化 器 可 以 极 大 
地 减少 空间 和 时 间 上 的 开销 。 

1. 如 果 在 子 表达 式 * 上 使 用 等 价 规则 把 表达 式 E, HRR E, WRT o 及 其 转换 ，E, 与 已 有 相同 
的 子 表 达 式 。 而 且 e 及 其 转换 通常 也 有 许多 相同 的 子 表达 式 。 可 以 采用 一 些 表 达 式 表示 技术 ， 使 两 个 
表达 式 指 向 共享 的 子 表达 式 ， 这 样 可 以 明显 减少 对 空间 的 需求 。 

2. 不 必 总 是 用 等 价 规则 产生 所 有 可 以 产生 的 表达 式 。 正 如 我 们 将 在 13. 4 节 中 看 到 的 那样 ， 如 果 考 
虑 估计 的 执行 代价 ， 优 化 器 可 以 避免 检查 某 些 表 达 式 。 使 用 这 些 技 术 ， 可 以 减少 优化 所 需 时 间 。 

我 们 将 会 在 13. 4. 2 节 再 次 讨论 这 些 问 题 。 





procedure genAllEquivalent( Æ) 
EQ= |E| 
repeat 
将 EO 中 的 每 条 表达 式 E, 与 每 条 等 价 规则 R, 进行 匹配 
WR E, 的 某 个 子 表达 式 与 R, 的 某 一 边 相 匹配 
生成 一 个 与 E, SOE, Bebe, 被 替换 成 RR 的 另 一 边 
如 果 EREE 中 ， 则 将 其 添加 到 EC 中 
until 不 再 有 新 的 表达 式 可 以 添加 到 EQ 中 


图 13-5 产生 所 有 等 价 表达 式 的 过 程 


13.3 ”表达 式 结 果 集 统计 大 小 的 估计 


一 个 操作 的 代价 依赖 于 它 的 输入 的 大 小 和 其 他 统计 信息 。 给 定 一 个 表达 式 ， 如 aM(bMec)， 估计 a 
与 (bMc) 的 连接 代价 ,我 们 需要 有 一 些 统计 信息 的 估计 ， 比 如 (5 Mc) 的 大 小 。 

在 这 一 节 中 ， 首 先 列 出 一 些 有 关 存 储 在 数据 库 目 录 中 的 关于 数据 库 关系 的 统计 信息 ， 然 后 指出 如 
何 使 用 这 些 统计 信息 估计 不 同 关 系 操作 运算 结果 的 统计 信息 。 

在 这 一 节 里 稍 后 可 以 看 出 ， 该 估计 并 不 十 分 精确 ， 因 为 估计 是 基于 一 个 不 严密 的 假设 。 因 此 ， 某 
个 具有 最 小 执行 代价 估计 的 查询 执行 计划 可 能 事实 上 并 不 具有 最 小 的 实际 执行 代价 。 然 而 ， 实 践 经 验 
告诉 我 们 ， 即 使 估计 并 不 精确 ， 具 有 最 小 代价 估计 的 计划 通常 等 于 或 接近 于 实际 最 小 执行 代价 。 
13. 3.1 目录 信息 

数据 库 系统 目录 存储 了 有 关 数 据 库 关系 的 下 列 统 计 信息 : 

。 n,， 关 系 7r 的 元 组 数 。 

。 0 六， 包含 关系 了 中 元 组 的 磁盘 块 数 。 

。 l, 关系 + 中 每 个 元 组 的 字 节 数 。 

。 ,关系 7 的 块 因 子 一 一 一 个 磁盘 块 能 容纳 关系 7 中 元 组 的 个 数 。 

e VA, r), 关系 中 属性 4 中 出 现 的 非 重复 值 个 数 。 该 值 与 II4(r) 的 大 小 相同 。 如 果 4 是 关系 

WEWE, MVA, r) EF n,o 
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需要 的 话 ， 这 最 后 一 个 统计 值 Y(4, r) 也 可 以 是 对 属性 集 维 护 的 ， 而 不 是 仅仅 用 于 单独 的 属性 。 因 
此 对 于 给 定 的 属性 集 4，V( A, r) RET Cr) K. 

如 果 我 们 假设 关系 7r 的 元 组 在 物理 上 存储 于 一 个 文件 中 ， 则 下 面 的 等 式 成 立 : 

6, = (FI 

关于 索引 的 统计 信息 ， 比 如 B 树 索引 的 高 度 和 索引 中 叶 节点 的 页 数 ， 也 保存 在 目录 中 。 

如 果 我 们 希望 维护 准确 的 统计 信息 ， 则 每 次 关系 修改 时 ， 必 须 同 时 更 新 这 些 统计 信息 。 这 样 更 新 
导致 了 一 定量 的 开销 。 因 此 ， 许 多 系统 并 不 是 每 次 修改 都 更 新 统计 信息 ， 而 是 当 系统 处 于 轻 负 载 时 进 
行 更 新 。 这 样 ， 用 于 选择 查询 处 理 策略 的 统计 信息 可 能 并 不 完全 精确 。 然 而 ， 如 果 在 统计 信息 更 新 的 
间隔 里 没有 发 生 太 多 的 更 新 ， 那 么 统计 信息 用 以 对 不 同 计 划 的 相对 代价 进行 较 好 的 佑 计时 将 足够 精确 。 

这 里 讲 到 的 统计 信息 是 简化 过 的 。 现 实 中 的 优化 器 经 常 维护 更 深入 的 统计 信息 用 以 提高 对 执行 计 
划 的 代价 估计 的 精确 度 。 例 如 ， 大 多 数 数据 库 将 每 个 属性 的 取 值 分 布 另存 为 一 张 直方 图 (histogram ) : 
在 直方 图 中 ， 每 个 属性 的 取 值 分 成 若干 个 区 间 ， 对 于 每 个 区 间 ， 直 方 图 将 属性 值 落 在 该 区 间 中 的 元 组 
个 数 与 该 区 间 相 关联 。 图 13-6 给 出 了 一 个 范围 在 1 ~25 之 间 的 整数 数值 型 属性 的 直方 图 的 示例 。 

在 关系 数据 库 中 使 用 的 直方 图 除了 记录 属性 落 入 每 
个 区 间 的 元 组 个 数 以 外 ,通常 也 记录 每 个 区 间 内 不 同 的 
属性 取 值 个 数 。 40 

举 一 个 直方 图 的 例子 来 说 ， 一 个 关系 person 的 属性 由 30 
age 的 取 值 范围 可 分 成 0~9, 10 ~19, … , 90 ~99( 假 设 & 
最 大 年 龄 值 是 99 ) 。 对 每 个 区 间 ， 我 们 记录 那些 age 值 落 | 


50 al 





在 该 区 间 的 person 元 组 个 数 ， 以 及 落 入 该 区 间 的 不 同年 10 
龄 取 值 的 个 数 。 如 果 没 有 这 样 的 直方 图 信息 ， 优 化 器 将 

不 得 不 假设 属性 值 的 分 布 是 均匀 的 ， 即 每 个 区 间 具 有 同 i “aii 
样 的 计数 值 。 a, 

一 个 直方 图 只 占用 很 少 的 空间 ， 因 此 不 同属 性 上 的 eS ESET 
直方 图 可 以 存储 在 系统 目录 里 。 数 据 库 系统 中 使 用 的 直方 图 有 几 种 。 例 如 ， 等 宽 直方 图 (equi_width 
histogram) 把 取 值 范围 分 成 相等 大 小 的 区 间 ， 而 等 深 直方 图 (equi_depth histogram ) 则 调整 区 间 的 分 界 以 
使 落 入 每 个 区 间 的 取 值 个 数 相同 。 

13.3.2 选择 运算 结果 大 小 的 估计 

对 一 个 选择 运算 结果 大 小 的 估计 依赖 于 选择 谓词 。 我 们 首先 考虑 一 个 单独 的 等 值 谓词 ， 其 次 考虑 
一 个 单独 的 比较 谓词 ， 最 后 考虑 谓词 联合 。 

。o,_,(7) :如果 我 们 假设 取 值 是 均匀 分 布 的 ( 即 ， 每 个 值 以 同样 的 概率 出 现 ) ， 并 假设 关系 /的 
一 些 记录 的 属性 4 中 的 取 值 为 a， 则 可 估计 选择 结果 有 n/V(A, r) 个 元 组 。 这 里 选择 操作 中 的 
值 在 一 些 记录 中 出 现 的 假设 通常 是 成 立 的 ， 而 且 代价 估计 总 是 默认 这 一 假设 。 然 而 ， 假 设 每 
个 值 以 同样 的 概率 出 现 通常 是 不 现实 的 ， 关 系 iakes 的 属性 course_id 就 是 一 个 假设 不 成 立 的 例 
子 。 我 们 有 理由 预期 受 欢迎 的 本 科 课程 比 小 的 专业 的 研究 生 课 程 有 更 多 学 生 。 因 此 ， 一 些 
course 这 值 出 现 的 可 能 性 要 比 其 他 的 大 。 尽 管 平均 分 布 假设 通常 不 成 立 ， 但 在 许多 情况 下 它 是 
对 现实 的 合理 近似 ， 并 且 能 使 我 们 的 阐述 相对 简单 。 

如 果 属 性 4 上 有 一 个 直方 图 ， 我 们 可 以 定位 值 a 所 在 的 区 间 ， 然 后 修改 上 述 估算 式 n/V 
(4, r) ， 用 该 区 间 的 频 度 计数 代替 ， 用 该 区 间 中 出 现 的 不 同属 性 值 的 个 数 代替 VOA, 7) 。 
oalr): 考虑 形 如 ri (7) 的 选择 操作 。 如 果 在 进行 代价 佑 计时， 用 于 比较 操作 的 值 (y) 已 知 ， 
则 可 做 更 精确 的 估计 。 属 性 4 的 最 小 值 min( 4，r) 和 最 大 值 max(4，r) 可 存储 到 目录 中 。 假 设 
值 是 平均 分 布 的， 我 们 可 以 对 满足 条 件 A <n 的 记录 数 进行 下 列 估计 ; 若 w< min(4，r) ， 则 为 
0; #vzemax(A, r), MAn; BM, W: 
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v — min(A,r) 
aa max(A,r) — min(A,r) 
如 果 属 性 4 上 存在 直方 图 ， 我们 就 可 以 得 到 更 精确 的 估计 ， 我们 将 细节 作为 练习 留 给 读者 
来 完成 。 在 某 些 情况 下 ， 比 如 查询 是 存储 过 程 的 一 部 分 ， 查询 优化 时 无 法 得 到 w 的 值 。 在 这 样 
的 情况 下 ,我们 假设 大 约 有 一 半 的 记录 将 满足 比较 条 件 。 也 就 是 说 ,我 们 假设 结果 集 包含 n,/2 
个 元 组 ， 这 个 估计 可 能 非常 不 精确 ， 但 这 是 在 没有 任何 进一步 信息 的 条 件 下 所 能 采取 的 最 好 的 
办 法 了 。 





计算 及 维护 统计 数据 
从 概念 上 讲 ， 关 系 上 的 统计 数据 可 以 理解 为 物化 视图 ， 该 统计 数据 当 关 系 修改 时 应 该 自动 维护 。 
遗憾 的 是 ， 对 于 数据 的 每 一 次 插入 、 删 除 和 更 新 保持 最 新 的 统计 数据 开销 是 非常 大 的 。 另 一 方面 ， 
优化 器 一 般 不 需要 准确 的 统计 数据 : 百 分 之 几 的 错误 可 能 导致 一 个 不 是 最 优 的 计划 被 选择 ,但 是 这 
个 选择 的 计划 可 能 比 最 优 计划 的 代价 仅 高 百 分 之 几 。 因 此 ， 近 似 的 统计 数据 是 可 以 接受 的 。 
利用 统计 数据 可 以 近似 的 事实 ， 数 据 库 系 统 通过 以 下 方式 减少 生成 和 维护 统计 数据 的 开销 。 
© 统计 数据 通常 基于 基础 数据 的 样本 来 计算 ， 而 不 用 检查 整个 数据 集合 。 例 如 ， 一 个 相当 淮 确 
的 直方 图 可 以 通过 几 千 个 元 组 计算 出 来 ， 尽管 一 个 关系 包含 百 万 或 亿 万 的 记录 。 和 然而 ,使 用 
的 样本 必须 是 随机 抽样 的 样本 (random sample)。 一 个 不 是 随机 抽样 的 样本 可 能 过 度 表现 关系 
的 一 部 分 ， 从 而 误导 结果 。 例 如 ， 如 果 我 们 采用 教师 的 样本 来 计算 工资 的 直方 图 ， 如 果 抽 样 
过 于 表示 低 工 资 的 教师 ， 则 直方 图 会 导致 错误 的 估计 。 目 前 数据 库 系 统 经 常 使 用 随机 抽样 来 
生成 统计 数据 。 抽 样 的 相关 研究 请 参见 文献 注解 。 
。 不 是 对 于 每 个 数据 库 更 新 都 维护 统计 数据 。 事 实 上 ， 一 些 数 据 库 系统 从 不 自动 更 新 统计 数 
据 。 它 们 依靠 数据 库 管 理 员 定期 运行 一 条 命令 来 更 新 统计 数据 。Oracle 和 PostgreSQL 提供 
一 条 称 为 analyze 的 数据 库 命令 产生 指定 关系 或 者 所 有 关系 上 的 统计 数据 。IBM DB2 提供 
一 个 等 价 的 称 为 runstats 的 命令 。 更 多 细节 请 查看 系统 手册 。 你 应 该 意识 到 ， 由 于 不 准确 
的 统计 数据 ， 优 化 器 有 时 选择 非常 糟糕 的 计划 。 许 多 数据 库 系统 (例如 IBM DB2、Oracle 和 
SQL Server) 会 在 某 些 时 间 点 自动 地 更 新 统计 数据 。 例 如 ， 系 统 可 以 近似 跟踪 一 个 关系 中 有 
多 少 元 组 ， 并 且 当 元 组 数量 显著 变化 时 重新 计算 统计 数据 。 另 一 种 方法 是 比较 一 个 关系 扫 
描 估 计 的 基数 和 执行 一 个 查询 时 真正 的 基数 ， 如 果 它 们 差异 显著 ， 则 对 该 关系 启动 统计 数 
据 的 更 新 。 


。 复杂 选择 : 
口 合 取 





合 取 选 择 是 形式 如 下 的 选择 操作 : 

Tanita NT 
我 们 按 如 下 方式 估计 该 选择 的 结果 集 的 大 小 : 对 每 个 9， 我 们 按照 以 前 描述 的 那样 估计 选择 
T(r) 的 大 小 ， 记 为 %。 因 此 ， 关 系 中 的 一 个 元 组 满足 选择 条 件 0, 的 概率 为 s,/n,。 
上 述 概率 称 为 选择 co (r) 的 中 选 率 ( selectivity ) 。 假 设 各 条 件 相互 独立 ， 则 某 个 元 组 满足 全 部 
条 件 的 概率 是 全 体 概 率 的 乘积 。 因 此 ， 我们 可 以 估计 满足 全 部 选择 条 件 的 元 组 数量 为 : 


$y #5, oes KS, 





n 
n r 





析 取 一 一 析 取 选择 是 形式 如 下 的 选择 操作 
TavaN=vo (T) 
所 有 满足 单个 条 件 0; 的 记录 的 并 满足 析 取 条 件 。 
如 前 所 述 ，s;/n, 代表 某 元 组 满足 条 件 0, 的 概率 。 元 组 满足 整个 析 取 式 的 概率 为 1 减 去 元 组 
不 满足 任何 一 个 条 件 的 概率 ， 即 : 
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将 该 值 乘 以 n, 即 得 到 满足 该 选择 条 件 的 元 组 数 的 估计 。 

口 取 反 一 一 在 无 空 值 的 情况 下 ， 选 择 o_o(r) 的 结果 集 就 是 不 在 olr) 中 的 关系 7 的 元 组 集 。 我 
们 已 知 如 何 估计 os(r) 的 元 组 数 ， 因 此 olr) 的 元 组 数 的 估计 为 n MA olr) 的 估计 元 
组 数 。 

如 果 考 虑 空 值 ， 我 们 可 以 估计 对 条 件 9 的 取 值 为 未 知 的 元 组 数目 ， 然 后 从 上 面 忽略 空 值 的 估 
计 中 减 去 该 数目 。 对 该 数目 的 估计 需要 在 目录 中 维护 附加 的 统计 信息 。 


13.3.3 ”连接 运算 结果 大 小 的 估计 

在 本 节 中 ， 我 们 考虑 如 何 估计 连接 运算 结果 集 的 大 小 。 

EJIL r xs BE n, en, PTA. xs 中 的 每 个 元 组 占用 1, +1, 个 字 节 ， 由 此 我 们 可 以 计算 出 笛 卡 
儿 积 的 大 小 。 

估计 自然 连接 的 大 小 比 估计 选择 或 笛 卡 儿 积 的 大 小 要 更 复杂 一 些 。 令 r(R) 和 (3S) 为 两 个 关系 。 

。 ERAS =0 一 一 两 个 关系 没有 共同 的 属性 一 一 则 rhs 与 rxs 结果 一 样 ， 我 们 可 用 估算 笛 卡 儿 


积 结果 集 大 小 的 方法 进行 估计 。 
BROS 是 R 的 码 ， 则 我 们 可 知 s 的 一 个 元 组 至 多 与 7 的 一 个 元 组 相连 接 。 因 此 ，r Ms 中 的 元 组 
数 不 会 超过 * 中 元 组 的 数目 。RMS 是 S 的 码 的 情形 同上 面 的 情形 相对 称 。 若 RNS 构成 了 5 中 
参照 R 的 外 码 ， 则 rs 中 的 元 组 数 正好 与 s 中 元 组 数 相 等 。 
最 难 的 情形 是 ROS 既 不 是 R 的 码 也 不 是 $ 的 码 。 在 这 种 情况 下 ， 与 进行 选择 运算 的 情况 一 样 ， 
我 们 假定 每 个 值 等 概率 出 现 。 考 虑 r 的 元 组 上 ， 假 定 RnS= | A 。 我 们 估计 元 组 i 在 r%Xs 中 
产生 : 

V(A,s) 
个 元 组 ， 因 为 该 值 就 是 关系 s 中 在 属性 4 上 具有 给 定 值 的 平均 元 组 数目 。 考 虑 r 中 的 所 有 元 组 ， 
我 们 估计 在 rMs 中 有 : 

n, * n, 

V(A,s) 
个 元 组 。 注 意 ， 如 果 将 r5 s HAERE, ARIETE Ms PA: 

n, * n, 

V(A,r) 
个 元 组 。 FEV(A,s) #V(A,r) 时 ， 这 两 个 估计 是 不 同 的 。 若 发 生 这 种 情况 ， 就 可 能 有 未 参加 连 
接 的 悬挂 元 组 存在 。 因 此 这 两 个 估计 值 中 较 小 者 可 能 比较 准确 。 

r 中 属性 4 KRIVCA, 7) 个 值 与 ;中 属性 4 的 的 A，s) 个 值 相等 的 情况 很 少时 ， 上 述 连接 结 
果 集 大 小 估计 值 可 能 太 高 。 然 而 ， 实 际 中 这 种 情形 很 少 发 生 ， 因 为 在 大 部 分 现实 关系 中 悬挂 元 
组 要 么 不 存在 要 么 只 占 总 元 组 数 的 一 小 部 分 。 
更 重要 的 是 ， 前 面 的 估计 是 在 各 个 值 等 概率 出 现 这 一 假设 前 提 下 做 出 的 。 若 这 个 假设 不 成 

立 ， 则 必须 用 更 复杂 的 估算 方法 。 例 如 ， 如 果 我 们 在 两 个 关系 的 连接 属性 上 有 直方 图 ， 并 且 两 
个 直方 图 都 有 相同 的 区 间 ， 我 们 就 可 以 在 每 个 区 间 中 使 用 上 述 估 计 方 法 ， 用 值 落 入 该 区 间 的 行 
数 来 代替 n, 和 n,， 用 该 区 间 的 不 同 取 值 个 数 代 替 V(A, 7) 或 V(4，s)。 然 后 我 们 把 得 到 的 每 个 
区 间 大 小 估计 值 加 起 来 就 得 到 总 的 大 小 估计 值 。 我 们 把 两 个 关系 在 连接 属性 上 都 有 直方 图 ， 但 
直方 图 的 区 间 不 一 样 的 情况 留 给 读者 作为 练习 。 








对 于 9 连接 r Ms， 我 们 可 以 把 它 重 写 成 oo(r xs) 的 形式 ， 利 用 笛 卡 儿 积 的 大 小 估计 和 13. 3. 2 47 
讲 到 的 选择 操作 的 大 小 估计 相 结 合 的 方法 得 到 它 的 估计 。 
举例 说 明 对 连接 运算 结果 集 大 小 的 估计 方法 ， 考 虑 表达 式 


student X takes 


假设 有 关 这 两 个 关系 的 目录 信息 如 下 : 
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® Pouden = 5000 
© 上 ,= 50, PARA b= 5000/50 = 100 
e na = 10 000 
© fs = 25, BORE bare = 10 000/25 =400 
e V(ID, takes) =2500， 意 味 着 只 有 一 半 的 学 生 选 课 ( 这 是 不 现实 的 ， 但 是 我 们 用 它 来 表明 在 这 个 
例子 中 我 们 的 大 小 估计 是 正确 的 ) ， 并 且 在 平均 情况 下 ， 选 课 的 学 生 每 人 选 4 门 课 。 
depositortake 的 属性 ID 是 参照 studenit 的 外 码 ， 而 且 take. ID 上 没有 空 值 ， 因 为 ID 是 take 主 码 中 的 
一 部 分 。 因 此 student X takes 的 大 小 恰好 是 mw = 10 000. 
下 面 我 们 在 不 使 用 外 码 信息 情况 下 计算 student X takes 的 大 小 估计 值 。 根 据 VUID, takes) =2500， 以 
K V(ID, student) =5000， 我 们 得 到 两 个 估计 值 : 5000 * 10 000/2500 = 20 000 及 5000 * 10 000/5000 = 
10 000， 我 们 取 较 小 者 。 在 这 里 ， 估 计 值 较 小 者 与 我 们 早先 用 外 码 信息 计算 所 得 结果 相同 。 
13.3.4 其 他 运算 的 结果 集 大 小 的 估计 
我 们 下 面 大 略 描述 了 估计 其 他 关系 代数 运算 的 结果 集 大 小 的 方法 。 
o 投影 : 形 如 IL,(7) 的 投影 的 计算 结果 大 小 (元 组 数 或 记录 数 ) 估 计 为 V(4, r) ， 因 为 投影 去 除了 
重复 元 组 。 
。 聚集 :\Gr(r) 的 大 小 是 V(r)， 因 为 对 4 的 任意 一 个 不 同 取 值 在 ,9:(r) 中 有 一 个 元 组 与 其 对 应 。 
。 集合 运算 : 如 果 一 个 集合 运算 的 两 个 输入 是 对 同一 个 关系 的 选择 ,我们 可 以 将 该 运算 重 写成 析 
取 、 合 取 或 取 反 。 例如, o,(r) U os (r) 可 以 重 写成 oo vo(r) 。 同 理 ， 只 要 参与 集合 运算 的 两 
个 关系 是 对 同一 个 关系 的 选择 ,我 们 可 以 把 交集 重 写成 合 取 式 ， 差 集 重 写成 取 反 。 这 样 我 们 就 
可 以 使 用 在 13. 3. 2 节 中 的 对 涉及 合 取 、 析 取 和 取 反 操作 的 选择 的 估计 。 
如 果 输 入 不 是 对 同一 个 关系 的 选择 运算 ,我 们 可 以 按 下 面 的 方法 进行 估计 : 对 rUs 大 小 的 估计 为 
r 与 s 大 小 之 和 ; 对 rns 大 小 的 估计 为 r 与 ;大 小 之 差 ; 对 r-s 大 小 的 估计 为 的 大 小 。 以 上 三 
种 估计 可 能 不 精确 ， 但 提供 了 结果 集 大 小 的 上 界 。 
。 外 连接 : rs 的 大 小 估计 为 rs 的 大 小 加 上 关系 7 的 大 小 ; Xr s 的 估计 与 对 rs 的 估计 
是 对 称 的 ， 而 > 了 Cs 的 估计 为 -Ms 的 大 小 加 上 关系 上 和 关系 s 的 大 小 。 以 上 三 种 估计 可 能 不 精 
Hi, 但 提供 了 结果 和 集 大 小 的 上 界 。 
13.3.5 不 同 取 值 个 数 的 估计 
对 于 选择 操作 来 说 ， 其 选择 结果 集中 的 某 个 属性 (或 属性 集 )4 上 的 不 同 取 值 个 数 YU4，cro(r) ) 可 
以 按 如 下 方式 进行 估计 : 
e 若 选 择 条 件 9 令 4 取 一 个 特定 值 ( 例 如 A=3), WVC ，coo(r)) =1。 
。 若 9 今 4 取 一 个 指定 值 的 集合 (例如 A=1VA=3VA=4)， 则 V(4 ，o,(7) ) 即 为 这 些 指定 值 的 
个 数 。 
© 若 选 择 条 件 9 为 4 opv 的 形式 ， 其 中 op 为 一 个 比较 运算 符 ， 则 V(4，oas(7) ) 估 计 为 V(A , r)» 
s， 这 里 s 是 该 选择 操作 的 中 选 率 。 
© 对 于 选择 操作 的 其 他 情况 ,我们 假设 属性 A 值 的 分 布 独立 于 选择 条 件 给 出 的 值 的 分 布 ， 则 可 以 
得 到 大 约 为 min( V(A, r)，n,) 的 估计 值 。 对 此 种 情况 ， 可 以 使 用 概率 理论 推导 出 更 精确 的 
估计 , 但 上 述 粗略 估计 已 经 很 好 了 。 
对 于 连接 操作 ， 其 连接 结果 集中 的 某 个 属性 (或 属性 集 )4 上 的 不 同 取 值 个 数 V4 , rMs) 可 以 按 如 
下 方式 进行 估计 : 
。 若 4 中 所 有 的 属性 全 来 自 r， 则 Y(4 , rMs) 可 估计 为 min( V(A, r), npg); 类 似 地 ， 若 4 中 
所 有 的 属性 全 来 自 *， 则 所 4 ,，rMs) 可 估计 为 min( V(A, s), n py) 
。 若 4 包含 来 自 r 的 属性 Al 和 来 自 s 的 属性 42， 则 VCA , rhs) Kit: 
min( V(Al, r) * V(A2 -Al, s), V(AL-A2, r) * V(A,, s), ny.) 
注意 到 可 能 有 些 属 性 既 在 41 中 又 在 42 中 , 4 Al -42 和 42 -Al 分别 代表 只 来 自 r 和 只 来 自 s 
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的 4 中 的 属性 。 同 上 ， 此 种 情况 可 以 使 用 概率 理论 推导 出 更 精确 的 估计 ， 但 上 述 粗略 估计 已 经 
很 好 了 。 
不 同 取 值 的 数目 估计 对 于 投影 来 说 非常 直截了当 : 在 ICr) 中 和 在 > 中 的 估计 值 是 一 样 的 。 这 
一 点 在 聚集 操作 的 分 组 属性 上 也 同样 成 立 。 为 简便 起 见 ， 对 于 sum, count 和 average 的 结果 ， 
我 们 可 以 假设 所 有 的 聚集 值 是 各 不 相同 的 。 对 于 min(4) 和 max(4) ， 不 同 取 值 的 个 数 可 估计 为 
min(V(A , r), V(G, r)), REK G 代表 分 组 属性 。 我 们 略 去 对 其 他 操作 的 不 同 取 值 数 估计 的 
详细 介绍 。 
13.4 执行 计划 选择 
由 于 表达 式 中 的 每 个 运算 可 用 不 同 的 算法 实现 ， 因 此 产生 表达 式 仅仅 是 查询 优化 过 程 的 一 部 分 。 
因此 一 个 执行 计划 需要 准确 定义 每 个 运算 应 使 用 什么 算法 以 及 如 何 协调 各 运算 的 执行 。 
利用 13. 3 节 的 有 关 技 术 所 估计 的 统计 信息 和 第 12 章 描 述 的 对 不 同 算法 和 计算 方法 的 代价 估计 ， 
我 们 可 以 对 给 定 的 执行 计划 进行 代价 估计 。 
基于 代价 的 优化 器 ( cost-based optimizer) 从 给 定 查询 等 价 的 所 有 查询 执行 计划 空间 中 进行 搜索 ， 并 
选择 估计 代价 最 小 的 一 个 。 我 们 已 经 看 到 如 何 使 用 等 价 规则 来 产生 等 价 计 划 。 采 用 随意 等 价 规则 并 且 
基于 代价 的 优化 器 是 相当 复杂 的 。 首 先 13.4. 1 节 介 绍 一 个 简单 版 本 的 基于 代价 的 优化 器 ， 其 中 仅 涉及 
连接 顺序 和 连接 算法 选择 。 然 后 ，13. 4. 2 节 将 简单 描述 如 何 创建 一 个 基于 等 价 规则 的 通用 优化 器 ， 而 
不 过 多 深入 细节 。 
对 于 复杂 查询 来 说 ， 搜 索 整 个 可 能 的 计划 空间 代价 太 高 。 许 多 优化 器 采用 启发 式 方法 来 降低 查询 
优化 的 代价 ， 同 时 承担 找 不 到 最 优 计划 的 潜在 风险 。13. 4. 3 节 介 绍 一 些 启 发 式 方法 。 
13. 4.1 基于 代价 的 连接 顺序 选择 
SQL 中 最 常见 的 查询 是 由 连接 谓词 以 及 where 子 句 指定 的 选择 所 构成 的 几 个 关系 的 连接 。 在 本 节 
中 ， 我 们 考虑 如 何 为 这 类 查询 选择 最 优 的 连接 顺序 的 问题 。 
对 于 一 个 复杂 的 查询 ， 等 价 于 给 定 查询 计划 的 不 同 查询 计划 可 能 很 多 。 为 了 说 明 这 一 点 ， 考 虑 表 
达 式 : 
rr, r, 
其 中 连接 运算 没有 指定 任何 顺序 。 当 n=3 时 ， 有 12 种 不 同 的 连接 顺序 : 
nMX(r Mr) rnM(rMr) (rMr) Mr (rX r) Mr, 
TDD r Ar) nM (r, Mr, ) (ripara) Mr (rX ri) Mr, 
raD (rAr) rX (rAr) (rAr) Mr, (rAr) Mr, 
一 般 而 言 ， 对 于 nn 个 关系 ， 有 (2(n -1))! /A(n -1)! 个 不 同 的 连接 顺序 。( 我 们 将 该 式 的 计算 留 
作 练 习 13. 10) 。 对 于 涉及 少量 关系 的 连接 而 言 ， 该 数目 还 是 可 以 接受 的 。 例 如 =5， 此 数 是 1680。 然 
而 ， 当 增加 时 ， 这 个 数字 迅速 增长 。 对 于 n=7， 此 数 变 为 665 280; 当 n = 10， 此 数 大 于 176 亿 ! 
幸运 的 是 ， 我 们 不 必 产 生 与 给 定 表达 式 等 价 的 所 有 表达 式 。 例 如 ， 假 设 我 们 想 找到 以 下 表达 式 的 
最 佳 连接 顺序 : 
(nMrMr) Xr, rs 
该 表达 式 表 示 r, n, n 首先 进行 连接 ( 以 某 种 顺序 ) ， 其 结果 再 与 7, 、r; 进行 连接 (以 某 种 顺序 ) 。 
计算 riM%rMX r, A 12 种 不 同 的 连接 次 序 ， 其 结果 再 与 r,、r; 进行 连接 时 又 有 12 种 顺序 。 因 此 ， 似 乎 我 
们 需要 检查 144 种 连接 顺序 。 然 而 ,一旦 我 们 给 关系 子 集 |r, ，r,， n| 找到 了 最 佳 连接 顺序 ,我 们 可 以 
用 此 顺序 进一步 与 7,、r; 进行 连接 ,舍弃 MM, 中 其 他 代价 较 大 的 连接 顺序 。 这 样 ， 我 们 不 必 一 一 
检查 144 种 连接 顺序 ， 而 只 须 检 查 12 + 12 种 顺序 。 
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procedure FindBestPlan(S) 
if (bestplan[ S]. cost (% ) /* bestplan[S] 已 经 计算 好 了 */ 
return bestplan| S | 
if (S 只 包含 一 个 关系 ) 
根据 访问 S 的 最 佳 方式 设置 pestpan[ S]. plan 和 bestplan[ S |. cost 
else for each S 的 非 空 子 集 S1, H SI¥S 
P1 = FindBestPlan( S1 ) 
P2 = FindBestPlan(S -S$1) 
A = 连接 Pl fl P2 的 结果 的 最 佳 算 法 
cost = P1. cost + P2. cost + A 的 代价 
if cost < bestplan| S]. cost 
bestplan| S]. cost = cost 
besiplan[ S]. plan = “ $447 P1. plan; 执行 P2. plan; 
利用 4 连接 Pl 和 P2 的 结果 ” 
return bestplan[ S | 


图 13-7 连接 顺序 优化 的 动态 规划 算法 


利用 这 种 想法 ,我 们 可 以 设计 一 个 动态 规划 算法 来 寻找 最 佳 连接 顺序 。 动 态 规划 算法 存储 计算 结 
果 并 将 其 重用 ， 这 个 过 程 能 大 大 缩短 执行 时 间 。 

图 13-7 是 对 动态 规划 算法 的 一 个 递归 程序 实现 。 该 程序 尽早 地 在 访问 单个 关系 时 就 使 用 选择 。 很 
容易 理解 程序 假设 所 有 连接 都 是 自然 连接 ， 尽 管 使 用 其 他 连接 条 件 时 过 程 也 没有 改变 。 采 用 任意 连接 
条 件 ， 两 个 子 表达 式 的 连接 可 以 理解 为 包含 所 有 与 两 个 子 表达 式 属 性 相关 的 连接 条 件 。 

此 过 程 将 它 计 算出 的 执行 计划 存储 在 一 个 以 关系 集 做 索引 的 关联 数组 bestplan 中 。 该 关联 数组 的 每 
个 项 包含 两 部 分 :5 的 最 佳 计 划 的 代价 和 该 计划 本 身 。bestplan[ S]. cost 的 值 在 未 计算 前 初始 化 为 w 。 

该 过 程 首 先 检查 是 否 已 算出 对 给 定 关系 集 5S 计算 连接 的 最 佳 执行 计划 (并 将 其 存储 在 联合 数组 
bestplan 中 ) : 若是 ， 则 返回 计算 出 的 执行 计划 。 

如 果 5 只 包括 一 个 关系 ， 访 问 S(S 上 的 选择 操作 也 考虑 在 内 ， 如 果 有 的 话 ) 的 最 佳 方法 记录 在 
bestplan 中 。 这 个 过 程 可 能 涉及 用 一 个 索引 来 定位 元 组 ， 然 后 取出 元 组 (通常 称 为 索引 扫描 ) ， 或 者 扫描 
整个 关系 表 ( 通常 称 为 关系 表 扫 描 )。 ”如 果 除了 通过 索引 扫描 的 选择 条 件 ，S 上 还 有 其 他 选择 条 件 ， 
则 添加 一 个 选择 运算 到 计划 中 以 保证 满足 $ 上 的 所 有 选择 。 

Bill, WARS 包括 多 个 关系 ， 该 过 程 尝 试 每 一 种 将 S 分 成 两 个 不 相交 子 集 的 方法 。 对 每 一 种 划分 ， 该 
过 程 对 两 个 子 集中 的 每 个 子 集 递 归 地 找 出 最 佳 执行 计划 ， 然 后 用 该 划分 计算 出 整个 执行 计划 的 代价 。 “该 
过 程 从 将 S 分 成 两 个 子 集 的 所 有 可 选 方案 中 找 出 最 佳 方案 ， 最 佳 方案 及 其 代价 存在 数组 bestplan 中 ， 然 
后 由 该 过 程 返回 。 该 过 程 的 时 间 复 杂 度 可 证 明 为 0(3")( 见 实践 练习 13. 11 ) 。 

实际 上 ， 由 关系 集 的 连接 生成 的 元 组 的 顺序 对 于 找到 总 体 上 最 佳 的 连接 顺序 也 是 很 重要 的 ， 因 为 
它 可 以 影响 下 一 步 连接 的 代价 (如 使 用 归并 连接 时 ) 。 若 某 个 具体 的 元 组 排序 顺序 对 后 面 的 运算 可 能 有 
用 的 话 ， 我 们 称 该 特定 的 顺序 是 一 个 感 兴趣 的 排序 顺序 (interesting sort order) Hj4n, EF% r Xr, MAr 所 
产生 的 结果 对 在 mx 或 的 公共 属性 上 进行 排序 可 能 是 有 用 的 ; 而 若 结果 在 仅仅 是 mn 与 7, 的 公共 属性 
上 进行 排序 ， 就 没有 什么 用 处 。 在 计算 r,Xr,Mr, 时 ， 使 用 归并 连接 可 能 比 使 用 其 他 连接 技术 代价 大 ， 
但 其 输出 结果 可 能 是 感 兴趣 的 排序 顺序 。 

因此 ， 仅 为 有 个 给 定 关系 的 关系 集合 的 每 个 子 集 找 出 最 佳 连接 顺序 是 不 够 的 。 我 们 应 当 为 每 个 
子 集 ， 为 该 子 集 连接 结果 的 每 个 感 兴趣 的 排序 顺序 找 出 最 佳 连接 顺序 。n 个 关系 的 子 集 总 数 是 2"， 但 
感 兴趣 的 排序 顺序 数目 一 般 不 大 。 因 此 , 约 有 2" 个 连接 表达 式 需 要 存储 。 用 于 寻找 最 佳 连接 顺序 的 动 














晶 ” 如 果 一 个 索引 包括 用 于 查询 的 一 个 关系 上 的 所 有 属性 ， 则 可 以 进行 一 次 仅 限 索引 的 扫描 ， 该 过 程 仅 从 索引 中 检 
索 所 需 的 属性 ， 而 不 必 取 出 实际 的 元 组 。 

© HEE, Et Pl 和 PMNS RRR, MRP 只 有 一 个 关系 r， 而且 7 的 连接 属性 上 有 索引 ， 则 将 
P2 作为 内 层 关系 。 基 于 + 上 的 选择 条 件 ， 计 划 P2 可 能 包含 7 的 索引 访问 。 为 了 使 用 索引 髋 套 循环 连接 ，P2 中 不 
采用 在 r+ 上 使 用 选择 条 件 进行 索引 查找 ， 而 是 在 7 的 连接 属性 索引 返回 的 元 组 集 上 再 检查 选择 条 件 。 
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态 规划 算法 可 以 很 容易 加 以 扩展 ， 以 处 理 排序 顺序 。 扩 展 的 算法 的 代价 依赖 于 关系 集 的 每 一 个 子 集 的 
感 兴趣 的 排序 顺序 的 数目 ， 由 于 实际 上 这 个 数目 并 不 大 ， 因 此 该 算法 的 时 间 代 价 仍 为 0(3")。 当 n=10 
时 ， 该 数 约 为 59 000， 比 之 于 176 亿 个 不 同 的 连接 顺序 好 多 了 。 更 重要 的 是 ， 所 需 存 储 比 原先 少 得 多 ， 
因为 对 于 7r,，…，rio 的 1024 个 子 集 的 每 一 个 感 兴趣 的 排序 顺序 ， 我们 只 需要 保存 一 次 连接 顺序 。 虽 然 
这 两 个 数 仍 随 n 迅速 增长 ， 但 是 通常 参与 连接 的 关系 数 少 于 10， 因 而 可 以 很 容易 地 处 理 . 

13.4.2 采用 等 价 规则 的 基于 代价 的 优化 器 

我 们 刚才 看 到 的 连接 顺序 优化 可 以 处 理 最 常见 的 查询 ， 并 执行 关系 集合 的 内 连接 。 然 而 ， 显 然 许 
多 查询 使 用 其 他 的 功能 ， 例 如 聚集 、 外 连接 、 艇 套 查 询 ， 这 些 是 无 法 通过 连接 顺序 选择 解决 的 。 

许多 优化 器 采用 基于 启发 式 转换 的 方法 处 理 连 接 以 外 的 结构 ， 并 且 采 用 基于 代价 的 连接 顺序 选择 
算法 处 理 仅 包含 连接 和 选择 的 子 表 达 式 。 我 们 不 涉及 大 部 分 与 具体 优化 器 相关 的 启发 式 方法 的 细节 。 
然而 ， 启 发 式 转换 广泛 地 应 用 于 处 理 柑 套 查 询 中 ，13. 4.4 节 将 介绍 更 多 细节 。 

然而 ， 本 节 概 述 如 何 创建 一 个 采用 等 价 规则 的 基于 代价 的 通用 优化 器 ， 这 种 优化 器 可 以 处 理 各 种 
各 样 的 查询 结构 。 

采用 等 价 规则 的 好 处 是 它 易于 扩展 新 的 规则 到 优化 器 中 来 处 理 不 同 的 查询 结构 。 例 如 ， 骸 套 查询 
可 以 使 用 扩展 的 关系 代数 结构 来 表示 ， 而 且 可 以 使 用 等 价 规则 表示 嵌 套 查询 的 转换 。 还 可 以 为 聚集 和 
外 连接 操作 定义 等 价 规则 ， 就 像 实践 习题 13. 1 和 习题 13. 2 描述 的 那样 。 

在 13.2. 4 节 中 ,我 们 看 到 了 一 个 优化 器 如 何 系统 地 产生 与 给 定 查询 等 价 的 所 有 表达 式 。 产 生 等 价 
表达 式 的 过 程 可 以 按 如 下 方式 修改 为 产生 所 有 可 能 的 执行 计划 : 添加 一 类 新 的 称 为 物理 等 价 规则 
(physical equivalence rule) 的 等 价 规则 ， 人 允许 将 例如 连接 这 样 的 逻辑 操作 转换 成 像 散 列 连 接 或 散 套 循环 
连接 这 样 的 物理 操作 。 通 过 将 这 类 规则 添加 到 原来 的 等 价 规则 中 ， 程 序 可 以 产生 所 有 可 能 的 执行 计划 。 
前 面 我 们 看 到 的 代价 估计 技术 可 以 用 来 选择 最 优 的 ( 即 代 价 最 低 的 ) 计划 。 

然而 ， 即 使 我 们 不 考虑 产生 执行 计划 ，13. 2. 4 节 介 绍 的 程序 代价 也 非常 高 。 为 了 使 该 方法 高 效 需 
要 以 下 技术 : 

1. 一 种 节省 空间 的 表达 式 表示 形式 ,来 避免 应 用 等 价 规则 时 创建 相同 子 表达 式 的 多 个 副本 。 

2. 检测 相同 表达 式 重复 推导 的 有 效 技术 。 

3. 一 种 基于 缓存 (memoization) 的 动态 规划 形式 ， 当 第 一 次 优化 子 表达 式 时 ， 该 缓存 存储 最 优 的 查 
询 执行 计划 ; 后续 优 化 相同 子 表达 式 的 请 求 通过 返回 已 经 缓存 的 计划 进行 处 理 。 

4. 通过 维护 到 任何 时 刻 为 止 为 任何 子 表达 式 产生 的 代价 最 低 的 计划 ， 并 且 对 其 他 任何 比 当前 该 子 
表达 式 代价 最 低 计 划 的 代价 高 的 计划 进行 剪 校 ， 避 免 产 生 所 有 可 能 的 执行 计划 的 技术 。 

具体 细节 要 更 复杂 。 这 个 方法 由 Volcano 研究 项 目 率 先 提出 ， 并 且 SQL Server 的 查询 优化 器 也 是 基 
于 该 技术 。 更 多 资料 请 参见 文献 注解 。 

13.4.3 启发 式 优 化 

基于 代价 优化 的 一 个 缺点 是 优化 本 身 的 代价 。 虽 然 查询 优化 的 代价 可 以 通过 巧妙 的 算法 来 减少 ， 
但 一 个 查询 的 不 同 执行 计划 数 仍 可 能 很 大 ， 在 这 个 集合 里 找到 最 优 计划 仍 需要 很 多 计算 代价 。 因 此 ， 
查询 优化 器 使 用 启发 式 方法 (heuristics) 来 减少 优化 代价 。 

下 面 是 启发 式 规则 的 一 个 例子 。 此 规则 用 于 对 关系 代数 查询 进行 转换 : 

。 尽早 执行 选择 运算 。 

一 个 启发 式 优化 器 不 验证 采用 本 规则 转换 后 代价 是 否 减少 ， 而 是 直接 加 以 使 用 。 在 13. 2 节 的 第 一 
个 转换 例子 里 ， 选 择 运 算 被 推进 连接 之 中 。 

我 们 说 以 上 规则 是 启发 式 的 ， 因 为 这 条 规则 通常 会 ， 但 不 总 是 有 助 于 减少 代价 。 我 们 来 看 一 个 使 
用 以 上 规则 将 导致 代价 增加 的 例子 ， 考 虑 表达 式 o。(r Ms)， 其 中 9 只 引用 ;的 属性 。 选 择 的 确 可 以 先 
于 连接 计算 。 然 而 ， 若 > 相对 于 * 非常 小 ,并且 在 * 的 连接 属性 上 有 索引 ， 但 在 9 所 引用 的 属性 上 无 索 
引 ， 先 做 选择 很 可 能 不 是 个 好 主意 。 先 做 选择 运算 意味 着 直接 对 * 进行 选择 ， 这 需要 对 * 全 体 元 组 进行 
一 次 扫描 。 就 本 例子 而 言 ， 先 用 索引 计算 连接 ， 然 后 去 除 不 满足 选择 条 件 的 元 组 ， 代 价 可 能 更 小 。 


第 13 章 查询 优化 343 


投影 运算 像 选择 运算 一 样 可 以 减少 关系 的 大 小 。 因 此 ， 每 当 我 们 要 产生 临时 关系 时 ， 只 要 有 可 能 
就 立即 执行 投影 是 有 好 处 的 。 该 好 处 提示 我 们 ， 伴随 前 面 的 “尽早 执行 选择 运算 ”而 来 的 还 有 一 条 
规则 : 

。 尽早 执行 投影 运算 。 

通常 选择 运算 优先 于 投影 运算 执行 比较 好 ， 因 为 选择 运算 可 能 会 大 大 减 小 关系 ; 并 且 选 择 运 算 可 
以 利用 索引 存 取 元 组 。 我 们 可 以 用 类 似 于 启发 式 选择 规则 中 使 用 的 例子 来 说 明 该 启发 式 规 则 不 总 是 有 
助 于 减少 代价 。 

多 数 现实 的 查询 优化 器 有 更 多 的 启发 式 规则 来 减少 优化 的 代价 。 例 如 ， 许 多 查询 优化 器 (如 System 
R 优化 器 S ) 并 不 考虑 所 有 的 连接 顺序 ， 而 是 只 对 特殊 类 型 的 连接 次 序 进行 搜索 。System R 优化 器 仅 考 
虑 右 操作 对 象 是 原始 关系 7, ，r, ，…,r, 之 一 的 那些 连接 顺序 。 这 种 连接 顺序 称 为 左 深 连 接 顺 序 (left- 
deep join order) 。 左 深 连接 顺序 用 于 流水 线 计算 特别 方便 ， 因 为 右 操 作对 象 是 一 个 已 存储 的 关系 ， 每 个 
连接 只 有 一 个 输入 来 自流 水 线 。 

图 13-8 说 明了 左 深 连 接 树 与 非 左 深 连 接 树 的 区 别 。 考 虑 全 体 左 深 连接 顺序 所 需 时 间 代 价 是 
0(n!1)， 比 考虑 所 有 连接 顺序 少 得 多 。 使 用 动态 规划 的 优化 技术 ，System R 优化 器 可 以 用 近似 0(n2") 
的 时 间 找 到 最 佳 连接 顺序 。 读 者 可 以 把 这 一 代价 同 找 出 总 体 上 最 佳 的 连接 顺序 所 需 时 间 0(3" ) 相 比较 
System R 优化 器 使 用 启发 式 规则 在 查询 树 中 将 选择 与 投影 运算 往 下 推 。 


7 人 <a 
if r5 Fa he, 
ne ` E% A > 
x 人 > 1 Z ` 
rl r2 
a) 左 深 连 接 树 b) 非 左 深 连接 树 


图 13-8 左 深 连 接 树 
某 些 版 本 的 Oracle 系统 最 初 采用 一 种 减少 连接 顺序 选择 代价 的 启发 式 优化 方法 ， 该 方法 大 体 上 是 


这 样 进行 的 : 对 于 一 个 n 路 连接 ,， 它 考虑 nn 个 评估 计划 。 每 个 计划 使 用 一 个 左 深 连接 顺序 ， 各 个 计划 [603 | 


从 一 个 不 同 的 关系 开始 进行 。 通 过 基于 可 用 的 存 取 路 径 的 排序 反复 选择 参加 下 一 个 连接 的 “最 佳 " 关 
系 ， 启 发 式 方法 分 别 为 n 个 执行 计划 构造 连接 顺序 。 基 于 可 用 的 存 取 路 径 ， 每 一 个 连接 或 选择 髓 套 循 
环 连 接 算 法 ， 或 选择 排序 归并 连接 算法 。 最 后 ， 基 于 使 在 内 层 关系 上 没有 索引 的 舱 套 循环 连接 的 个 数 
最 小 以 及 使 排序 归并 连接 的 个 数 最 小 的 原则 ， 用 启发 式 方法 从 个 执行 计划 中 选 一 个 。 

一 些 系统 采用 将 启发 式 计划 选择 与 生成 候选 存 取 计划 集成 在 一 起 的 查询 优化 方法 。System R 及 其 
后 续 的 Starburst 项 目 采 用 基于 SQL 藤 套 块 概念 的 一 个 层次 化 过 程 。 这 里 描述 的 基于 代价 的 优化 技术 独 
立地 应 用 到 每 个 查询 块 上 。 一 些 数据 库 产品 的 优化 器 ， 如 IBM DB2 和 Oracle， 就 是 基于 上 述 方法 并 进 
行 了 扩展 以 处 理 其 他 操作 ( 如 聚集 操作 ) 。 对 于 复合 SQL 查询 语句 (使 用 了 mm、U、- 运算 ) ， 优 化 器 
对 每 个 成 分 分 别 进行 处 理 ， 然 后 所 有 执行 计划 结合 在 一 起 形成 总 的 执行 计划 。 

许多 优化 器 允许 为 查询 优化 指定 一 个 成 本 预算 。 当 超过 优化 成 本 预算 ( optimization cost budget) 时 停 
止 搜 索 最 优 计 划 ， 返 回 当前 找到 的 最 优 计划 。 预 算 本 身 可 能 动态 设置 例如 ， 如 果 一 个 查询 找到 一 个 
低 开销 的 计划 ， 则 降低 预算 ,使 得 当前 找到 的 最 优 计划 开销 已 经 很 低 的 时 候 ， 不 会 再 花 更 多 时 间 去 优 
化 查询 。 另 一 方面 ， 如 果 当 前 找到 的 最 优 计划 比较 昂贵 ， 则 容易 理解 需要 更 多 时 间 去 优化 ， 这 会 带 来 
执行 时 间 的 明显 减少 。 为 了 更 好 地 利用 这 一 思想 ， 优 化 器 通常 先 采 用 低 价 的 启发 式 找到 一 个 计划 ， 然 





© System R 是 SQL 最 早 实现 之 一 ， 而 且 它 的 优化 器 开创 了 基于 代价 的 连接 顺序 优化 。 
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后 在 已 选 计划 的 预算 下 ， 采 用 完整 的 基于 代价 的 优化 。 
许多 应 用 都 会 反复 执行 同样 的 查询 ， 不 过 查询 中 的 常数 值 不 一 样 。 例 如 ， 一 个 大 学 的 应 用 可 能 反 
复 执行 一 个 查询 来 查找 某 个 学 生 的 课程 注册 情况 ， 不 过 每 次 对 不 同 的 学 生 使 用 不 同 的 了 D。 作 为 一 个 局 
发 式 优化 方法 ， 许 多 查询 优化 器 只 对 查询 进行 一 次 优化 并 缓存 该 查询 执行 计划 ， 无 论 该 查询 最 初 提 交 
的 时 候 使 用 了 什么 常数 值 。 每 当 该 查询 再 一 次 执行 ,尽管 可 能 这 次 使 用 新 的 党 数值， 缓存 的 查询 执行 
计划 还 是 会 被 重用 ( 当然 是 使 用 新 的 数值 ) 。 对 于 新 的 常数 值 该 查询 的 最 优 计 划 可 能 不 同 于 由 初始 值 确 
定 的 最 优 计划 ,但 是 作为 启发 式 优化 方法 ,该 缓存 的 计划 仍 被 重用 。 -缓存 和 重用 查询 计划 称 为 计划 
缓存 (plan caching) 。 
即使 使 用 启发 式 方法 ， 基 于 代价 的 查询 优化 仍 给 查询 处 理 带 来 不 少 开 销 。 然 而 ， 增 加 的 开销 通常 
小 于 查询 执行 时 间 的 节省 ， 查 询 执行 时 间 主 要 花 在 慢 速 的 磁盘 存 取 上 。 好 的 计划 与 差 的 计划 在 查询 执 
行 时 间 上 差别 可 能 很 大 ， 因 此 查询 优化 非常 重要 。 如 果 应 用 中 有 许多 经 常 运行 的 操作 ， 那 么 其 中 的 查 
询 可 以 只 优化 一 次 ,选中 的 查询 计划 在 以 后 每 一 次 运行 时 使 用 ， 在 这 样 的 应 用 中 查询 优化 所 能 带 来 的 
代价 节省 更 为 明显 。 因 此 ， 大 部 分 商品 化 系统 都 包含 了 相对 复杂 的 优化 器 。 文 献 注解 给 出 了 对 实际 数 
据 库 系统 查询 优化 器 进行 讲解 的 参考 资料 。 
13.4.4 ” 赚 套 子 查询 的 优化 
SQL 从 概念 上 将 位 于 where 子 句 中 的 艇 套子 查询 处 理 成 传人 参数 并 且 返 回 一 个 单独 值 或 一 个 值 的 
集合 (可 能 为 空 集 ) 的 函数 。 参 数 是 骨 套 子 查询 中 用 到 的 外 层 查询 的 变量 (这 些 变量 称 作 相关 变量 
(correlation variable) ) 。 例 如 ， 假 设 我 们 有 下 面 的 查询 ， 查 找 在 2007 年 教授 一 门 课程 的 所 有 教师 的 
名 字 : 
select name 
from instructor 
where exists (select* 


from teaches 
where instructor. ID = teaches. ID and teaches. year = 2007 ) ; 


在 概念 上 ， 该 子 查 询 可 视 为 一 个 函数 ， 它 获得 一 个 参数 (这 里 是 instructor. ID) ， 并 返回 (具有 同一 

且 的 ) 教 师 2007 年 教授 的 所 有 课程 的 集合 。 

SQL( 在 概念 上 ) 按 以 下 方式 执行 整个 查询 : 首先 计算 位 于 外 层 查 询 的 from 子 句 中 的 关系 的 笛 卡 儿 
职 ， 然 后 对 结果 中 的 每 个 元 组 用 where 子 句 中 的 谓词 进行 测试 。 在 上 述 的 例子 中 ， 就 是 测试 子 查询 运 
算 结果 是 否 为 空 。 

这 种 执行 具有 骸 套 子 查询 的 查询 的 技术 称 为 相关 执行 (correlated evaluation) 。 相 关 执 行 效率 不 高 ， 
因为 子 查询 对 外 层 查询 的 每 一 个 元 组 都 进行 单独 的 运算 ， 从 而 可 能 导致 大 量 的 随机 磁盘 LO 操作 。 

因此 ，SQL 优化 器 尽 可 能 地 试图 将 府 套 子 查 询 转换 成 连接 的 形式 。 有 效 的 连接 算法 有 助 于 避免 昌 
贵 的 随机 YO。 在 没有 可 能 进行 转换 的 情况 下 ， 优 化 器 将 子 查询 当 作 一 个 单独 的 表达 式 ， 单 独 优 化 它 
们 ， 然 后 再 进行 相关 执行 。 

作为 将 骨 套 子 查询 转换 为 连接 的 例子 ， 上 述 例子 的 查询 可 以 重 写成 : 


select name 
from instructor, teaches 
where instructor. ID = teaches. ID and teaches. year = 2007 


(为 了 正确 地 反映 SQL 语义 ， 该 查询 引出 的 重复 元 组 数 不 能 因 重 写 而 改变 ， 稍 后 我 们 可 以 看 到 ， 
可 以 修改 这 个 重 写 的 查询 以 保持 这 个 性 质 ,) 

在 这 个 例子 中 ， 其 套子 查询 非常 简单 。 而 一 般 情 况 下 ， 都 不 能 将 嵌 套 子 查询 关系 直接 移 人 外 层 查 
询 的 from 子 句 里 。 取 而 代 之 ， 我 们 先 建立 一 个 包含 嵌 套 查询 的 结果 ， 但 没有 用 取 自 外 层 查询 的 相关 变 
量 进行 选择 操作 的 临时 关系 ， 然 后 将 这 个 临时 表 与 外 层 查询 进行 连接 。 例 如 ， 下 面 形 式 的 查询 : 





名 ”对 于 学 生 注 册 查 询 ， 任 何 学 生 ID 的 查询 计划 几乎 是 相同 的 。 但 是 如 果 一 个 查询 涉及 一 个 范围 内 的 学 生 D, HE 
返回 这 个 范围 内 所 有 学 生 ID 的 注册 情况 ， 则 与 范围 大 的 情况 相 比较 ， 范 围 小 的 情况 可 能 有 不 同 的 最 优 计划 
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select --- 

from L, 

where P, and exists ( select” 
from L, 
where P, ) 


其 中 P, 是 一 些 较 简单 谓词 的 合 取 ， 可 以 重 写 为 : 
create table ¢, as 
select distinct V 
from L, 
where P, 
form L,, t, 
where P, and P} 


这 里 的 P 包含 已 中 的 不 涉及 相关 变量 选择 的 谓词 ， 而 P, 又 重新 引入 涉及 相关 变量 选择 的 谓词 (谓词 
中 引用 的 关系 相应 地 重 命名 ) 。 这 里 的 V 包 含 谨 套子 查询 的 相关 变量 选择 中 使 用 到 的 所 有 属性 。 
在 该 例子 里 ， 初 始 的 查询 可 以 转换 成 : 


create table 1, as 
select distinct /D 
from teaches 
where year = 2007 ; 
select name 
from instructor, t, 
where t,. ID = instructor. ID; 
如 果 我 们 不 在 乎 每 个 元 组 有 多 少 个 重复 的 话 ， 我 们 为 描述 临时 关系 的 建立 而 重 写 的 这 个 查询 可 以 
通过 简化 上 述 转换 产生 的 查询 得 到 。 
这 种 用 一 个 具有 连接 的 查询 (可 能 使 用 临时 关系 ) 去 替代 说 套 查询 的 过 程 称 为 去 除 相 关 
(decorrelation) 。 
当 嵌 套子 查询 使 用 聚集 ,或 者 当 嵌 套子 查询 的 结果 用 于 等 值 测试 , 或 者 当 嵌 套子 查询 与 外 部 查询 
的 关联 条 件 是 not exists 时 ， 去 除 相关 操作 会 更 复杂 。 我 们 并 不 试图 给 出 通用 的 算法 ， 而 是 在 文献 注解 
里 给 出 相关 的 条 目 。 
从 上 述 讨论 可 知 ， 复 杂 艇 套子 查询 的 优化 是 一 个 困难 的 工作 ， 许 多 优化 器 仅 做 少量 的 去 除 相关 工 
作 。 只 要 有 可 能 ， 最 好 避免 使 用 复杂 藤 套 子 查询 ， 因 为 我 们 不 能 确信 查询 优化 器 能 够 成 功 地 将 它们 转 
换 成 一 种 能 够 有 效 运算 的 形式 。 


13.5 物化 视图 


当 定 义 一 个 视图 的 时 候 ， 一 般 来 说 数据 库 只 存储 定义 该 视图 的 查询 语句 。 与 此 相反 ， 物 化 视图 
(materialized view) 是 一 个 其 内 容 已 计算 并 存储 的 视图 。 物 化 视图 带 来 了 元 余数 据 ， 因 为 其 内 容 可 以 通 
过 视图 的 定义 和 数据 库 中 其 他 数据 得 到 。 然 而 ， 在 许多 情况 下 ， 读 一 个 物化 视图 的 内 容 比 通过 执行 定 
义 该 视图 的 查询 得 到 该 视图 的 内 容 代 价 要 低 得 多 。 

在 一 些 应 用 中 ， 物 化 视图 在 提高 性 能 方面 起 到 很 大 的 作用 。 考 虑 下 面 这 个 视图 ， 它 得 到 每 个 系 的 
薪水 总 额 : 





create view department_total_salary( dept_name, total_salary) as 
select dept_name, sum( salary) 

from instructor 

group by dept_name; 


假设 要 频繁 地 查询 某 个 系 薪水 总 额 。 计 算 这 个 视图 需要 读 取 每 一 个 属于 该 系 的 instructor 元 组 ， 然 
后 累加 薪水 ， 这 是 一 个 耗 时 的 工作 。 相 比较 而 言 ， 如 果 薪 水 总 额 的 视图 定义 物化 了 ， 则 只 要 在 物化 视 
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图 中 查找 一 个 元 组 就 可 以 得 到 某 个 系 的 薪水 总 额 > 。 
13.5.1 视图 维护 

物化 视图 带 来 一 个 问题 ， 就 是 它们 必须 能 够 在 视图 定义 所 使 用 的 数据 变化 时 保持 更 新 。 例 如 ， 一 
个 教师 的 salary 值 更 新 了 ， 物 化 视图 中 数据 将 与 原始 数据 不 一 致 ， 它 必须 进行 更 新 。 这 种 保持 物化 视 
图 与 原始 数据 同步 更 新 的 任务 称 作 视图 维护 ( view maintenance) 。 

视图 可 以 通过 人 工 书 写 的 代码 进行 维护 : 即 更 新 一 个 salary 值 的 代码 也 同时 对 相应 系 的 薪水 总 额 
进行 更 新 。 然 而 ， 这 种 方法 比较 容易 出 错 ， 因 为 很 容易 遗漏 某 些 更 新 salary 的 地 方 ， 导 致 物化 视图 和 
原始 数据 不 匹配 。 

另 一 个 维护 物化 视图 的 选择 是 对 视图 定义 中 每 个 关系 的 插入 、 删 除 和 更 新 操作 定义 触发 器 。 触 发 
器 必须 根据 导致 触发 器 触发 的 变化 对 物化 视图 的 内 容 进 行 修改 。 实 现 这 个 目的 的 一 个 简单 方法 就 是 每 
次 更 新 时 ， 对 该 物化 视图 全 部 重新 进行 计算 。 

一 个 更 好 的 方法 是 只 对 物化 视图 的 受 影 响 部 分 进行 修改 ， 称 为 增 量 的 视图 维护 (incremental view 
maintenance) 。13. 5. 2 节 将 描述 如 何 进 行 增 量 的 视图 维护 。 

现代 数据 库 系统 对 增 量 的 视图 维护 提供 了 更 直接 的 支持 。 数 据 库 系统 编 序 员 不 再 需要 为 视图 维护 
定义 触发 器 。 取 而 代 之 的 是 ， 一 旦 一 个 视图 声明 为 物化 视图 ， 数 据 库 系 统计 算 该 视图 的 内 容 并 在 原始 
数据 变化 时 对 其 进行 增 量 更 新 。 

大 多 数 数据 库 系 统 执行 立即 的 视图 维护 (immediate view maintenance), ， 即 当 更 新 发 生 时 ， 增 量 的 视 
图 维护 作为 更 新 事务 的 一 部 分 立即 执行 。 一 些 数据 库 系统 还 提供 延迟 的 视图 维护 ( deferred view 
maintenance) ， 即 视图 维护 延迟 到 更 晚 一 些 执行 。 例 如 ， 可 能 在 白天 收集 更 新 ， 在 晚上 进行 物化 视图 更 
新 。 这 个 方法 减少 了 更 新 事务 的 开销 。 但 是 ， 使 用 延迟 视图 维护 的 物化 视图 可 能 与 定义 它们 所 使 用 的 

基本 关系 不 一 致 。 

13.5.2 增 量 的 视图 维护 

为 了 理解 如 何 增 量 地 维护 物化 视图 ， 我 们 从 考虑 单独 的 操作 开始 ， 然 后 看 一 下 如 何 处 理 一 个 完整 
的 表达 式 。 

导致 一 个 物化 视图 过 时 的 关系 的 改变 操作 包括 插 和 人、 删除 和 更 新 。 为 了 描述 方便 ， 我 们 将 更 新 一 
个 元 组 的 操作 替换 为 删除 该 元 组 ， 紧 跟着 插入 一 个 更 新 后 的 元 组 的 操作 ， 这 样 我 们 就 只 需要 考虑 插入 
和 删除 。 对 一 个 关系 或 表达 式 的 改变 (插入 和 删除 ) 称 作 它 的 差异 (diffrerential) 。 

13. 5.2.1 连接 操作 

考虑 物化 视图 ” = r Ms。 假设 对 关系 7 作 插 入 一 个 元 组 集 ( 记 为 i,) 的 改变 。 如 果 7 的 原 值 记 为 1”， 
r BREA r", WE r| =r” Uis ME, BREK v h r ;给 出 ,新 值 w”“ 由 ”Ms 给 出 。 
我 们 可 以 将 ”Ms EGH Ui) As, PEBH As) U (i,MXs)。 也 就 是 : 

v™ = v U(i Ms) 

因此 ， 为 了 更 新 物化 视图 "， 我 们 仅 需要 将 元 组 iX s 加 入 到 物化 视图 的 原 内 容 中 。 对 * 的 插入 完 
全 按 对 7 的 插入 对 称 的 方式 进行 。 

现在 ,假设 对 7 的 改变 是 删除 一 个 元 组 集 ( 记 为 d,)。 由 上 面 所 述 同样 的 理由 ,我 们 得 到 : 

vw = v= (dMs) 

Xt s 的 删除 操作 与 对 7 完全 对 称 的 方式 进行 。 

13.5.2.2 选择 和 投影 操作 

考虑 一 个 视图 vw =o,(r)。 如 果 我 们 对 关系 7 做 改变 , 插入 一 个 元 组 集 ( 记 为 i )， 则 vw 的 新 值 可 以 
如 下 计算 : 





O ”对 于 一 个 中 型 大 学 这 种 差距 并 不 总 是 很 大 ,但 是 在 某 些 其 他 情况 下 差别 可 能 非常 大 。 例 如 ， 如 果 物 化 视图 从 一 
个 包含 数 百 万 元 组 的 销售 关系 中 计算 每 种 产品 的 销售 总 额 ， 则 从 基础 数据 计算 聚集 值 和 查询 物化 视图 之 间 的 差 
别 可 能 是 几 个 数量 级 的 。 
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ve = Ua,(i,) 
类 似 地 ， 如 果 我 们 对 关系 7+ 做 改变 ， 删 除 一 个 元 组 集 ( 记 为 d,)， 则 w 的 新 值 如 下 计算 : 
om =o — og, (d,) 
投影 是 一 个 处 理 起 来 更 困难 的 操作 。 考 虑 一 个 物化 视图 v = L (r) BERR r 建立 在 模式 
R=(A4，B) 的 基础 上 ， 它 包含 两 个 元 组 (a, 2) 和 (a,，3)， 则 IL(7) 仅 包含 一 个 元 组 (a) 。 如 果 我 们 从 7 
中 删除 元 组 (a，2) ， 我 们 不 能 从 TL, (r) 中 删除 元 组 (a): 如 果 我 们 这 样 做 ， 则 结果 将 是 一 个 空 关系 ， 
而 事实 上 ,IL(7) 仍 有 一 个 单独 的 元 组 (a)。 这 是 因为 同一 个 元 组 (a) 可 由 两 条 途径 得 到 ， 从 中 删除 一 
个 元 组 只 是 去 除了 得 到 元 组 (a) 的 一 条 途径 ， 另 一 条 仍然 存在 。 
这 个 理由 也 给 出 了 一 种 直观 的 解决 办 法 : 对 投影 (例如 IL(r) ) 中 的 每 个 元 组 ， 我 们 将 保留 一 个 计 
数 ， 记 录 该 元 组 由 几 条 途径 得 到 。 
当 从 关系 7 中 删除 一 个 元 组 集 d, 时 ， 对 d, 中 的 每 个 元 组 上， 我 们 做 以 下 操作 : $ i. A 表示 1: 在 属性 
4 上 的 投影 。 我 们 在 物化 视图 中 找到 (上 4) ， 然 后 对 其 中 存储 的 计数 减 1; 如 果 计 数 变 为 0， 则 从 物化 
视图 中 删除 (1. A) 。 
处 理 插入 操作 相对 较 直 接 。 当 把 元 组 集 i, 插入 到 关系 > 中 时 ， 对 中 的 每 个 元 组 ;， 我 们 做 以 下 操 
WE: MRC 4) 已 经 在 物化 视图 中 存在 ,我 们 对 其 中 存储 的 计数 加 1; 如 果 没 有 ， 我 们 将 (1. 4) 加 入 到 
物化 视图 中 去 ， 同 时 令 其 计数 值 为 1。 
13.5.2.3 聚集 操作 
聚集 操作 的 处 理 过 程 在 某 种 程度 上 与 投影 操作 类 似 。 在 SQL 中 的 聚集 操作 有 count、avg、min 
和 max。 
© count; 考虑 一 个 物化 视图 ”= Gom (r), CIRE A 对 7 进行 分 组 然后 对 属性 B 计数。 
当 把 元 组 集 插入 到 关系 > 中 时 ， 对 中 的 每 个 元 组 上:， 我 们 做 以 下 操作 : 我 们 在 物化 视 
图 中 查找 组 上 4， 如 果 查 找 不 到 ， 则 将 ( i. 4, 1 ) 加 入 到 物化 视图 中 ; 如 果 存 在 组 上 4， 我 们 对 
该 组 的 计数 加 1。 
当 从 关系 7+ 中 删除 一 个 元 组 集 d, 时 ， 对 d, 中 的 每 个 元 组 :， 我 们 做 以 下 操作 : 我 们 在 物化 
视图 中 找到 组 t. 4， 然 后 对 该 组 的 计数 值 减 1; 如 果 计 数 变 为 0， 则 从 物化 视图 中 删除 组 上 4。 
。 sum; 考虑 一 个 物化 视图 ”= Gan (7) o 
当 把 元 组 集 i, 插入 到 关系 7r PA, Mi, 中 的 每 个 元 组 上， 我 们 做 以 下 操作 : 我 们 在 物化 视 
图 中 查找 组 t. 4， 如 果 查 找 不 到 ， 则 将 ( i.4, 1.B ) 加 入 到 物化 视图 中 ， 另 外 ， 与 我 们 在 投影 中 
所 做 的 处 理 类 似 ， 我 们 存储 一 个 计数 值 1 与 ( 1. 4, tB ) 相 关联 ; 如 果 存 在 组 A, 我们 将 t B 
的 值 加 到 该 组 的 聚集 值 上 ， 并 对 该 组 的 计数 加 1。 
当 从 关系 > 中 删除 一 个 元 组 集 d, 时 ,对 d, 中 的 每 个 元 组 上 ， 我 们 做 以 下 操作 : 我 们 在 物化 
视图 中 找到 组 i. 4， 然后 将 该 组 的 聚集 值 减 去 上 号 的 值 ， 同 时 也 要 对 该 组 的 计数 减 1， 如 果 计 数 
变 为 0， 则 从 物化 视图 中 删除 组 t. Ao 
如 果 不 保留 附加 的 计数 值 ， 我 们 就 无 法 区 分 一 个 组 的 求 和 数 为 0 还 是 该 组 的 所 有 元 组 都 已 
经 删除 了 。 
。 avg: 考虑 一 个 物化 视图 ”= Ganga) (r)。 
当 插 和 信和 删除 时 直接 更 新 一 个 视图 的 平均 值 是 不 可 能 的 ， 因 为 这 不 仅 依赖 于 原 值 和 插入 / 
删除 的 元 组 ， 而 且 还 依赖 于 该 组 的 元 组 数 。 
对 于 avg 这 种 情况 的 处 理 ， 可 以 采用 另外 的 方法 : 我 们 用 以 前 所 述 的 方法 维护 sum 和 
count 聚集 值 ， 然 后 用 总 和 除 以 计数 来 得 到 平均 值 。 
e min, max: 考虑 一 个 物化 视图 v = Gainey (7). (max 的 情形 完全 类 似 。) 
对 关系 > 上 的 插 人 操作 的 处 理 是 直截了当 的 ， 但 对 关系 > 上 的 删除 操作 ， 维 护 聚 集 值 min 
和 max 要 更 复杂 一 些 。 例 如 ， 如 果 从 关系 7 中 删除 了 某 个 组 的 对 应 最 小 值 的 那个 元 组 ， 我 们 就 
必须 查看 关系 + 中 同 组 的 其 他 元 组 ， 从 而 找到 新 的 最 小 值 。 
13.5.2.4 其 他 操作 
对 集合 操作 交 的 维护 如 下 : 对 于 给 定 的 物化 视图 =rns， 当 插入 一 个 元 组 到 关系 > 中 时 ， 我 们 检 
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查 它 是 否 在 关系 * 中 ， 如 果 在 ， 则 将 它 加 入 到 * 中。 从 关系 > 中 删除 一 个 元 组 时 ， 如 果 它 在 交集 合 中 存 
在 ， 我 们 就 将 其 从 交集 中 删除 。 其 他 集合 操作 ， 并 和 集合 差 ， 可 采用 相似 的 方法 进行 处 理 ， 其 处 理 的 
细节 留 给 读者 。 
外 连接 的 处 理 与 连接 的 处 理 几 乎 完全 一 致 ， 除 了 要 做 几 个 额外 的 工作 外 。 对 于 在 关系 上 上 的 删除 ， 
我 们 必须 处 理 * 中 不 再 同 r 中 任何 元 组 相 匹配 的 元 组 ; 对 于 在 关系 > 上 的 插入 ， 我 们 必须 处 理 * 中 原先 
不 与 + 中 任何 元 组 相 匹 配 的 元 组 ， 其 处 理 的 细节 再 次 留 给 读者 。 
13.5.2.5 表达 式 的 处 理 
到 目前 为 止 ， 我 们 已 经 明白 了 如 何 对 一 个 单独 的 操作 的 结果 进行 增 量 更 新 。 对 于 一 个 完整 表达 式 
的 处 理 ， 我 们 可 以 从 最 小 的 子 表达 式 开 始 ， 推 导出 用 于 计算 每 一 个 子 表达 式 结果 的 增 量 变化 的 表达 式 。 
例如 ， 当 一 个 元 组 集 i, 插入 到 关系 + 中 时 ， 我 们 想 要 增 量 更 新 物化 视图 EME, BERR r RE 
E, 中 使 用 ， 并 假设 要 插入 到 E 中 的 元 组 集 由 表达 式 D 给 出 ， 则 表达 式 DAX E, 给 出 了 要 插入 到 ELM 
E, 中 的 元 组 集 。 
对 于 表达 式 有 关 的 增 量 视图 维护 的 更 进一步 讨论 可 参见 文献 注解 。 
13.5.3 查询 优化 和 物化 视图 
可 以 将 物化 视图 看 作 普 通 的 关系 那样 执行 查询 优化 。 然 而 ， 物 化 视图 为 优化 提供 了 更 有 利 的 机 会 。 
。 重 写 查 询 以 利用 物化 视图 : 
假设 有 物化 视图 "= r Ms 可用， 而 且 用 户 提 交 了 一 个 查询 + Xs Mt。 与 直接 优化 用 户 所 提 
交 的 查询 相 比 ， 将 该 查询 重 写 为 v Mt 可 以 提供 比 直 接 优化 更 有 效 的 查询 计划 。 因 此 ， 查 询 优 
化 器 的 工作 应 该 包括 知道 何 时 可 利用 物化 视图 来 提高 查询 处 理 速度 。 
。 将 使 用 物化 视图 的 地 方 替换 成 它 的 定义 : 
假设 有 物化 视图 ”= r Xs 可用, 但 其 上 没有 任何 索引 ， 而 用 户 提交 了 一 个 查询 4-io(z) 。 
假设 关系 * 在 公共 属性 B 上 有 索引 ， 关 系 > 在 属性 4 上 有 索引 。 该 查询 最 好 的 执行 计划 可 能 是 
将 "替换 成 > 内 *， 运 行 执行 计划 4-o(r)Ms， 这 样 通过 分 别 使 用 ~ AA s. B 上 的 索引 可 以 使 选 
择 和 连接 操作 得 到 高 效 的 执行 。 比 较 而 言 ， 直 接 在 " 上 执行 选择 操作 可 能 需要 对 o 执行 一 次 完 
全 扫描 ， 执 行 代 价 可 能 会 更 高 。 
文献 注解 给 出 了 有 关 如 何 利 用 物化 视图 进行 有 效 的 查询 优化 的 研究 著作 。 
13.5.4 物化 视图 和 索引 选择 
另外 一 个 相关 的 优化 问题 是 物化 视图 选择 ( materialized view selection) ， 顾 名 思 义 ， 就 是 “物化 哪些 
视图 集 是 最 佳 方案 ?” 这 个 视图 集 的 选择 必须 基于 系统 的 工作 负载 ( workload) ， 即 反映 系统 通常 负载 的 
一 系列 查询 和 更 新 操作 。 一 个 简单 的 标准 是 ， 选 择 的 物化 视图 集 应 能 够 使 系统 完成 查询 和 更 新 的 工作 
负载 所 耗费 的 总 执行 时 间 ( 包 括 维 护 物 化 视图 所 用 的 时 间 ) 最 短 。 考 虑 到 不 同 查询 和 更 新 的 重要 性 不 
同 ， 数 据 库 管 理 员 通常 会 修改 这 个 标准 : 有 些 查询 和 更 新 需要 有 快速 反应 速度 ， 而 其 余 的 可 接受 慢 的 
反应 速度 。 
索引 在 一 定 意义 上 与 物化 视图 类 似 ， 它 们 也 是 衍生 的 数据 ， 它 们 能 够 提高 查询 速度 ， 也 可 能 减 慢 
更 新 速度 。 因 此 ， 索 引 选择 (index selection) 的 问题 虽然 更 简单 一 些 ， 但 它 与 物化 视图 选择 的 问题 的 关 
系 也 很 密切 。24. 1. 6 ~ 24. 1. 7 节 会 对 这 些 问 题 做 详细 讨论 。 
许多 数据 库 系 统 提供 了 一 些 帮助 数据 库 管理 人 员 进 行 索引 和 物化 视图 选择 的 工具 。 这 些 工具 检查 
查询 和 更 新 的 历史 纪录 ， 并 建议 可 进行 物化 的 索引 和 视图 。Microsoft SQL Server Database Tuning 
Assistant, IBM DB2 Design Advisor 和 Oracle SQL Tuning Wizard 等 都 是 这 种 类 型 的 工具 。 


13.6 查询 优化 中 的 高 级 话题 
除了 我 们 已 经 介绍 过 的 方法 ， 还 有 许多 优化 查询 的 方法 。 本 节 介 绍 其 中 的 一 些 。 
13.6.1 top-K 优化 
许多 查询 都 要 求 返 回 在 某 些 属性 上 排 了 序 的 结果 ， 并 且 对 于 某 特定 K 值 ， 只 取 结 果 中 的 前 Kk 个。 
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有 时 范围 K 是 显 式 指定 的 。 例如， 一 些 数据库 支持 limit 太子 句 ， 它 导致 从 查询 结果 中 只 返回 前 天 个 结 
果 。 其 他 数据 库 支 持 另 一 些 方式 的 类 似 限制 。 在 其 他 情况 下 ， 查 询 不 指定 一 个 限制 ， 但 优化 器 会 允许 
指定 一 个 提示 ， 表 明 尽 管 查询 可 能 会 产生 更 多 结果 ， 但 是 只 有 前 天 个 结果 可 能 会 被 检索 。 

当天 值 很 小 时 ， 如 果 一 个 查询 优化 计划 先 产 生 整 个 结果 集 ， 然 后 排序 并 产生 前 天 个 结果 ， 这 样 做 
效率 会 非常 低 ， 因 为 绝 大 部 分 计算 出 来 的 中 间 结 果 都 要 舍弃 。 人 们 提出 了 一 些 技术 来 优化 这 类 top -K 
查询 。 一 种 方法 是 使 用 能 够 产生 有 序 的 结果 的 流水 线 查 询 计 划 。 另 一 种 方法 是 估计 将 会 出 现在 前 天 个 
输出 中 的 排序 属性 上 最 大 的 值 是 什么 ， 然 后 引入 选择 谓词 删除 较 大 的 值 。 如 果 在 前 天 个 值 以 外 产生 了 
多 余 的 元 组 则 舍弃 掉 ， 如 果 产 生 的 元 组 过 少 则 改变 选择 条 件 并 重新 执行 选择 操作 。top -天 优化 的 相关 
研究 请 参见 文献 注解 。 
13. 6.2 连接 极 小 化 

当 查 询 通过 视图 产生 时 ， 有 时 实际 进行 连接 的 关系 数 比 计算 该 查询 所 必须 进行 连接 的 关系 数 要 大 。 
例如 ， 一 个 视图 vw 可 能 包含 instructor 和 department 的 连接 ,但 是 v 的 一 个 使 用 可 能 只 涉及 instructor 的 属 
性 。instructor 的 连接 属性 dept_name 是 指向 department 的 外 键 。 假 设 instructor. dept_name 声明 为 非 空 ， 
则 与 department 的 连接 可 以 去 掉 ， 对 于 查询 没有 任何 影响 。 因 为 在 上 述 假设 下 ， 与 department 的 连接 既 
没有 删除 instructor 中 的 任何 元 组 ， 也 没有 产生 instructor 元 组 的 额外 拷贝 。 

上 述 从 连接 中 去 掉 一 个 关系 就 是 连接 极 小 化 的 一 个 例子 。 事 实 上 ， 连 接 极 小 化 也 可 以 用 到 其 他 情 
况 。 连 接 极 小 化 的 相关 研究 请 参见 文献 注解 。 
13. 6. 3 更 新 的 优化 

更 新 查询 通常 在 set 和 where 子 句 中 涉及 子 查询 ， 这 些 也 都 要 在 更 新 优化 时 考虑 在 内 。 涉 及 在 一 个 
更 新 列 上 的 选择 操作 的 更 新 (例如 给 所 有 工资 大 于 等 于 $100 000 的 职员 加 薪 10% ) 必须 小 心 处 理 。 如 
果 更 新 是 在 选择 操作 扫描 索引 的 执行 过 程 中 完成 ， 一 个 更 新 的 元 组 可 能 会 在 扫描 之 前 和 扫描 之 后 重复 
插入 索引 两 次 ; 同一 个 职员 的 元 组 可 能 不 正确 地 更 新 多 次 (在 这 种 情况 下 可 能 是 无 限 次 ) 。 涉 及 结果 更 
新 的 子 查询 也 同样 会 有 相似 的 问题 。 

更 新 操作 本 身 可 能 影响 自己 执行 的 问题 称 为 万 圣 节 问 题 ( Halloween problem, 在 IBM 发 现 这 个 问题 
时 以 当天 的 节日 命名 ) 。 这 个 问题 可 以 通过 执行 这 样 的 查询 实现 : 首先 定义 更 新 ， 创 建 受到 影响 的 元 组 
列表 ， 并 在 最 后 更 新 元 组 和 索引 。 然 而 ， 把 执行 计划 以 这 种 方式 分 割 会 增加 执行 代价 。 更 新 计划 可 以 
通过 先 检查 万 圣 节 问 题 会 否 发 生来 进行 优化 ， 如 果 没 有 出 现 ， 则 更 新 可 以 在 查询 执行 的 时 候 完 成 ， 从 
而 减少 更 新 开销 。 例 如 ， 如 果 更 新 不 影响 索引 属性 ， 则 万 圣 节 问 题 不 会 发 生 。 即 使 影响 索引 属性 ， 如 
果 更 新 减 小 该 值 ， 而 索引 扫描 以 升序 执行 ， 更 新 过 的 元 组 在 扫描 时 不 会 再 次 遇 到 。 在 这 种 情况 下 ， 查 
询 执行 的 同时 可 以 更 新 索引 ， 从 而 降低 总 体 成 本 。 

导致 大 量 更 新 的 更 新 查询 可 能 通过 将 更 新 批量 收集 ， 然 后 分 别 将 批量 的 更 新 在 其 影响 的 索引 上 执 
行 来 优化 。 当 将 批量 更 新 应 用 到 一 个 索引 上 时 ， 批 数据 先 按 索引 序 排序 ， 这 样 的 排序 可 以 大 大 减少 更 
新 索引 需要 的 随机 IO 次 数 。 

这 种 优化 方式 在 许多 数据 库 系 统 中 都 有 实现 。 更 新 优化 的 相关 研究 请 参见 文献 注解 。 
13. 6.4 多 查询 优化 和 共享 式 扫描 

当 一 批 查询 一 起 提交 时 ， 一 个 查询 优化 器 可 能 发 现 不 同 查询 之 间 共 同 的 子 表达 式 ， 仅 执行 它们 一 
次 并 且 在 需要 的 时 候 重用 。 复 杂 的 查询 可 能 在 查询 的 不 同 部 分 有 重复 的 子 表达 式 ， 可 以 采用 同样 的 方 
法 降低 查询 执行 代价 。 这 种 优化 称 为 多 查询 优化 (multi-query optimization ) 。 

公共 子 表达 式 消 除 (common subexpression elimination ) 通过 计算 并 存储 结果 ， 优 化 程序 中 不 同 表 达 
式 之 间 共 享 的 子 表达 式 ， 在 子 表达 式 出 现 的 地 方 重用 结果 。 公 共 子 表达 式 消 除 是 编程 语言 编译 器 中 优 
化 算术 表达 式 的 一 个 标准 优化 方法 。 发 现 一 批 查询 中 为 每 个 查询 选择 的 执行 计划 中 的 公共 子 表达 式 在 
数据 库 查询 优化 中 是 非常 有 用 的 ， 并且 在 一 些 数据 库 中 都 有 实现 。 然 而 ， 多 查询 优化 在 某 些 情况 下 可 
以 做 得 更 好 : 一 个 查询 通常 有 一 个 以 上 的 执行 计划 ， 相 比较 于 为 每 个 查询 选择 代价 最 小 的 执行 计划 ， 
明智 地 选择 一 个 执行 计划 集合 可 能 会 带 来 更 多 的 共享 和 更 少 的 代价 。 更 多 查询 优化 的 相关 研究 请 参见 
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文献 注解 。 

共享 查询 之 间 的 关系 扫描 是 一 些 数据 库 中 实现 的 男 一 种 有 限 形式 的 多 查询 优化 。 共 享 式 扫描 
(shared-scan) 优化 的 工作 方式 如 下 : 不 是 对 于 需要 扫描 一 个 关系 的 每 一 个 查询 ， 都 从 磁盘 上 重复 地 读 
取 该 关系 ， 而 是 从 磁盘 上 读 取 一 次 数据 ， 然 后 流水 线 地 传递 给 每 一 个 查询 。 共 享 式 扫描 在 多 个 查询 都 


扫描 一 个 大 表 (“ 事 实 表 ” 作 为 一 个 典型 ) 时 非常 有 用 。 
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13.6.5 参数 化 查询 优化 

正如 我 们 此 前 在 13.4.3 节 中 看 到 的 ， 计 划 缓 存 是 许多 数据 库 中 采用 的 启发 式 方法 。 回 想 一 下 ， 在 
计划 缓存 的 情况 下 ， 如 果 一 个 查询 涉及 一 些 常数 ， 则 优化 器 选择 的 计划 被 缓存 ， 并 且 当 查询 再 次 被 提 
交 时 重用 ， 即 使 查询 中 的 常数 不 同 。 例 如 ， 假 设 一 个 查询 将 系 的 名 称 作为 参数 ， 并 检索 该 系 中 的 所 有 
课程 。 采 用 计划 缓存 方法 ， 当 查询 第 一 次 执行 时 (例如 对 音乐 系 进行 查询 ) 选 中 一 个 计划 ， 如 果 再 对 其 
他 任何 系 进行 查询 ， 该 计划 被 重用 。 

如 果 最 优 计划 受 查询 中 的 常数 值 影响 不 大 ， 则 通过 计划 缓存 重用 计划 是 合理 的 。 然 而 ， 如 果 计 划 
受 常数 的 影响 ， 则 可 以 使 用 参数 化 查询 优化 作为 替代 。 

在 参数 化 查询 优化 (parametric query optimization) 中 ， 不 提供 具体 参数 值 ， 例 如 前 面 例子 中 的 dept_ 
name， 而 对 查询 进行 优化 。 然 后 ， 优 化 器 提供 几 个 计划 ， 分 别 对 于 不 同 参数 值 是 最 优 的 。 一 个 计划 只 
有 在 对 一 些 可 能 的 参数 值 是 最 优 的 情况 下 才 会 被 优化 器 输出 。 优 化 器 输出 的 备 选 计划 集合 被 存储 。 当 
提交 一 个 带 具 体 参 数值 的 查询 时 ， 使 用 此 前 计算 的 计划 集合 中 的 最 低 价 的 计划 ， 而 不 用 执行 一 个 完 
的 优化 。 找 到 这 个 最 低 价 的 计划 所 需 的 时 间 要 远 远 短 于 重新 优化 的 时 间 。 参 数 化 查询 优化 的 相关 研究 
参见 文献 注解 。 


13.7 总 结 


。 给 定 一 个 查询 ， 一 般 有 多 种 方法 可 以 计算 结果 。 系 统 负责 将 用 户 输入 的 查询 转换 成 能 够 更 有 效 执行 
的 等 价 查询 。 为 处 理 查询 找 出 一 个 好 的 策略 的 过 程 称 为 查询 优化 。 

© 复杂 查询 的 执行 涉及 多 次 存 取 磁盘 的 操作 。 由 于 从 磁盘 中 传输 数据 相对 于 主 存 速 度 和 计算 机 系统 的 

CPU 速度 要 慢 ， 因 此 进行 一 定量 的 处 理 以 选择 一 个 能 够 最 小 化 磁盘 存 取 的 方法 是 完全 值得 的 。 

有 很 多 等 价 规则 供 我 们 用 于 将 一 个 表达 式 转化 成 等 价 表 达 式 。 我 们 使 用 这 些 规则 系统 地 产生 与 所 给 

查询 等 价 的 所 有 表达 式 。 

每 个 关系 代数 表达 式 都 表示 某 个 特定 的 操作 序列 。 选 择 查询 处 理 策 略 的 第 一 步 就 是 找到 一 个 关系 代 

数 表 达 式 ， 使 它 与 所 给 的 表达 式 等 价 并 且 据 估计 有 更 小 的 执行 代价 。 

。 数据 库 系 统 为 执行 一 个 操作 所 选择 的 策略 依赖 于 每 个 关系 的 大 小 和 列 值 的 分 布 情况 。 数 据 库 系 统 可 
以 为 每 个 关系 7 存储 统计 信息 ， 从 而 能 够 基于 这 些 可 靠 信息 选择 合适 的 策略 。 这 些 统计 信息 包括 

O 关系 7 中 的 元 组 数 。 

O 关系 7 中 的 一 个 记录 (元 组 ) 的 大 小 ( 按 字 节 计数 ) 。 

关系 + 中 的 某 个 特定 属性 中 出 现 的 不 同 取 值 的 数目 。 

许多 数据 库 系统 使 用 直方 图 来 存储 一 个 属性 在 每 个 区 间 上 的 取 值 个 数 。 直 方 图 通常 采用 取样 来 计算 。 

© 这 些 统计 信息 使 得 我 们 可 以 估计 各 种 操作 的 结果 集 的 大 小 和 执行 操作 的 代价 。 当 处 理 一 个 查询 的 过 

程 中 有 多 个 索引 可 用 于 辅助 的 时 候 ， 关 系 的 统计 信息 特别 有 用 ， 这 些 信息 对 查询 处 理 策略 的 选择 有 

很 大 的 影响 。 

对 每 个 表达 式 ， 我 们 可 以 用 一 些 等 价 规则 产生 多 个 可 选 的 执行 计划 ， 然 后 从 中 选择 代价 最 小 的 执行 

计划 。 不 少 优化 技术 可 以 减少 需要 产生 的 可 选 表 达 式 和 执行 计划 的 数量 。 

我 们 使 用 启发 式 方 法 来 减少 需要 考虑 的 执行 计划 的 数量 ， 从 而 减少 优化 的 代价 。 用 于 关系 代数 查询 

转换 的 启发 式 规则 包括 "尽早 执行 选择 操作 ”、“ 尽 早 执行 投影 操作 ”和 ”避免 笛 卡 儿 积 操 作 ”。 

。 物化 视图 可 以 用 来 加 速 查询 处 理 。 当 原 关 系 发 生 修 改 时 ， 需 要 用 增 量 的 视图 维护 来 高 效 地 更 新 物化 
视图 。 利 用 包含 一 个 操作 的 输入 的 变化 量 的 代数 表达 式 ， 能 够 完成 对 该 操作 的 变化 量 的 计算 。 其 他 
与 物化 视图 相关 的 问题 还 包括 如 何 借助 物化 视图 进行 查询 优化 和 如 何 选择 需要 待 物化 的 视图 。 

© 提出 了 一 些 先进 的 优化 技术 ， 包 括 top-K 优化 、 连 接 极 小 化 、 更 新 优化 、 多 查询 优化 和 参数 化 查询 优化 。 
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。 目录 信息 。 启发 式 优化 。 物化 视图 选择 
。 大 小 估计 © 计划 缓存 e top-K 优化 
口 选择 。 存 取 计划 选择 。 连接 极 小 化 
口 中 选 率 e 相关 执行 。 万 圣 节 问 题 
口 连接 。 去 除 相关 e 多 查询 优化 
。 直方 图 
实践 习题 


13.1 


13.2 


13.3 


13.4 


15:7 


证 明 以 下 等 价 式 成 立 。 解 释 如 何 用 它们 提高 某 些 查询 的 效率 : 

a. E, 1 0( E,—E,) = ( E, KE, —E, bE, ) 

b. (4 Gr(E)) =,Gr(o,(E)), 其 中 9 仅 使 用 4 的 属性 。 

c.o,(E, ME,) = oo(E,)JMAE,， 其 中 09 仪 使 用 E, 的 属性 。 

对 于 下 面 每 对 表达 式 ， 给 出 关系 实例 说 明 表 达 式 不 等 价 : 

a. II (CR - S)5I(R) - TCS) 

b. oscs a Gma aS BCR) ) 1 Gracas BC Og <4(R) ) 

c. 在 上 述 的 表达 式 中 ， 若 max 全 改 为 mim， 表 达 式 依旧 等 价 吗 ? 

d. (RS)JT 与 RJCSJNT)， 换 言 之 ， 自 然 左 外 连接 不 满足 结合 律 。( 提示 : 假设 三 个 关系 的 
模式 分 别 为 R(a, bi), S(a, ba), T(a, bs) 0) 

e. o,(E D E,) 5 E, Mo, (E), 其 中 9 仅 使 用 E, 的 属性 。 

SQL 语言 允许 关系 有 重复 元 组 ( 见 第 3 章 ) 。 

a. 对 基本 关系 代数 运算 oo、 代 、x、%X、 一 、U 和 ,给 出 它们 在 允许 有 重复 元 组 出 现 情况 下 的 定 
X, 定义 的 方式 应 与 SQL 一 致 。 

b. 检查 等 价 规则 1 ~7. b 中 哪 一 些 满足 a 部 分 中 定义 的 重复 集 版 本 的 关系 代数 运算 。 

考虑 关系 r,(4, B, C), n(C, D, E)Mr,(E, FF)， 它 们 的 主 码 分 别 为 4、C、E。 itr, 有 1000 个 元 

H, n 有 1500 个 元 组 ，m 有 750 个 元 组 。 估 计 r Mr, Mr, 的 大 小 ， 给 出 一 个 有 效 地 计算 这 个 连接 的 

策略 。 

考虑 习题 13. 4 PW KAT (A, B, C), n(C, D, E)K r (E, F), 假设 除 了 整个 模式 外 没有 主 码 。 

SVC, r,) 900, VOC, r,)ž 1100, VCE, r) 50, VE, 73) 100, 假设 r, 有 1000 个 元 组 ,7 

有 1500 个 元 组 ， 有 750 个 元 组 。 估 计 7, Mr, Mr, 的 大 小 ， 给 出 一 个 有 效 地 计算 这 个 连接 的 策略 。 

假设 关系 department 在 building 属性 上 有 B' 树 索 引 ， 此 外 别 无 其 他 索引 。 处 理 下 列 包 含 否 定 条 件 的 选 

择 操作 的 最 佳 方法 是 什么 ? 

a. T (huilding <“Watson”) ( department ) 

b. or 一 (puiding = “ Watson”) ( department ) 

C. Or (building < “Watson” V budget < 50000) ( department ) 
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351 


[616 | 
L617 





352 ”第 三 部 分 数据 存储 和 查询 


13.8 


13.9 


13. 10 


13. 11 


13. 14 


select 
from r , s 
where upper(r. A) =upper(s. A) ; 


其 中 "upper "是 个 函数 ， 该 函数 返回 输入 参数 中 所 有 小 写字 母 蔡 换 成 相应 大 写字 母后 的 结果 。 
a 找 出 你 使 用 的 数据 库 系 统 中 为 这 个 查询 产生 的 计划 。 
b. 有 些 数据 库 系 统 对 这 个 查询 会 采用 非常 低 效 的 ( 块 ) 肉 套 循环 连接 。 简 单 解 释 对 于 该 查询 ， 如 何 使 
用 散 列 连接 或 者 归并 连接 。 
给 出 下 列表 达 式 等 价 的 条 件 : 
aaao (EME, ) and (Care (E) )M E, 

其 中 agg 表示 任何 聚合 操作 。 如 果 agg 是 min 或 max 中 的 一 个 ， 上 述 条 件 可 以 放宽 成 什么 ? 
考虑 优化 中 感 兴 趣 的 排列 顺序 问题 。 假 设 给 你 一 个 查询 ， 计 算 一 个 关系 集合 S 的 自然 连接 。51 是 $ 
的 一 个 子 集 ，51 的 感 兴趣 的 排列 顺序 是 什么 ? 
请 说 明 n 个 关系 可 以 构成 (2(n -1))1!1 Z (=-1)1 个 不 同 的 连接 顺序 。 
提示 : 一 棵 完全 二 叉 树 (complete binary tree) 的 每 个 内 部 结 点 都 正好 有 两 个 子 结 点 。 利 用 以 下 事实 : 
拥有 个 叶 结 点 的 不 同 完全 二 又 树 的 个 数 为 : 

(24a 一 

BA (n=1) 
如 果 你 愿意 的 话 ， 你 也 可 以 从 n 个 叶 结 点 的 不 同 二 又 树 的 个 数 公 式 推导 出 n 个 叶 结 点 的 不 同 完全 二 
叉 树 的 个 数 。n 个 叶 结 点 的 不 同 二 又 树 的 个 数 为 : 

1 2n 

n+ "| ”) 
这 个 数字 就 是 卡特 兰 数 ( Catalan number) ， 它 的 衍生 式 可 以 在 任何 一 本 数据 结构 或 算法 的 标准 教材 中 
找到 。 
证 明 计算 连接 次 序 的 最 小 时 间 代 价 是 0(3" ) 。 假 设 存储 和 查看 关系 集合 的 有 关 信 息 ( 如 该 集合 的 最 
佳 连接 次 序 以 及 该 连接 次 序 的 代价 ) 所 需 时 间 是 常量 。( 如 果 你 感觉 做 本 题 有 困难 ， 至 少 证 明 更 宽松 
的 时 间 界 限 0(2™ ) 。) 
如 果 像 System R 优化 器 那样 只 考虑 左 深 连接 树 , 证明 寻 找 最 有 效 连 接 次 序 的 时 间 大 约 为 n2"。 假 定 
只 有 一 个 感 兴趣 的 排序 次 序 。 
考虑 图 13-9 中 的 银行 数据 库 ， 主 码 用 下 划 线 标识 。 为 这 个 关系 数据 库 构 建 以 下 SQL 查询 。 
对 关系 account 写 一 个 嵌 套 查询 ， 从 每 一 个 名 称 以 B 打头 的 分 行 中 找 出 具有 最 大 余额 的 所 有 账户 。 





. 不 使 用 嵌 套 子 查 询 重 写 前 面 的 查询 ， 换 言 之， 去 除 查 询 的 相关 性 。 
. 对 去 除 此 类 查询 相关 性 给 出 一 个 处 理 过 程 ( 类 似 于 13. 4. 4 节 描 述 的 那样 ) 。 





branch( branch_name, branch_city, assets ) 

customer ( customer_name , customer_street , customer _city ) 
loan (loan_number, branch_name, amount) 

borrower (customer_name , loan_number) 

account (account_number, branch_name, balance) 
depositor ( customer_name, account_number ) 














图 13-9 习题 13. 13 的 银行 数据 库 


半 连 接 操 作 的 集合 定义 如 下 : 
r Xos = Ilr(r M 0s) 
其 中 RR 是 7 模式 的 属性 集合 。 多 集合 版 本 的 半 连 接 操 作 返 回 相同 的 元 组 集合 ， 不 过 每 个 元 组 的 
拷贝 数量 和 其 在 r 中 的 相同 。 
考虑 我 们 在 13. 4. 4 PRAM REA: 找 出 在 2007 年 教授 一 门 课程 的 所 有 教师 名 字 。 使 用 
多 集合 版 本 的 半 连 接 操 作 符 写 出 查询 的 关系 表达 式 ， 确 保 每 个 名 字 的 重复 数量 和 SQL 查询 中 相同 。 
( 半 连 接 操作 符 在 嵌 套 查询 去 除 相 关中 广泛 应 用 ,) 


第 13 章 查询 优化 353 


13. 15 ”假设 关系 department 在 (dept_name，building ) 属 性 上 有 B- 树 索引 。 处 理 下 列 选择 操作 的 最 佳 方法 是 
什么 ? 


© (building <* Watson”) A (budget <55000) A (dept_name = "Music" ) ( department ) 


13.16 使 用 13.2.1 节 中 的 等 价 规则 ， 证 明 如 何 通过 一 系列 转换 导出 下 列 等 价 式 : 
a. Tanong (E) a ga( valwl E))) 620 
b. Tano, (Eip, E2) =O, (Em0 (00.(E,))), 其 中 0, MS E, 的 属性 

13.17 考虑 下 面 两 个 表达 式 oo(E, ME,) 和 os,(E, WE,)。 
a. 通过 举例 说 明 两 个 表达 式 一 般 是 不 等 价 的 。 
b. 给 出 一 个 谓词 上 的 简单 条 件 ， 使 得 满足 条 件 时 两 个 表达 式 是 等 价 的 。 

13. 18 ”我 们 说 一 个 等 价 规则 集 是 完备 的 ， 如 果 对 于 任意 两 个 等 价 的 表达 式 ， 都 可 以 使 用 一 系列 等 价 规则 从 其 
中 一 个 表达 式 推导 出 另 一 个 。13. 2. 1 节 讲 述 的 等 价 规则 集 是 完备 的 吗 ? 提示 : 考虑 等 式 o.r) =| |。 

13. 19 请 解释 如 何 用 直方 图 来 估算 形 如 oo <v(7) 的 选择 操作 的 大 小 。 

13.20 ”假设 两 个 关系 r 和 在 属性 ~4 和 s. 4 上 分 别 有 直 方 图 ， 但 是 所 取 区 间 不 同 。 请 给 出 如 何 用 直方 图 估 
计 rMs 的 大 小 。 提 示 : 进一步 细 分 每 个 直方 图 的 区 间 。 

13.21 考虑 查询 


select A, B 
from r 
where r. B < some (select B 
from s 
where s. A= r. A) 


说 明 如 何 使 用 练习 13. 14 中 定义 的 多 集合 版 本 半 连 接 操作 符 去 除 上 述 查 询 中 的 相关 性 。 
13. 22 ”从 插入 和 删除 两 方面 描述 如 何 增 量 维护 下 面 操作 的 结果 集 : 
a. 并 和 集合 差 
b. 左 外 连接 
13.23 ”给 出 一 个 定义 物化 视图 的 表达 式 的 例子 和 两 种 情况 (有 关 输 入 关系 的 统计 信息 集合 与 关系 数据 
的 变化 量 ) 。 其 中 一 种 情况 下 ， 增 量 视 图 维护 优 于 重新 计算 ; 另 一 种 情况 下 ， 重 新 计算 更 优 。 
13.24 ”假设 你 想得到 rM s Æ r 的 一 个 属性 上 排序 的 结果 ， 并 且 只 想 要 前 天 个 结果 ， 这 里 的 天 比较 小 。 


请 给 出 执行 查询 的 较 好 方案 。 
a HÉ r EHKI s 的 外 码 属性 上 进行 连接 时 ， 外 码 属性 声明 为 非 空 。 
b. 当 不 是 在 外 码 上 进行 连接 时 。 621 


13.25 ”考虑 关系 r(4, B, C), EREA 上 有 索引 。 给 出 一 个 查询 的 例子 ， 其 结果 仅 用 索引 就 可 得 到 ， 
而 不 用 查看 关系 表 中 的 元 组 。( 仅 用 索引 而 不 必 访 问 实 际 关系 表 的 查询 计划 称 为 仅 用 索引 的 
计划 。) 

13. 26 ”假定 你 有 一 个 更 新 查询 U。 给 出 一 个 局 上 的 简单 充分 条 件 ， 使 得 不 论 选择 任何 执行 计划 或 者 是 
否 存在 索引 ， 万 圣 节 问 题 都 不 会 发 生 。 


文献 注解 


Selinger 等 [1979 ] 所 做 的 创造 性 工作 描述 了 System R 优化 器 的 存 取 路 径 选 择 ，System R 的 优化 器 是 最 早 
的 关系 查询 优化 器 之 一 。Starburst 的 查询 处 理 在 Haas 等 [1989 ] 中 描述 ， 这 是 IBM DB2 查询 优化 的 基础 。 

Graefe 和 Mckenna[ 1993a]##i8 S Volcano， 它 是 一 个 基于 等 价 规则 的 查询 优化 器 。Volcano 与 它 的 后 继 者 
Cascades( Graefe [1995 ] ) 形成 了 Microsoft SQL server 查询 优化 的 基础 。 

查询 结果 的 统计 信息 的 估计 ， 比 如 结果 集 大 小 ， 在 Ioannidis 和 Poosala[ 1995 ] Poosala 等 [1996 ] 和 
Ganguly 等 [1996 ] 以 及 其 他 文献 中 有 描述 。 值 的 非 平均 分 布 会 给 查询 大 小 和 代价 的 估计 带 来 问题 ， 用 值 分 布 
直方 图 进行 代价 估计 技术 可 以 解决 此 类 问题 。Ioannidis 和 Christodoulakis[ 1993 ] 、Ioannidis 和 Poosala[ 1995 ] , 
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以 及 Poosala 等 [ 1996 | 在 这 一 领域 给 出 了 成 果 。 随 机 抽样 广泛 应 用 于 在 统计 学 中 构建 直方 图 ， 但 是 数据 库 内 
容 中 直方 图 的 构建 问题 在 Chaudhuri 等 [1998 ] 中 讨论 。 
Klug[ 1982] 是 有 关 包 含 聚 集 函 数 的 关系 代数 表达 式 的 优化 的 早期 著作 。 包 含 聚集 操作 的 查询 优化 在 Yan 
和 Larson[ 1995] 以 及 Chaudhuri 和 Shim[ 1994 |] 文中 有 阅 述 。 包 含 外 连接 的 查询 优化 在 Rosenthal 和 Reiner 
[1984] 、Galindo-Legaria 和 Rosenthal[ 1992] 、Galindo-Legaria[ 1994 ] 中 有 描述 。top-K 查询 的 优化 在 Carey 与 
Kossmann[ 1998 ] 和 Bruno 等 [2002 ] 中 有 阐述 。 
嵌 套 子 查询 的 优化 在 Kim[ 1982] Ganski 和 Wong[ 1987] 、Dayal[ 1987 ] Seshadri 等 [1996 ] ， 以 及 较 新 
的 Galindo-Legaria 与 Joshi[ 2001 ] 中 进行 讨论 。 
Blakeley 等 [1986] 描 述 了 维护 物化 视图 的 技术 。 物 化 视图 执行 计划 的 优化 在 Vista[ 1998 ] 和 Mistry 等 
[2001] Pitié. Chaudhuri 等 [1995 ] 描述 了 有 物化 视图 参与 的 查询 优化 。 索 引 的 选择 和 物化 视图 的 选择 在 
Ross 等 [1996 ] 和 Chaudhuri 和 Narasayya[ 1997 ] 中 讨论 。 
top-K 查询 的 优化 在 Carey 与 Kossmann[ 1998 ] 和 Bruno 等 [2002 ] 中 有 阐述 。 一 些 用 于 极 小 化 连接 的 技术 
统称 为 表格 优化 。 表 格 的 概念 由 Aho 等 [ 1979b] 和 Aho 等 [1979a] 引 入 ，Sagiv 和 Yannakakis[ 1981 ] 作 了 进 一 
步 扩展 。 
参数 化 查询 优化 算法 由 Ioannidis 等 [ 1992 ] Ganguly [1998 ] 和 Hulgeri 与 Sudarshan [ 2003 ] 提出 。Selli 
[1988 ] 和 Roy 等 [2000 ] 描述 了 多 查询 优化 ，Roy 等 [2000 ] 提出 如 何 将 多 查询 优化 集成 到 一 个 基于 Volcano 的 
查询 优化 器 中 。 
622 Galindo-Legaria 等 [2004 ] 描述 了 数据 库 更 新 操作 的 查询 处 理 和 优化 ， 包 括 索 引 维护 的 优化 ， 物 化 视图 的 
624 | 维护 计划 和 约束 完整 性 检查 ， 以 及 解决 万 圣 节 问 题 的 技术 。 
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Part 4 


事务 管理 





术语 事务 指 的 是 构成 单一 逻辑 工作 单元 的 操作 的 集合 。 上 比如: 将 钱 从 一 个 账户 转 到 另 一 
个 账户 就 是 一 个 事务 ， 该 事务 包括 分 别针 对 每 个 账户 的 两 个 更 新 。 

事务 的 所 有 动作 要 么 全 部 执行 ， 要么 由 于 出 错 而 撤销 事务 的 部 分 影响 ， 这 一 点 非常 重要 ， 
这 个 特性 叫做 原子 性 。 而 且 ， 一 旦 事务 成 功 执 行 ， 其 影响 必须 保存 在 数据 库 中 一 一 一 个 系统 
故障 不 应 该 导致 数据 库 忽 略 成 功 完成 的 事务 ， 这 个 特性 叫做 持久 性 。 

在 一 个 有 多 个 事务 并 发 执行 的 数据 库 系统 中 ， 如 果 对 共享 数据 的 更 新 不 加 以 控制 ， 事务 
就 可 能 看 到 由 别 的 事务 的 更 新 引起 的 中 间 状 态 的 不 一 致 ， 这 种 情况 会 导致 对 数据 库 中 存储 的 
数据 的 错误 更 新 。 所 以 ， 数 据 库 系 统 必 须 提 供 隔 离 机 制 以 保证 事务 不 受 其 他 并 发 执行 的 事务 
影响 ， 这 个 特性 叫做 隔离 性 。 

第 14 章 详细 阐述 事务 的 概念 ， 包 括 事务 的 原子 性 、 持 久 性 、 隔 离 性 和 由 事务 抽象 提供 的 
其 他 特性 。 特 别 地 ， 本 章 通 过 可 串 行 化 的 概念 来 准确 描述 隔离 性 的 定义 。 

第 15 章 阐述 几 种 实现 隔离 性 的 并 发 控制 技术 。 第 16 章 益 述 数据 库 恢复 管理 部 件 ， 它 实现 
了 数据 库 的 原子 性 与 持久 性 。 

总 体 来 说 ， 数 据 库 系统 的 事务 管理 部 件 使 得 应 用 程序 开发 人 员 能 够 把 注意 力 集中 在 单个 
事务 上 ， 而 不 必 考 虑 并 发 和 容错 等 问题 。 
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通常 ， 从 数据 库 用 户 的 观点 来 看 ， 数 据 库 中 一 些 操作 的 集合 被 认为 是 一 个 独立 单元 。 比 如 ， 从 
顾客 的 立场 来 看 ， 从 支票 账户 到 储蓄 账户 的 资金 转账 是 一 次 单一 的 操作 ; 而 在 数据 库 系 统 中 ， 这 是 
由 几 个 操作 组 成 的 。 显 然 ， 有 一 点 是 最 基本 的 ， 这 些 操作 要 么 全 都 发 生 ， 要 么 由 于 出 错 而 全 不 发 生 。 
资金 从 支票 账户 支出 而 未 转 入 储蓄 账户 的 情况 是 不 可 接受 的 。 

构成 单一 逻辑 工作 单元 的 操作 集合 称 作 事务 ( transaction)。 即 使 有 故障 ， 数 据 库 系 统 也 必须 保证 
事务 的 正确 执行 一 一 要 么 执行 整个 事务 ,， 要么 属于 该 事务 的 操作 一 个 也 不 执行 。 此 外 ， 数 据 库 系统 
必须 以 一 种 能 避免 引入 不 一 致 性 的 方式 来 管理 事务 的 并 发 执行 。 在 资金 转账 的 例子 中 ， 一 个 计算 顾 
客 总 金额 的 事务 可 能 在 资金 转账 事务 从 支票 账户 支出 金额 之 前 查看 支票 账户 余额 ， 而 在 资金 存 人 储 
鞋 账户 之 后 查看 储蓄 账户 余额 。 结 果 ， 它 就 会 得 到 不 正确 的 结果 。 

本 章 介绍 事务 处 理 的 基本 概念 。 并 发 事务 处 理 和 故障 恢复 的 细节 问题 分 别 在 第 15 章 和 第 16 章 
讨论 。 事 务 处 理 的 更 进一步 话题 在 第 26 章 讨论 。 


14.1 事务 概念 


事务 是 访问 并 可 能 更 新 各 种 数据 项 的 一 个 程序 执行 单元 (unit) 。 事 务 通常 由 高 级 数据 操纵 语言 
(代表 性 的 是 SQL) 或 编程 语言 (例如 ，C ++ 或 Java) 通 过 JDBC 或 ODBC MARAE B SA 
户 程序 的 执行 所 引起 。 事 务 用 形 如 begin transaction 和 end transaction 语句 (或 函数 调用 ) 来 界定 。 
事务 由 begin transaction 与 (end transaction 之 间 执 行 的 全 体操 作 组 成 。 

这 些 步骤 集合 必须 作为 一 个 单一 的 、 不 可 分 割 的 单元 出 现 。 因 为 事务 是 不 可 分 割 的 ， 所 以 要 么 
执行 其 全 部 内 容 ， 要 么 就 根本 不 执行 。 因 此 ， 如 果 一 个 事务 开始 执行 ， 但 是 由 于 某 些 原因 失败 ， 则 

事务 对 数据 库 造 成 的 任何 可 能 的 修改 都 要 撤销 。 无 论 事务 本 身 是 否 失败 (例如 ， 如 果 它 除 以 零 ) ， 或 
者 操作 系统 月 省 ， 或 者 计算 机 本 身 停止 运行 ， 这 项 要 求 都 要 成 立 。 正 如 我 们 将 会 看 到 的 ， 确 保 这 个 
要 求 是 困难 的 ， 因 为 对 数据 库 的 一 些 修 改 可 能 仅仅 存在 事务 的 主 存 变量 中 ， 而 另 一 些 已 经 写 人 数据 
库 并 存储 到 磁盘 上 。 这 种 "全 或 无 "的 特性 称 为 原子 性 (atomicity ) 。 

此 外 ， 由 于 事务 是 一 个 单一 的 单元 ， 它 的 操作 不 能 看 起 来 是 被 其 他 不 属于 该 事务 的 数据 库 操作 
分 隔 开 的 。 尽 管 我 们 希望 表现 在 事务 的 用 户 级 上 ， 但 是 我 们 知道 事实 是 有 相当 大 的 区 别 的 。 即 使 单 
条 SQL 语句 也 会 涉及 许多 分 开 的 数据 库 访 问 ， 并 且 一 个 事务 可 能 会 由 多 条 SQL 语句 构成 。 因 此 ， 数 
据 库 系 统 必须 采取 特殊 处 理 来 确保 事务 正常 执行 而 不 被 来 自 并 发 执行 的 数据 库 语 句 所 干扰 。 这 种 特 
性 称 为 隔离 性 (isolation ) 。 

即使 系统 能 保证 一 个 事务 的 正确 执行 ， 如 果 此 后 系统 崩 演 ， 结 果 系 统 “ 忘 记 ” 了 该 事务 ， 那 么 这 
项 工作 的 意义 也 不 大 了 。 因 此 ， 即 使 月 演 后 事务 的 操作 也 必须 是 持久 的 。 这 种 特性 称 为 持久 性 
(durability ) 。 

因为 上 述 三 个 特性 ， 事 务 就 成 了 构造 与 数据 库 的 交互 的 一 种 理想 方式 。 这 使 我 们 必须 加 强 对 事 
务 本 身 的 要 求 。 事务 必须 保持 数据 库 的 一 致 性 一 一 如 果 一 个 事务 作为 原子 从 一 个 一 致 的 数据 库 状 态 
开始 独立 地 运行 ， 则 事务 结束 时 数据 库 也 必须 再 次 是 一 致 的 。 这 种 一 致 性 要 求 超出 我 们 此 前 看 到 的 
数据 完整 性 约束 (例如 主 码 约 束 、 参 照 完整 性 check 约束 等 )。 相 反 ， 事务 会 被 期 望 得 更 多 ， 以 保 
证 太 过 复杂 而 不 能 用 SQL 构建 数据 完整 性 并 且 依 赖 于 程序 的 一 致 性 约束 。 如 何 实现 这 个 则 是 编写 事 
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务 的 程序 员 的 职责 。 这 种 特性 称 为 一 致 性 ( consistency ) 。 
将 上 述 内 容 更 简明 地 重新 描述 ， 我 们 要 求 数据 库 系 统 维护 事务 的 以 下 性 质 。 
。 原子 性 : 事务 的 所 有 操作 在 数据 库 中 要 么 全 部 正确 反映 出 来 ， 要 么 完全 不 反映 。 
。 一 致 性 : 隔离 执行 事务 时 (换言之 ,在 没有 其 他 事务 并 发 执行 的 情况 下 ) 保持 数据 库 的 一 
致 性 。 
。 隔离 性 : 尽管 多 个 事务 可 能 并 发 执行 ， 但 系统 保证 ， 对 于 任何 一 对 事务 7 AT, TE TAK, 
T, REE T 开始 之 前 已 经 完成 执行 ， REE T 完成 之 后 开始 执行 。 因 此 ， 每 个 事务 都 感觉 
不 到 系统 中 有 其 他 事务 在 并 发 地 执行 。 
。 持久 性 : 一 个 事务 成 功 完 成 后 ， 它 对 数据 库 的 改变 必须 是 永久 的 ， 即 使 出 现 系统 故障 。 
这 些 性 质 通常 称 为 ACID 特性 (ACID property) ， 这 一 缩写 来 自 4 条 性 质 的 第 一 个 英文 字母 。 
正如 我 们 此 后 看 到 的 ， 确 保 隔 离 性 有 可 能 对 系统 性 能 造成 较 大 的 不 利 影响 。 由 于 这 个 原因 ， 一 
些 应 用 在 隔离 性 上 会 采取 一 些 妥 协 。 我 们 将 在 学 习 严 格 执行 ACID 特性 后 学 习 这 些 妥协 。 


14.2 一 个 简单 的 事务 模型 


因为 SQL 是 一 种 强大 而 复杂 的 语言 ， 所 以 我 们 采用 一 种 简单 的 数据 库 语言 来 开始 学 习 事务 ， 该 
语言 关注 数据 何 时 从 磁盘 移动 到 主 存 以 及 何 时 从 主 存 移动 到 磁盘 。 这 样 ， 我们 忽略 了 SQL 插入 和 删 
除 操作 ， 推 迟到 15. 8 节 再 去 考虑 它们 。 在 简单 语言 中 ， 对 数据 的 实际 操作 仅 限 于 算术 操作 。 后 面 ， 
我 们 会 在 一 个 有 更 丰富 的 操作 集合 并 且 基 于 SQL 的 真实 环境 中 讨论 事务 。 在 简单 模型 中 数据 项 只 包 
含 一 个 单一 的 数据 值 (在 例子 中 是 一 个 数字 ) 。 每 个 数据 项 由 一 个 名 字 所 标识 (在 例子 中 通常 是 一 个 
字符 ,例如 A、B、C 等 ) 。 

我 们 将 采用 一 个 由 几 个 账户 和 一 个 访问 和 更 新 账户 的 事务 集合 构成 的 简单 的 银行 应 用 来 阐明 事 
务 的 概念 。 事 务 运用 以 下 两 个 操作 访问 数据 。 

e read(X): 从 数据 库 把 数据 项 传送 到 执行 read 操作 的 事务 的 主 存 缓冲 区 的 一 个 也 称 为 的 

变量 中 。 

© write(X): 从 执行 write 的 事务 的 主 存 缓冲 区 的 变量 工 中 把 数据 项 碟 传 回 数据 库 中 。 

-重要 的 是 要 知道 一 个 数据 项 的 变化 是 只 出 现在 主 存 中 ， 还 是 已 经 写 人 磁盘 上 的 数据 库 。 在 实际 
数据 库 系统 中 ，write 操作 不 一 定 立 即 更 新 磁盘 上 的 数据 ; write 操作 的 结果 可 以 临时 存储 在 某 处 ， 
以 后 再 写 到 磁盘 上 。 但 是 目前 我 们 假设 write 操作 立即 更 新 数据 库 。 我 们 将 在 第 16 章 回 到 这 个 话题 。 

BT, 是 从 账户 4 过户 $50 到 账户 B 的 事务 。 这 个 事务 可 以 定义 为 : 

T,; read(A) ; 
A:= A-50; 
write(A) ; 
read(B); 
B:= B+50; 
write( B). 

现在 让 我 们 逐个 考虑 ACID 特性 (为 了 便于 讲解 ， 我 们 不 按 A-C-I-D 的 次 序 来 讲述 它们 ) 。 

。 一 致 性 : 在 这 里 ,一 致 性 要 求 事务 的 执行 不 改变 4、B 之 和 。 如 果 没 有 一 致 性 要 求 ， 金 额 可 
能 会 被 事务 凭空 创造 或 销毁 ! 容易 验证 ， 如 果 数 据 库 在 事务 执行 前 是 一 致 的 ， 那 么 事务 执行 
后 数据 库 仍 将 保持 一 致 。 

确保 单个 事务 的 一 致 性 是 编写 该 事务 的 应 用 程序 员 的 责任 。 完 整 性 约束 的 自动 检查 给 这 
项 工作 带 来 了 便利 ， 正 如 我 们 已 经 在 4. 4 节 讨 论 的 。 

。 原子 性 : 假设 事务 T, 执行 前 账户 4 和 账户 B 分 别 有 $1000 和 $2000。 现 在 假设 在 事务 T, 执行 
时 系统 出 现 故 障 ， 导 致 7 的 执行 没有 成 功 完成 。 我 们 进一步 假设 故障 发 生 在 write( 4) 操 作 执 
行 之 后 write(B) 操 作 执 行 之 前 。 在 这 种 情况 下 ， 数 据 库 中 反映 出 来 的 是 账户 4 有 $950， 而 
账户 B 有 $2000。 这 次 故障 导致 系统 丢失 了 $50。 特 别 地 ， 我 们 注意 到 4 +B 的 和 不 再 维持 
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这 样 ， 由 于 故障 ， 系 统 的 状态 不 再 反映 数据 库 本 应 描述 的 现实 世界 的 真实 状态 。 我 们 把 
这 种 状态 称 为 不 一 致 状态 (inconsistent state) 。 我 们 必须 保证 这 种 不 一 致 性 在 数据 库 系统 中 是 
不 可 见 的 。 但 是 请 注意 ， 系 统 必 然 会 在 某 一 时 刻 处 于 不 一 致 状态 。 即 使 事务 T, 能 执行 完 ， 也 
仍然 存在 某 一 时 刻 账户 4 的 金额 是 $950 而 账户 B 的 金额 是 82000， 这 显然 是 一 个 不 一 致 状 
态 。 然 而 这 一 状态 最 终 会 被 账户 4 的 金额 是 $950 上 且 账户 B 的 金额 是 $2050 这 个 一 致 的 状态 
人 代替。 这样， 如 果 一 个 事务 或 者 不 开始 ， 或 者 保证 完成 ,那么 这 样 的 不 一 致 状态 除了 在 事务 
执行 当中 以 外 ， 在 其 他 时 刻 是 不 可 见 的 。 这 就 是 需要 原子 性 的 原因 : 如 果 具 有 原子 性 ， 某 个 
事务 的 所 有 动作 要 么 在 数据 库 中 全 部 反映 出 来 ， 要 么 全 部 不 反映 。 

保证 原子 性 的 基本 思路 如 下 : 对 于 事务 要 执行 写 操作 的 数据 项 ， 数 据 库 系统 在 磁盘 上 记 
录 其 旧 值 。 这 个 信息 记录 在 一 个 称 为 日 志 的 文件 中 。 如 果 事 务 没 能 完成 它 的 执行 ， 数 据 库 系 
统 从 日 志 中 恢复 旧 值 ， 使 得 看 上 去 事务 从 未 执行 过 。14. 4 节 将 进一步 讨论 这 些 想 法 。 保 证 原 
子 性 是 数据 库 系统 本 身 的 责任 ; 具体 来 说 ， 这 项 工作 由 称 作 恢复 系统 ( recovery system) 的 一 个 
数据 库 组 件 处 理 ， 这 个 将 在 第 16 章 详细 讲述 。 
持久 性 : 一 旦 事务 成 功 地 完成 执行 ， 并 且 发 起 事务 的 用 户 已 经 被 告知 资金 转账 已 经 发 生 ， 系 
统 就 必须 保证 任何 系统 故障 都 不 会 引起 与 这 次 转账 相关 的 数据 丢失 。 持 久 性 保证 一 旦 事务 成 
功 完 成 ， 该 事务 对 数据 库 所 做 的 所 有 更 新 就 都 是 持久 的 ， 即 使 事务 执行 完成 后 出 现 系统 
故障 。 

现在 我 们 假设 计算 机 系统 的 故障 将 会 导致 内 存 中 的 数据 丢失 ,但 已 写 人 磁盘 的 数据 决 不 
会 丢失 。 第 16 章 将 会 讨论 预防 磁盘 上 的 数据 丢失 。 我 们 可 以 通过 确保 以 下 两 条 中 的 任何 一 
条 来 达到 持久 性 : 

1. 事务 做 的 更 新 在 事务 结束 前 已 经 写 和 人 磁盘。 

2. 有 关 事 务 已 执行 的 更 新 信息 已 写 到 磁盘 上 ， 并 且 此 类 信息 必须 充分 ， 能 让 数据 库 在 系 
统 出 现 故 障 后 重新 启动 时 重新 构造 更 新 。 

第 16 章 将 介绍 的 数据 库 恢复 系统 负责 除了 保证 原子 性 之 外 还 保证 持久 性 。 
隔离 性 : 如 果 几 个 事务 并 发 地 执行 ， 即 使 每 个 事务 都 能 确保 一 致 性 和 原子 性 ， 它 们 的 操作 会 
以 人 们 所 不 希望 的 某 种 方式 交叉 执行 ， 这 也 会 导致 不 一 致 的 状态 。 

正如 我 们 先前 看 到 的 ， 例 如， 在 4 至 B 转账 事 务 执行 过 程 中 ， 当 4 中 总 金额 已 减 去 转账 
额 并 已 写 回 4， 而 B 中 总 金额 加 上 转账 额 后 还 未 写 回 B 时 ,数据库 暂时 是 不 一 致 的 。 如 果 另 
一 个 并 发 运行 的 事务 在 这 个 中 间 时 刻 读 取 A 和 B 的 值 并 计算 4+B， 它 将 会 得 到 不 一 致 的 值 。 
更 进一步 ， 如 果 第 二 个 事务 基于 它 读 取 的 不 一 致 值 对 4 和 B 进行 更 新 ， 即 使 两 个 事务 都 完 
后 ,数据 库 仍 可 能 处 于 不 一 致 状态 。 

一 种 避免 事务 并 发 执行 而 产生 问题 的 途径 是 串 行 地 执行 事务 一 一 一 个 接 一 个 地 执行 。 然 
而 ， 我 们 将 会 在 14. 5 节 看 到 ， 事 务 并 发 执行 能 显著 地 改善 性 能 。 因 此 人 们 提出 了 许多 其 他 的 
解决 方法 ， 它 们 允许 多 个 事务 并 发 地 执行 。 

14.5 节 讨 论 事务 并 发 地 执行 所 引起 的 问题 。 事 务 的 隔离 性 确保 事务 并 发 执行 后 的 系统 状 
态 与 这 些 事务 以 某 种 次 序 一 个 接 一 个 地 执行 后 的 状态 是 等 价 的 。14. 6 节 将 进一步 讨论 隔离 的 
原则 。 确 保 隔 离 性 是 数据 库 系 统 中 称 作 并 发 控制 系统 ( concurrency-control system ) 的 部 件 的 责 
任 ， 这 个 稍 后 将 在 第 15 章 讨论 。 


14.3 存储 结构 


为 了 理解 如 何 确保 事务 的 原子 性 和 持久 性 ， 我 们 需要 更 好 地 理解 数据 库 中 各 种 数据 项 如 何 存储 
和 访问 。 

在 第 10 章 中 我 们 看 到 存储 介质 可 以 通过 它们 的 相对 速度 、 容 量 、 故 障 弹 性 区 分 为 易 失 性 存储 器 
或 非 易 失 性 存储 器 。 我 们 回顾 这 些 概 念 ， 并 介绍 另 一 种 新 的 存储 器 ， 即 稳定 性 存储 器 。 
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© BREF FAR (volatile storage): 易 失 性 存储 器 中 的 信息 通常 在 系统 骨 溃 后 不 会 幸存 。 这 种 存 
储 融 的 例子 包括 主 存储 器 和 高 速 缓冲 存储 器 。 易 失 性 存储 器 的 访问 非常 快 ， 一 方面 是 因为 内 
存 访 问 本 身 的 速度 ， 另 一 方面 是 因为 可 以 直接 访问 易 失 性 存储 器 中 的 任何 数据 项 。 
非 易 失 性 存储 器 ( nonvolatile storage): 非 易 失 性 存储 器 中 的 信息 会 在 系统 崩溃 后 幸存 。 非 易 失 
性 存储 器 的 例子 包括 用 于 在 线 存 储 的 二 级 存储 设备 ( 如 磁盘 和 闪存 ) ， 以 及 用 于 存档 存储 的 三 
级 存储 设备 (如 光 介 质 和 磁带 ) 。 根 据 目前 的 技术 ， 非 易 失 性 存储 器 比 易 失 性 存储 器 慢 ， 特 别 
是 对 于 随机 访问 。 然 而 ， 二 级 存储 设备 和 三 级 存储 设备 容易 受到 故障 的 影响 ， 导 致 信息 
。 稳定 性 存储 器 ( stable storage): 稳定 性 存储 器 中 的 信息 永远 不 会 丢失 。( 应 该 对 永远 持 有 怀疑 态 
度 ， 因 为 理论 上 永远 不 能 保证 。 例 如 ， 尽 管 可 能 性 很 小 ， 也 有 可 能 出 现 黑洞 吞 叭 地 球 从 而 永久 
地 销毁 所 有 数据 !) 尽管 稳定 性 存储 器 在 理论 上 不 可 能 获得 ， 但 是 可 以 通过 技术 近似 使 得 数据 
丢失 的 可 能 性 微乎其微 。 为 了 实现 稳定 性 存储 器 ， 我 们 可 以 复制 几 种 非 易 失 性 存储 器 介质 ( 通 
常 是 磁盘 ) 中 的 信息 ， 并 且 采 用 独立 故障 模式 。 更 新 必须 很 小 心 以 保证 更 新 过 程 中 稳定 性 存储 
器 的 故障 不 会 导致 信息 丢失 。16. 2. 1 节 将 讨论 稳定 性 存储 器 的 实现 。 

这 几 种 不 同 存储 器 类 型 之 间 的 区 别 在 实际 中 没有 我 们 介绍 得 这 么 明显 。 例 如 ， 某 些 系统 提供 备用 
电池 使 得 一 些 主 存 可 以 在 系统 崩溃 或 电源 故障 中 幸存 下 来 ， 例 如 某 些 RAID 控制 器 。 

为 了 一 个 事务 能 够 持久 ， 它 的 修改 应 该 写 入 稳定 性 存储 器 。 同 样 ， 为 了 一 个 事务 是 原子 的 ,日 志 
记录 需要 在 对 磁盘 上 的 数据 库 做 任何 改变 之 前 写 人 稳定 性 存储 器 。 显 然 ， 一 个 系统 保证 的 持久 性 和 原 
子 性 的 程度 取决 于 稳定 性 存储 器 的 实现 到 底 有 多 稳定 。 在 某 些 情况 下 ,磁盘 的 一 个 单一 拷贝 是 足够 的 ， 
但 是 对 于 其 数据 非常 有 价值 和 事务 非常 重要 的 应 用 程序 需要 多 个 拷贝 ,或 者 换 名 话说， 更 接近 于 理想 
化 的 稳定 性 存储 器 。 


14.4 事务 原子 性 和 持久 性 


正如 我 们 先前 所 注意 到 的 ， 事 务 并 非 总 能 成 功 地 执行 完成 。 这 种 事务 称 为 中 止 (aborted) T, R 
们 如 果 要 确保 原子 性 ， 中 止 事 务必 须 对 数据 库 的 状态 不 造成 影响 。 因 此 ， 中 止 事务 对 数据 库 所 做 过 
的 任何 改变 必须 撤销 。 一 旦 中 止 事 务 造成 的 变更 被 撤销 ， 我 们 就 说 事务 已 回 滚 (rolled back), WEHL 
制 负责 管理 事务 中 止 。 典 型 的 方法 是 维护 一 个 日 志 (log) 。 每 个 事务 对 数据 库 的 修改 都 首先 会 记录 到 
日 志 中 。 我 们 记录 执行 修改 的 事务 标识 符 、 修 改 的 数据 项 标识 符 以 及 数据 项 的 旧 值 (修改 前 的 ) 和 新 
值 ( 修 改 后 的 ) 。 然 后 数据 库 才 会 修改 。 维 护 日 志 提供 了 重 做 修改 以 保证 原子 性 和 持久 性 的 可 能 ， 以 
及 撤销 修改 以 保证 在 事务 执行 发 生 故 障 时 的 原子 性 的 可 能 。 第 16 章 将 会 详细 讨论 基于 日 志 的 故障 
恢复 。 

成 功 完成 执行 的 事务 称 为 已 提交 (committed) 。 一 个 对 数据 库 进行 过 更 新 的 已 提交 事务 使 数据 库 进 
人 一 个 新 的 一 致 状态 ， 即 使 出 现 系统 故障 ， 这 个 状态 也 必须 保持 。 

一 旦 事务 已 提交 ， 我 们 不 能 通过 中 止 它 来 撤销 其 造成 的 影响 。 撤 销 已 提交 事务 所 造成 影响 的 唯一 
方法 是 执行 一 个 补偿 事务 (compensating transaction)。 例 如 ， 如 果 一 个 事务 给 一 个 账户 加 上 了 $20, 其 
补偿 事务 应 当 从 该 账户 减 去 $20。 然 而 ， 我 们 不 总 是 能 够 创建 这 样 的 补偿 事务 。 因 此 ， 书 写 和 执行 一 
个 补偿 事务 的 责任 就 留 给 了 用 户 ， 而 不 是 通过 数据 库 系统 来 处 理 。 第 26 章 包含 对 补偿 事务 的 讨论 。 

我 们 需要 更 准确 地 定义 一 个 事务 成 功 完成 的 含义 。 为 此 我 们 建立 了 一 个 简单 的 抽象 事务 模型 。 事 
务必 须 处 于 以 下 状态 之 一 。 

© 活动 的 (active) : 初始 状态 ， 事务 执行 时 处 于 这 个 状态 。 

© 部 分 提交 的 (partially committed): 最 后 一 条 语句 执行 后 。 

。 失败 的 (failed) : 发 现 正常 的 执行 不 能 继续 后 。 

© 中 止 的 (aborted) : 事务 回 滚 并 且 数 据 库 已 恢复 到 事务 开始 执行 前 的 状态 后 。 

© 提交 的 (committed) : 成 功 完成 后 。 





事务 相应 的 状态 图 如 图 14-1 所 示 。 只 有 在 事务 已 进入 提交 状态 后 ， 我 们 才 说 事务 已 提交 。 类 似 [633 
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地 ， 仅 当 事 务 已 进入 中 止 状态 ， 我 们 才 说 事务 已 中 止 。 如 果 事 务 是 提交 的 或 中 止 的 ， 它 称 为 已 经 结束 
的 (terminated ) 。 

事务 从 活动 状态 开始 。 当 事务 完成 它 的 最 后 一 
条 语句 后 就 进入 了 部 分 提交 状态 。 此 刻 ， 事 务 已 经 
完成 执行 ， 但 由 于 实际 输出 可 能 仍 临 时 驻 留 在 主 存 
中 ， 因 此 一 个 硬件 故障 可 能 阻止 其 成 功 完成 ， 于 是 
事务 仍 有 可 能 不 得 不 中 止 。 

接着 数据 库 系统 往 磁 盘 上 写 和 人 足够 的 信息 ， 确 
保 即使 出 现 故 障 时 事务 所 做 的 更 新 也 能 在 系统 重启 
后 重新 创建 。 当 最 后 一 条 这 样 的 信息 写 完 后 ,事务 
就 进入 提交 状态 。 

正如 先前 所 提 到 的 ， 我们 现在 假设 故障 不 会 引 
起 磁盘 上 的 数据 丢失 。 磁 盘 上 数据 丢失 的 处 理 技术 
将 在 第 16 章 讨 论 。 

系统 判定 事务 不 能 继续 正常 执行 后 (例如 ， 由 于 硬件 或 逻辑 错误 ) ， 事 务 就 进入 失败 状态 。 这 种 事 
务必 须 回 滚 。 这 样 ， 事 务 就 进入 中 止 状态 。 此 刻 ， 系 统 有 两 种 选择 。 

。 它 可 以 重启 (restart) 事 务 ， 但 仅 当 引起 事务 中 止 的 是 硬件 错误 或 不 是 由 事务 的 内 部 逻辑 所 产生 

的 软件 错误 时 。 重 启 的 事务 被 看 成 是 一 个 新 事务 。 
© 它 可 以 杀 死 (k 记 l) 事 务 ， 这 样 做 通常 是 由 于 事务 的 内 部 逻辑 造成 的 错误 ， 只 有 重 写 应 用 程序 才 
能 改正 ,或 者 由 于 输入 错误 ,或 所 需 数据 在 数据 库 中 没有 找到 。 

在 处 理 可 见 的 外 部 写 (observable external write) ， 比 如 写 到 用 户 屏幕 ， 或 者 发 送 电子 邮件 时 ， 我 们 
必须 要 小 心 。 由 于 写 的 结果 可 能 已 经 在 数据 库 系 统 之 外 看 到 ， 因 此 一 旦 发 生 这 种 写 操作 ， 就 不 能 再 抹 
去 。 大 多 数 系统 只 允许 这 种 写 操作 在 事务 进入 提交 状态 后 发 生 。 实 现 这 种 模式 的 一 种 方法 是 在 非 易 失 
性 存储 设备 中 临时 写 下 与 外 部 写 相 关 的 所 有 数据 ， 然 后 在 事务 进入 提交 状态 后 再 执行 真正 的 写 操作 。 
如 果 在 事务 已 进入 提交 状态 而 外 部 写 操作 尚未 完成 之 时 ， 系 统 出 现 了 故障 ， 数 据 库 系统 就 可 以 在 重启 
后 (用 存储 在 非 易 失 性 设备 中 的 数据 ) 执行 外 部 写 操作 。 

在 某 些 情况 下 处 理 外 部 写 操作 会 更 复杂 ， 人 例如， 我们 假设 外 部 动作 是 在 自动 取款 机 上 支付 现金 ， 
并 且 系 统 恰好 在 支付 现金 之 前 发 生 故 障 ( 我 们 假定 现金 能 自动 支付 ) ， 当 系统 重新 启动 时 再 执行 现金 支 
付 将 毫 无 意义 ， 因 为 用 户 可 能 已 经 离开 。 在 这 种 情况 下 ， 重 新 启动 时 系统 应 该 执行 一 个 补偿 事务 ， 比 
如 将 现金 存 回 用 户 的 账户 。 

作为 另 一 个 例子 ， 考 虑 一 个 用 户 在 Web 上 进行 预订 。 很 可 能 在 预订 事务 刚刚 提交 后 数据 库 系统 或 
应 用 服务 器 发 生 崩 演 ， 也 有 可 能 在 预订 事务 刚刚 提交 后 用 户 的 网 络 连接 丢失 。 在 上 述 任意 一 种 情况 下 ， 
即使 事务 已 经 提交 ， 外 部 写 也 并 没有 发 生 。 为 了 处 理 这 种 情况 ， 应 用 程序 必须 设计 成 当 用 户 再 次 连接 
到 Web 应 用 程序 时 ， 她 可 以 看 到 她 的 事务 是 否 成 功 。 

对 于 某 些 特定 应 用 ， 人 允许 处 于 活动 状态 的 事务 加 用 户 显示 数据 也 许 是 我 们 所 期 望 的 ， 特 别 对 将 运 
行 几 分 钟 或 几 小 时 的 长 周期 事务 来 说 。 遗 憾 的 是 ， 除 非 牺牲 事务 原子 性 ， 否 则 我 们 不 能 允许 这 种 可 见 
的 数据 输出 。 第 26 章 会 讨论 另外 的 事务 模型 ， 它 们 支持 交互 式 长 周期 事务 。 


14.5 事务 隔离 性 


事务 处 理 系统 通常 允许 多 个 事务 并 发 地 执行 。 正 如 我 们 先前 看 到 的 ， 人 允许 多 个 事务 并 发 更 新 数据 
引起 许多 数据 一 致 性 的 复杂 问题 。 在 存在 事务 并 发 执行 的 情况 下 保证 一 致 性 需 进行 额外 工作 ; 如 果 我 
们 强制 事务 串 行 地 (serially ) 执行 将 简单 得 多 一 一 一 次 执行 一 个 事务 ， 每 个 事务 仅 当前 一 事务 执行 完 后 
才 开 始 。 然 而 ， 有 两 条 很 好 的 理由 允许 并 发 。 
。 提高 吞吐 量 和 资源 利用 率 。 一 个 事务 由 多 个 步骤 组 成 。 一 些 涉 及 IO 活动 ; 还 有 一 些 涉及 CPU 
活动 。 在 计算 机 系统 中 CPU 与 磁盘 可 以 并 行 运作 。 因 此 ，LO 活动 可 以 与 CPU 处 理 并 行进 行 。 





图 14-1 事务 状态 图 


第 14 章 事 3 


利用 CPU 5 1/0 系统 的 并 行 性 ， 多 个 事务 可 并 行 执 行 。 当 一 个 事务 在 一 张 磁盘 上 进行 读 写 时 ， 
另 一 个 事务 可 在 CPU 上 运行 ， 第 三 个 事务 又 可 在 另 一 张 磁盘 上 进行 读 写 。 所 有 这 些 技术 增加 了 
系统 的 吞吐 量 (throughput) 即 给 定时 间 内 执行 的 事务 数 增加 。 相 应 地 ， 处 理 器 与 磁盘 利用 
率 (utilization ) 也 提高 ; 换 名 话说， 处理 器 与 磁盘 空闲 或 者 没有 做 有 用 的 工作 的 时 间 较 少 。 
。 减少 等 待 时 间 。 系 统 中 可 能 运行 着 各 种 各 样 的 事务 ， 一 些 较 短 ， 一 些 较 长 。 如 果 事 务 串 行 地 执 
行 ， 短 事务 可 能 得 等 待 它 前 面 的 长 事务 完成 ， 这 可 能 导致 难以 预测 的 延迟 。 如 果 各 事务 针对 数 
据 库 的 不 同 部 分 进行 操作 ， 让 它们 并 发 地 执行 会 更 好 ， 它 们 之 间 可 以 共享 CPU 周期 与 磁盘 存 
取 。 并 发 执行 可 以 减少 执行 事务 时 不 可 预测 的 延迟 。 此 外 ， 也 可 减少 平均 响应 时 间 ( average 
response time): 即 一 个 事务 从 提交 到 完成 所 需 的 平均 时 间 。 
在 数据 库 中 使 用 并 发 执行 的 动机 在 本 质 上 与 操作 系统 中 使 用 多 道 程序 ( multiprogramming ) 的 动机 是 
一 样 的 。 
当 多 个 事务 并 发 地 执行 时 ， 可 能 违背 隔离 性 ， 这 导致 即使 每 个 事务 都 正确 执行 ， 数 据 库 的 一 致 性 
也 可 能 被 破坏 。 这 一 节 将 讲述 调度 的 概念 ， 以 帮助 读者 识别 哪些 是 可 以 保证 一 致 性 的 执行 序列 。 
数据 库 系统 必须 控制 事务 之 间 的 交互 ， 以 防止 它们 破坏 数据 库 的 一 致 性 。 系 统 通过 称 为 并 发 控制 
机 制 (concurrency-control scheme) 的 一 系列 机 制 来 保证 这 一 点 。 第 15 章 将 研究 并 发 控制 机 制 ， 现 在 我 们 
集中 考虑 正确 的 并 发 执行 这 一 概念 。 
我 们 再 来 看 看 14. 1 节 中 的 简化 银行 系统 ， 其 中 有 多 个 账户 以 及 存 取 、 更 新 这 些 账户 的 一 组 事务 。 
设 7,、 了 是 将 资金 从 一 个 账户 转移 到 另 一 个 账户 的 两 个 事务 ,， 事务 7, 是 从 账户 4 过 户 $50 到 账户 B 
的 事务 ， 它 定义 为 : 





T,; read(A); 
A; =A-S0; 
write( A) ; 
read( B); 
B:= B+50; 
write( B). 


事务 T, 是 从 账户 4 将 存款 余额 的 10% 过 户 到 账户 B 的 事务 ， 它 定义 为 : 


T,: read(A); 
temp:= A*0.1; 
A;= A -temp; 
write( A); 
read( B); 

B:= B + temp; 
write( B). 


并 发 性 趋势 

当前 计算 领域 的 一 些 发 展 趋势 带 来 大 量 可 能 的 并 发 性 。 数 据 库 系统 利用 并 发 性 提高 系统 的 整体 
性 能 ， 使 得 并 发 运行 的 事务 数量 可 能 越 来 越 多 。 

早期 的 计算 机 只 有 一 个 处 理 器 。 因 此 ， 计算 机 中 没有 真正 意义 的 并 发 性 。 唯 一 表现 出 的 并 发 性 
是 操作 系统 使 几 个 不 同 的 任务 或 进程 共享 处 理 器 。 现 代 计 算 机 可 能 有 很 多 个 处 理 器 ， 这 将 使 得 一 个 
计算 机 中 有 真正 不 同 的 进程 。 然 而 ， 即 使 是 一 个 处 理 器 ， 如 果 它 有 多 核 ， 也 能 够 同时 运行 多 个 进程 。 
英特尔 酷 害 双核 处 理 器 就 是 一 个 众所周知 的 多 核 处 理 器 例子 。 

数据 库 系 统 有 两 种 方法 利用 多 处 理 器 和 多 核 的 优势 。 一 种 是 发 现 单个 事务 或 查询 内 的 并 行 性 ， 
另 一 种 是 支持 大 量 并 发 的 事务 。 

许多 服务 提供 商 现 在 采用 一 批 计算 机 而 不 是 大 型 主机 来 提供 服务 。 他 们 做 出 这 样 的 选择 是 基于 
这 种 方案 的 低 成 本 。 这 样 的 结果 是 带 来 了 更 大 限度 的 并 发 性 支持 。 

文献 注解 介绍 了 计算 机 架构 和 并 行 计算 的 进展 。 第 18 章 将 介绍 利用 多 处 理 器 和 多 核 搭建 并 行 数 
据 库 系统 的 方法 。 
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假设 账户 A 和 账户 B 当前 的 值 分 别 是 $1000 和 $2000。 假 设 两 个 事务 一 个 一 个 地 执行 ， 先 是 了 ， 
然后 是 有 1 。 该 执行 顺序 如 图 14-2 所 示 。 在 图 14-2 中 ， 指 令 序 列 自 顶 向 下 按时 间 顺 序 排列 ，7, 的 指令 
出 现在 左 栏 ，7, 的 指令 出 现在 右 栏 。 按 图 14-2 的 顺序 执行 后 ， 账 户 4 与 B 中 最 终 的 值 分 别 为 $855 与 





$2145。 因 此 ， 账 户 4 与 B 的 资金 总 数 ( 即 A4+B) 在 两 个 事务 执行 后 保持 不 变 。 

类 似 地 ， 如 果 事 务 一 个 一 个 地 执行 ， 先 是 7,， 然 后 是 7T ， 那 么 相应 ï re 
的 执行 顺序 如 图 14-3 所 示 。 同 样 ， 正 如 所 预期 的 ，4 + B 之 和 仍 维 持 不 read(A) 
变 。 账 户 4 与 B 中 最 终 的 值 分 别 为 $850 与 $2150, | 


前 面 所 描述 的 执行 顺序 称 为 调度 (schedule) 。 它 们 表示 指令 在 系统 read(B) 
中 执行 的 时 间 顺 序 。 显 然 ， 一 组 事务 的 一 个 调度 必须 包含 这 一 组 事务 的 3 二 B+50 


全 部 指令 ， 并 且 必 须 保持 指令 在 各 个 事务 中 出 现 的 顺序 。 例 如 ， 在 任何 。 Commit 

一 个 有 效 的 调度 中 ， 事务 7, 中 指令 write( 4) 必须 在 指令 read( 8) 之 前 ine ed 

出 现 。 请 注意 ， 我 们 在 调度 中 包括 了 commit 操作 来 表示 事务 已 经 进入 A:=A— temp 

提交 状态 。 在 下 面 的 讨论 中 ， 我 们 将 称 第 一 种 执行 顺序 为 调度 1(7, 跟 

ET, 之后) ， 称 第 二 种 执行 顺序 为 调度 2(7, RE T, 之 后 ) 。 B := B + temp 
XBRE RITA (serial). A 48 TIE hk SE ES te 





序列 组 成 ， 其 中 属于 同一 事务 的 指令 在 调度 中 紧 挨 在 一 起 。 回 顾 组 合 数 
学 中 一 个 众所周知 的 公式 ， 我 们 知道 ， 对 于 有 n 个 事务 的 事务 组 ， 共 有 
n! 个 不 同 的 有 效 串 行 调度 。 

当 数据 库 系 统 并 发 地 执行 多 个 事务 时 ， 相 应 的 调度 不 必 是 串 行 的 。 若 有 两 个 并 发 执行 的 事务 ， 
操作 系统 可 能 先 选 其 中 的 一 个 事务 执行 一 小 段 时 间 ， 然 后 切换 上 下 文 ， 执 行 第 二 个 事务 一 段 时 间 ， 
接着 又 切换 回 第 一 个 事务 执行 一 段 时 间 ， 如 此 下 去 。 在 多 个 事务 的 情形 下 ， 所 有 事务 共享 CPU 
时 间 。 

多 种 执行 顺序 是 有 可 能 的 ， 因 为 来 自 两 个 事务 的 各 条 指令 可 能 是 交叉 执行 的 。 一 般 而 言 ， 在 CPU 
切换 到 另 一 事务 之 前 准确 预测 CPU 将 执行 某 个 事务 的 多 少 条 指令 是 不 可 能 的 。 

回 到 前 面 的 例子 ， 假 设 两 个 事务 并 发 执行 。 一 种 可 能 的 调度 如 图 14-4 所 示 ， 当 它 执行 完成 后 ， 我 
们 到 达 的 状态 与 先 执行 7, 后 执行 的 串 行 调度 一 样 ，4 +B 之 和 保持 不 变 。 


图 14-2 调度 1: 一 个 串 行 
WE, T, FRET, 之 后 








T Th 五 TI 
read(A) read(A) 
temp := A * 0.1 A:=A—50 
| A:=A — temp write(A) 
| write(A) read(A) 
| read(B) temp := A * 0.1 
B := B + temp A:=A — temp 
write(B) write(A) 
commit read(B) 
read(A) B:=B+50 
A:=A-—50 write(B) 
write(A) commit 
read(B) read(B) 
B:=B +50 B := B + temp 
write(B) write(B) 
commit commit 
图 14-3 ”调度 2: 一 个 串 行 调度 ，7 RE T, 之 后 图 14-4 调度 3: 等 价 于 调度 1 的 一 个 并 发 调度 


不 是 所 有 的 并 发 执行 都 能 得 到 正确 的 结果 。 举 个 例子 ， 考 虑 如 图 14-5 所 示 的 调度 ， 该 调度 执行 
后 ,到达 的 状态 是 账户 4 与 B 中 最 终 的 值 分 别 为 $8950 与 $2100。 这 个 最 终 状 态 是 一 个 不 一 致 状态 ， 因 





O 包含 ”个 事务 的 事务 组 的 可 能 调度 数量 非常 大 。 有 n! 个 不 同 的 串 行 调度 。 考 虑 所 有 的 事务 的 步骤 可 以 交错 的 方 
式 ， 调 度 的 总 数 要 比 n! 大 得 多 。 
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为 在 并 发 执行 过 程 中 多 出 了 $50。 实 际 上 ， 两 个 事务 执行 后 4A+B 之 和 未 能 保持 不 变 。 

如 果 并 发 执行 的 控制 完全 由 操作 系统 负责 ， 许 多 调度 都 是 可 能 的 ， ke je 
包括 像 上 述 调度 那样 使 数据 库 处 于 不 一 致 状态 的 调度 。 保 证 所 执行 的 二 
任何 调度 都 能 使 数据 库 处 于 一 致 状态 ， 这 是 数据 库 系统 的 任务 , 数据 4=4-50 | 


read(A) 





库 系统 中 负责 完成 此 任务 的 是 并 发 控制 (concurrency-control ) 部 件 。 | temp := A *0.1 
在 并 发 执行 中 ， 通 过 保证 所 执行 的 任何 调度 的 效果 都 与 没有 并 发 okey 
执行 的 调度 效果 一 样 ， 我 们 可 以 确保 数据 库 的 一 致 性 。 也 就 是 说 , 调 | read(B) 
度 应 该 在 某 种 意义 上 等 价 于 一 个 串 行 调度 。 这 种 调度 称 为 可 串 行 化 Mad 人) 
(serializable ) 调度。 B:=B+50 | 
write(B) 
4 二 it 
14.6 可 串 行 化 i B = B + temp 
在 我 们 考虑 数据 库 系统 并 发 控制 部 件 如 何 保证 串 行 化 之 前 ， 我 们 | Sere 


考虑 如 何 确定 一 个 调度 是 可 串 行 化 的 。 显 然 ， 串 行 调度 是 可 串 行 化 的 ， 图 14-5 调度 4， 一 个 导致 不 
但 是 如 果 许 多 事务 的 步骤 交错 执行 ， 则 很 难 确定 一 个 调度 是 否 是 可 串 _ 致 状态 的 并 发 调度 
行 化 的 。 由 于 事务 就 是 程序 ， 因 此 要 确定 一 个 事务 有 哪些 操作 、 多 个 5 

事务 的 操作 如 何 相互 作用 是 有 困难 的 。 由 于 这 个 缘故 ， 我 们 将 不 会 考虑 一 个 事务 对 某 一 数据 项 可 执行 
的 各 种 不 同类 型 的 操作 ， 而 只 考虑 两 种 操作 : read 和 write。 我 们 这 样 假 设 ， 在 数据 项 O 上 的 read(O) 
和 write(@) 指 令 之 间 ， 事 务 可 以 对 驻 留 在 事务 局 部 缓冲 区 中 的 @ 的 拷贝 执行 任意 操作 序列 。 按 这 种 模 
式 ， 从 调度 的 角度 来 看 ， 事 务 唯一 重要 的 操作 是 read 与 write 指令 。commit 操作 尽管 相关 ， 但 是 我 们 
到 14. 7 节 才 考虑 它 。 因 此 ， 我 们 在 调度 中 通常 只 显示 read 与 write 指令 ， 正 如 图 14-6 所 示 调 度 3 中 所 
表示 的 那样 。 








本 节 讨 论 不 同形 式 的 等 价 调度 ,但 是 重点 关注 其 中 一 种 称 为 冲突 可 串 oo T 
行 化 (conflict serializability ) 的 形式 。 reaiA) = 

我 们 考虑 一 个 调度 S， 其 中 含有 分 别 属于 了 与 j 的 两 条 连续 指令 大 与 7 write(A) | ee 
(i7) 。 如 果 7 与 1 引用 不 同 的 数据 项 ， 则 交换 /与 J 不 会 影响 调度 中 任何 write(A) 
指令 的 结果 。 然 而 , 若 7 与 J 了 引用 相同 的 数据 项 0， 则 两 者 的 顺序 是 重要 pet 
的 。 由 于 我 们 只 处 理 read 与 write 指令 ， 因 此 需 考 虑 以 下 4 种 情形 : read(B) 

l. 1= read(0)，J =read(Q)。1 与 /的 次 序 无 关 紧 要 ， 因 为 不 论 其 次 WREE) 
Fini, T, 与 也 读 取 的 @ 值 总 是 相同 的 。 图 14-6 调度 3: 只 显示 


2. J=read(Q), J=write(Q). A/F J, WT, 不 会 读 取 由 7 的 指 read 与 write 指令 
令 J 写 人 的 Q 值 ; AIF I, WT, BHAT 写 入 的 Q 值 。 因 此 1 与 /的 
次 序 是 重要 的 。 

3. I= write(Q), J= read(O@) 。7 与 /的 次 序 是 重要 的 ， 其 原因 类 似 前 一 情形 。 

4. 7= write(QO) ，J = write(@) 。 由 于 两 条 指令 均 为 write 指令 ， 因 此 指令 的 顺序 对 了 与 7 没有 什 
么 影响 。 然 而 ， 调 度 5 的 下 一 条 read( Q) 指令 读 取 的 值 将 受到 影响 ， 因 为 数据 库 里 只 保留 了 两 条 write 
指令 中 后 一 条 的 结果 。 如 果 在 调度 5 的 指令 [与 J 之 后 没有 其 他 的 write(Q@) 指 令 ， 则 7 与/ 的 顺序 直接 
影响 调度 S 产生 的 数据 库 状态 中 @ 的 最 终 值 。 

， 只 有 在 了 与 了 全 为 read 指令 时 ， 两 条 指令 的 执行 顺序 才 是 无 关 紧 要 的 。 

当 了 与 /是 不 同事 务 在 相同 的 数据 项 上 的 操作 ， 并 且 其 中 至 少 有 一 个 是 write 指令 时 ， 我 们 说 了 与 
J 是 冲突 (conflict) 的 。 

为 了 说 明 冲 突 指令 的 概念 ,我 们 考虑 图 14-6 中 的 调度 3。7, 的 write(4) 指令 与 也 的 read(4) 指 令 
HIR. RT, T, 的 write(4) 指 令 与 7, 的 read(B8) 指 令 不 冲突 ， 因 为 两 条 指令 访问 不 同 的 数据 项 。 

BIS JER S 的 两 条 连续 指令 。 若 ! 与 了 是 属于 不 同事 务 的 指令 且 不 冲突 ， 则 可 以 交换 7 与 7 
的 顺序 得 到 一 个 新 的 调度 S'。S 与 8$' 等 价 ， 因 为 除了 7 了 与 了 外 ， 其 他 指令 的 次 序 与 原来 相同 ， 而 了 与 7 
的 顺序 无 关 紧 要 。 
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在 图 14-6 的 调度 3 中 ,由 于 也 的 write(4) 指 令 与 7 的 read(B) 指 令 不 冲突 ， 因 此 可 以 交换 这 些 
指令 得 到 一 个 等 价 的 调度 一 一 图 14-7 所 示 的 调度 5。 不 管 系统 初始 状态 如 何 ， 调 度 3 与 调度 5 均 得 到 
相同 的 最 终 系 统 状 态 。 








我 们 继续 交换 非 冲突 指令 如 下 : Wop os 

e 交换 7 的 read(B) 指 令 与 7 的 read(4) 指 令 。 read(A) 

。 交换 T, 的 write(B) 指 令 与 7 的 write(4) 指 令 。 write(A) = 

e 交换 T, 的 write( 8B) 指令 与 7 的 read(4) 指 令 。 read(B) 

经 过 以 上 交换 的 结果 是 一 个 串 行 调度 ， 即 图 14-8 所 示 的 调度 6。 |] TAA 
注意 调度 6 和 调度 1 完全 一 样 ， 但 是 后 者 只 显示 了 read fil write 指令 。 read(B) 
这 样 ， 我 们 说 明了 调度 3 等 价 于 一 个 串 行 调度 。 该 等 价 性 意味 着 不 管 WUT) 


初始 系统 状态 如 何 ， 调 度 3 将 与 某 个 串 行 调度 产生 相同 的 最 终 状 态 。 图 14-7 调度 5: 交换 调度 3 
如 果 调 度 $ 可 以 经 过 一 系列 非 冲突 指令 交换 转换 成 S$’， 我 们 称 S 的 一 对 指令 得 到 的 调度 
与 $ 是 冲突 等 价 (conflict equivalent) 的 。 © 


不 是 所 有 的 串 行 调度 相互 之 间 都 冲突 等 价 。 例 如 ， 调 度 1 和 调度 2 不 i 6 
是 冲突 等 价 的 。 read(4) | 
由 冲突 等 价 的 概念 引出 了 冲突 可 串 行 化 的 概念 : 若 一 个 调度 $ 与 一 个 writer) | 


品行 调度 冲突 等 价 ， 则 称 调度 S 是 冲突 可 品行 化 (conflict serializable) 的 。 ed 


那么 ， 因 为 调度 3 冲突 等 价 于 串 行 调 度 1， 所 以 调度 3 是 冲突 可 串 行 化 的 。 | pe 
最 后 ， 考 虑 图 14-9 所 示 的 调度 7; 该 调度 仅 包含 事务 7, 与 7, 的 重要 | read(B) 
| write(B) 


操作 ( 即 read 与 write) 。 这 个 调度 不 是 冲突 可 串 行 化 的 ， 因 为 它 既 不 等 价 
于 串 行 调度 < 7 ，7. > ， 也 不 等 价 于 串 行 调度 < T,, 7, >。 图 14-8 调度 6: 与 调度 3 
为 确定 一 个 调度 是 否 冲突 可 串 行 化 ,我们 这 里 给 出 了 一 个 简单 有 效 的 ”等 价 的 一 个 串 行 调度 

方法 。 设 S 是 一 个 调度 ， 我 们 由 $ 构造 一 个 有 向 图 ， 称 为 优先 图 
(precedence graph) 。 该 图 由 两 部 分 组 成 C= (了 E)， 其 中 V 是 顶点 集 , E 是 边 集 ， 顶 点 集 由 所 有 参与 





调度 的 事务 组 成 ， 边 集 由 满足 下 列 三 个 条 件 之 一 的 边 7, 一 7 组 成 : RI h 
。 在 7 执行 read(O) 之 前 ，7 执行 write(O@) 。 read(Q) 
e 在 7 执行 write(@) 之 前 ，7. 执行 read(O) 。 write(O) write(Q) 


。 在 7 执行 write( Q) 之 前 ,7, 执行 write( 0)。 | 
如 果 优先 图 中 存在 边 7 -7 ， 则 在 任何 等 价 于 S 的 串 行 调度 5’ 中 ,7, 必 出 ” 图 14-9 调度 7 


现在 T, 之前。 


a) b) 
图 14-10 a) 调度 1 与 b) 调 度 2 的 优先 图 


例如 ， 调 度 1 的 优先 图 如 图 14-10a 所 示 ， 图 14- 10a 中 只 有 一 条 边 TT, AAT, 的 所 有 指令 均 
ET, 的 首 条 指令 之 前 执行 。 类 似 地， 图 14- 10b 表示 的 是 调度 2 的 优先 图 ， 该 图 仅 含 一 条 边 T, >T, 
因为 7 的 所 有 指令 均 在 7, 的 首 条 指令 之 前 执行 。 

调度 4 的 优先 图 如 图 14-11 所 示 。 因 为 7, 执行 read( 4) 先 于 7, 执行 write(4) ， 所 以 图 14-11 含有 
AT >T, XA T, 执行 read(B) 先 于 7 执行 write(B) ， 所 以 图 14-11 还 含有 边 T, >T,- 

如 果 调 度 5 的 优先 图 有 环 ， 则 调度 S 是 非 冲 突 可 串 行 化 的 ， 如 果 优 先 图 无 环 ， 则 调度 5 是 冲突 可 
串 行 化 的 。 


日 ” 们 用 冲突 等 价 这 个 术语 把 刚刚 定义 的 等 价 和 本 节 后 面 将 介绍 的 其 他 定义 区 别 开 。 
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品行 化 顺序 (serializability order) 可 通过 拓扑 排序 (topological sorting) 得 到 ， 拓 扑 排序 用 于 计算 与 优 
先 图 的 偏 序 相 一 致 的 线性 顺序 。 一 般 而 言 ， 通 过 拓扑 排序 可 以 获得 多 个 线 
性 顺序 。 例 如 ， 图 14-12a 有 两 种 可 接受 的 线性 顺序 ， 如 图 14-12b 与 图 14- 
me E © 
因此 ， 要 判定 冲突 可 串 行 化 ， 需 要 构造 优先 图 并 调用 一 个 环 检测 算 
法 。 环 检测 算法 可 在 标准 的 算法 课本 中 找到 。 环 检测 算法 ， 例 如 那些 基于 
深度 优先 搜索 的 环 检测 算法 ,需要 n 数量 级 的 运算 ， 其 中 站 是 优先 图 中 图 14-11 调度 4 的 优先 图 
项 点数 ( 即 事务 数 ) 。 
回 到 前 面 的 例子 ， 注 意 到 调度 1 与 调度 2 的 优先 图 ( 见 图 14-10) 的 确 不 包含 环 。 而 调度 4 的 优先 图 
( 见 图 14-11 ) 却 有 一 个 环 ， 说 明 该 调度 不 是 冲突 可 串 行 化 的 。 
有 可 能 存在 两 个 调度 ， 它 们 产生 相同 的 结果 ， 但 它们 不 a) 
是 冲突 等 价 的。 例如 ， 考 虑 事务 7;， 它 从 账户 B 过 户 $10 到 
账户 4。 设 调度 8 如 图 14-13 所 示 。 我 们 说 调度 8 不 与 串 行 调 (aa) Cm) 
fE<T,, T, > 冲突 等 价 ， 因 为 在 调度 8 H, T, 的 write(B ) 指 
令 与 7 的 read(B) 指 令 冲 突 。 这 在 优先 图 中 产生 了 一 条 7; 一 
T, 的 边 。 类 似 地 ， 我 们 看 到 T, 的 write(4) 指 令 与 7; 的 read 指 a 
令 冲 突 ,产生 了 一 条 也 一 五 的 边 。 这 表示 优先 图 有 环 ， 即 调度 
8 不 是 可 串 行 化 的 。 然 而 ， 执 行 调度 8 或 串 行 调度 < T1, T, > 
后 ， 账 户 A 5 B 中 最 终 的 值 是 相同 的 ， 即 分 别 为 $960 与 $2040。 
从 这 个 例子 可 以 看 出 ， 存 在 比 冲 突 等 价 定义 限制 松 一 些 和 人 
的 调度 等 价 定义 。 对 于 系统 来 说 ， 要 确定 调度 8 与 串 行 调度 
< T’ To > 产生 的 结果 相同 ， 系 统 必 须 分 析 7, 与 7; 所 进行 
的 计算 ， 而 不 只 是 分 析 其 read 和 write 操作 。 通 常 ， 这 种 分 ke (ue) 
析 难 于 实现 并 且 计 算 代价 很 大 。 在 该 例子 中 ， 最 后 的 结果 和 
串 行 调度 是 一 样 的 ， 因 为 从 数学 的 角度 递增 和 递减 是 可 交换 
的 。 虽 然 这 在 该 例子 中 比较 简单 ， 但 是 一 般 情 况 下 并 非 如 
此 ， 因 为 一 个 事务 可 能 会 表示 为 一 条 复杂 的 SQL 语句 ， 或 一 
个 有 JDBC 调用 的 Java 程序 等。 (> i 
不 过 ， 存 在 一 些 别 的 纯粹 基于 read 与 write 操作 的 调度 
等 价 定 义 。 其 中 一 个 是 视图 等 价 ， 并 且 引 出 视图 可 事 行 化 的 oy 本 
概念 。 视 图 可 品行 化 因为 其 计算 的 高 度 复杂 性 在 实际 中 并 不 pp 
常用 。 因此 ， 我 们 推迟 到 第 15 章 中 再 讨论 视图 可 串 行 化 ， 
但 是 为 了 表述 完整 起 见 ， 这 儿 请 注意 ,调度 8 的 例子 不 是 视图 可 串 行 化 的 。 
EO 
read(A) 
A:=A—50 
write(A) 
read(B) 
B:=B—10 
write(B) 
read(B) 


B:=B+50 
write(B) 





read(A) 
| A:=A+10 
| write(A) 


14-13 ”调度 8 





日 ”判定 调度 是 否 视图 可 串 行 化 的 问题 已 被 证 明 是 属于 NP - 完全 问题 ， 因 此 几乎 肯定 不 存在 有 效 的 判定 视图 可 串 行 
化 的 算法 。 
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14.7 事务 隔离 性 和 原子 性 
至 此 ， 我 们 在 隐 含 地 假定 无 事务 故障 的 前 提 下 学 习 了 调度 。 现 在 我 们 讨论 在 并 发 执行 过 程 中 事务 


642 
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不 论 什 么 原因 ， 如 果 事务 7, 失败 了 ,我们 必须 撤销 该 事务 的 影响 以 确保 其 原子 性 。 在 允许 并 发 执 
行 的 系统 中 ， 原 子 性 要 求 依赖 于 7. 的 任何 事务 T(E T ERT T, 写 的 数据 ) 也 中 止 。 为 确保 这 一 点 ， 
我 们 需要 对 系统 所 允许 的 调度 类 型 做 一 些 限 制 。 

在 下 面 两 节 中 ， 我 们 从 事务 故障 恢复 的 角度 讲述 什么 样 的 调度 是 可 接受 的 ， 第 15 章 将 讲述 如 何 保 
证 只 产生 这 种 可 接受 的 调度 。 
14.7.1 可 恢复 调度 

考虑 图 14-14 所 示 的 部 分 调度 9， 其 中 事务 T, 只 执行 一 条 指令 :read (4A)。 我 们 称 之 为 部 分 调度 
(partial schedule) ， 因 为 在 T, 中 没有 包括 commit 或 abort 操作 。 注 意 T, 执行 read( 4) 指令 后 立即 提 
交 。 因 此 T, 提交 时 T, 仍 处 于 活跃 状态 。 现 假定 7, 在 提交 前 发 生 故 障 。7, 已 读 取 了 由 T, 写 人 的 数据 
项 4 的 值 。 因此， 我 们 说 T, Rl dependent) 于 7,。 因 此 ， 我 们 必须 中 止 T, 以 保证 事务 的 原子 性 。 但 
T, 已 提交 ， 不 能 再 中 止 。 这 样 就 出 现 了 T, 发 生 故 障 后 不 能 正确 恢复 的 情形 。 

调度 9 是 不 可 恢复 调度 的 一 个 例子 。 一 个 可 恢复 调度 (recoverable schedule) 应 ee 
满足 ,对 于 每 对 事务 7, 和 7,， WRT, 读 取 了 之 前 由 7 所 写 的 数据 项 , 则 7, 先 于 reaa) | 
7; 提交 。 例 如， 如 果 要 使 调度 9 是 可 恢复 的 ， 则 7 应 该 推迟 到 7, 提交 后 再 提交 。 WIA | 
14.7.2 无 级 联 调度 ea | commit 

即使 一 个 调度 是 可 恢复 的 ， 要 从 事务 7, 的 故障 中 正确 恢复 ， 可 能 需要 回 深 “ 
车 干事 务 。 当 其 他 事务 读 取 了 由 事务 T, 所 写 数 据 项 时 就 会 发 生 这 种 情形 。 举 一 Fl WE: 
个 例子 ， 考 虑 图 14-15 所 示 的 部 分 调度 。 事 务 7, 写 人 4 的 值 ， 事务 7, 读 取 了 4 “一 个 可 恢复 的 调度 
的 值 。 HET, SAA 的 值 ， 事 务 Tu 读 取 了 4 的 值 。 假 定 此 时 事务 7, 失败 ，7, WAU. HFT 依 
HFL, RERS 7, 必须 回 滚 。 由 于 Ty RRA Ty, AE Tu 必须 回 滚 。 这 种 因 单个 事务 故障 导致 一 系 
列 事务 回 滚 的 现象 称 为 级 联 回 滚 (cascading rollback) 。 

级 联 回 滚 导致 撤销 大 量 工作 ， 是 我 们 不 希望 发 生 的 。 我 们 希望 对 调 ee fog IO 

| 








度 加 以 限制 ， 避 免 级 联 回 滚 发 生 。 这 样 的 调度 称 为 无 级 联 调度 。 规 范 地 Teada) 


说 ,无 级 联 调度 (cascadeless schedule) 应 满足 : 对 于 每 对 事务 A 了， ona 





如 果 T, 读 取 了 先前 由 T, 所 写 的 数据 项 ， 则 7, 必须 在 T, 这 一 读 操作 前 提 read(A) | 
交 。 容 易 验证 每 一 个 无 级 联 调度 也 都 是 可 恢复 的 调度 。 aii PEREP 
14.8 事务 隔离 性 级 别 7 

图 14-15 调度 10 


可 串 行 性 是 一 个 有 用 的 概念 ， 因 为 当 程 序 员 对 事务 编码 时 ， 它 允许 
程序 员 忽 略 与 并 发 性 相关 的 问题 。 如 果 事 务 在 独立 执行 时 保证 数据 库 一 致 性 ,那么 可 串 行 性 就 能 确保 
并 发 执行 时 也 具有 一 致 性 。 然 而 ， 对 于 某 些 应 用 ， 保 证 可 串 行 性 的 那些 协议 可 能 只 允许 极 小 的 并 发 度 。 
在 这 种 情况 下 ， 我 们 采用 较 弱 级 别 的 一 致 性 。 为 了 保证 数据 库 的 正确 性 ， 使 用 较 弱 级 别 一 致 性 给 程序 
员 增 加 了 额外 负担 。 

SQL 标准 也 允许 一 个 事务 这 样 规定 : 它 可 以 以 一 种 与 其 他 事务 不 可 串 行 化 的 方式 执行 。 例 如 ， 一 
个 事务 可 能 在 未 提交 读 级 别 上 操作 ， 这 里 允许 事务 读 取 甚 至 还 未 提交 的 记录 。SQL 为 那些 不 要 求 精确 
结果 的 长 事务 提供 这 种 特征 。 如 果 这 些 事务 要 在 可 串 行 化 的 方式 下 执行 ， 它 们 就 会 干扰 其 他 事务 ， 造 
成 其 他 事务 执行 的 延迟 。 

SQL 标准 规定 的 隔离 性 级 别 如 下 。 

© 可 串 行 化 (serializable) : 通常 保证 可 串 行 化 调度 。 然 而 ， 正 如 我 们 将 要 解释 的 ， 一 些 数据 库 系 

统 对 该 隔离 性 级 别 的 实现 在 某 些 情况 下 人 允许 非 可 串 行 化 执行 。 
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。 可 重复 读 (repeatable read): 只 允许 读 取 已 提交 数据 ， 而 且 在 一 个 事务 两 次 读 取 一 个 数据 项 期 
间 ， 其 他 事务 不 得 更 新 该 数据 。 但 该 事务 不 要 求 与 其 他 事务 可 串 行 化 。 例 如 : 当 一 个 事务 在 查 
找 满 足 某 些 条 件 的 数据 时 ， 它 可 能 找到 一 个 已 提交 事务 插 和 人 的 一 些 数 据 ， 但 可 能 找 不 到 该 事务 
插入 的 其 他 数据 。 
© 已 提交 读 (read committed); 只 允许 读 取 已 提交 数据 ， 但 不 要 求 可 重复 读 。 比 如 ， 在 事务 两 次 读 
取 一 个 数据 项 期 间 ， 另 一 个 事务 更 新 了 该 数据 并 提交 。 
。 未 提交 读 (read uncommitted) : 允许 读 取 未 提交 数据 。 这 是 SQL 允许 的 最 低 一 致 性 级 别 。 
以 上 所 有 隔离 性 级 别 都 不 允许 脏 写 ( dirty write) ， 即 如 果 一 个 数据 项 已 经 被 另外 一 个 尚未 提交 或 中 
止 的 事务 写 入 ， 则 不 允许 对 该 数据 项 执行 写 操作 。 
许多 数据 库 系统 运行 时 的 默认 隔离 性 级 别 是 已 提交 读 。 在 SQL 中 ， 除 了 接受 系统 的 默认 设置 ， 还 
可 以 显 式 地 设置 隔离 性 级 别 。 例 如 ， 语 名 “set transaction isolation level serializable;" 将 隔离 性 级 别 设 
置 为 可 串 行 化 ， 其 他 隔离 性 级 别 可 类 似 设 定 。Oracle PostgreSQL 和 SQL Server 均 支 持 上 述 语法 。DB2 
使 用 语法 “change isolation level ”以 及 其 自身 提供 的 隔离 性 级 别 缩写 。 
修改 隔离 性 级 别 必须 作为 事务 的 第 一 条 语句 执行 。 此 外 ， 如 果 单 条 语句 的 自动 提交 默认 打开 ， 则 
必须 关闭 ; 可 以 采用 API 函数 来 做 这 件 事 例如 我 们 在 5.1.1.7 节 中 看 到 的 JDBC 方法 
Connection. setAutoCommit( false )。 此 外 ， 在 JDBC 方法 中 ，Connection. setTransactionIsolation ( int 
level) 可 以 用 来 设置 隔离 性 级 别 。 更 多 细节 请 参阅 JDBC Fit. 
一 个 应 用 程序 设计 者 可 能 会 为 了 提高 系统 性 能 而 接受 较 弱 的 隔离 性 级 别 。 正 如 我 们 将 在 14. 9 节 和 
第 15 章 所 看 到 的 ， 确 保 可 串 行 化 可 能 会 迫使 一 个 事务 等 待 另 一 个 事务 ， 或 者 在 某 些 情况 下 ， 由 于 该 事 
务 无 法 作为 可 串 行 化 执行 的 一 部 分 而 被 迫 中 止 。 虽 然 为 了 性 能 可 能 会 带 来 短暂 的 数据 库 不 一 致 风险 ， 
但 是 如 果 我 们 能 确保 这 种 不 一 致 性 是 和 应 用 程序 无 关 的 ， 则 这 种 权衡 是 合理 的 。 
实现 隔离 性 级 别 有 很 多 方法 。 只 要 实现 确保 可 串 行 化 ， 数 据 库 应 用 程序 的 设计 者 或 者 应 用 程序 的 用 
户 就 不 需要 知道 这 些 实现 的 细节 ， 除 非 需要 处 理性 能 问题 。 遗 憾 的 是 ， 尽 管 隔离 性 级 别 设置 为 可 串 行 化 ， 
但 一 些 数据 库 系统 实际 上 采用 了 较 弱 的 隔离 性 级 别 来 实现 ， 这 并 不 排除 所 有 非 可 串 行 化 的 可 能 性 。 我 们 
将 在 14.9 节 再 次 讨论 这 个 问题 。 如 果 无 论 显 式 地 或 隐 式 采用 较 弱 的 隔离 性 级 别 ， 则 应 用 程序 的 设计 者 必 
须知 道 一 些 实现 细节 ， 从 而 避免 或 者 最 小 化 由 于 缺乏 可 串 行 化 保证 所 带 来 的 不 一 致 的 可 能 性 。 


现实 世界 中 的 可 串 行 化 

可 串 行 化 调度 是 保证 一 致 性 的 理想 方法 ， 但 是 在 日 常 工作 中 ,我 们 无 需 如 此 严格 的 要 求 。 一 个 
提供 商品 销售 的 网 站 可 能 会 列 出 某 个 存货 商品 ， 当 一 个 用 户 选 择 该 商品 并 且 在 结账 过 程 中 ， 该 商品 
是 不 可 用 的 。 从 数据 库 的 角度 来 看 ， 这 就 是 一 个 不 可 重复 读 。 

作为 另 一 个 例子 ， 考 虑 在 航空 旅行 中 选择 座位 。 假 设 一 个 旅客 已 经 预订 好 行程 ， 并 且 正 在 为 每 次 
航班 选择 座位 。 许 多 航空 公司 的 网 站 允许 用 户 查 看 不 同 的 航班 来 选择 一 个 座位 ， 然 后 要 求 用 户 确认 该 
选择 。 而 其 他 旅客 也 可 能 同时 正在 选择 同样 航班 的 座位 或 者 更 改选 择 的 座位 。 因 此 ， 旅 客 看 到 的 空余 
允 位 事实 上 是 变化 的 ， 但 是 旅客 所 看 到 的 只 是 当 他 开始 座位 选择 流程 时 空余 座位 的 一 个 快照 4 

即使 两 个 旅客 同时 选择 产 位 ， 他 们 很 可 能 选择 不 同 的 座位 ， 也 不 会 发 生 冲 突 。 然而， 事务 是 非 
可 囊 行 化 的 ， 由 于 一 个 旅客 读 取 的 数据 是 此 前 其 他 旅客 更 新 的 ， 会 导致 优先 图 中 的 一 个 环 。 如 果 两 
个 旅客 同时 选择 了 一 个 座位 ， 其 中 的 一 个 则 不 会 获得 他 所 选择 的 座位 。 不 过 ， 这 种 情况 很 容易 解决 ， 
只 要 在 更 新 的 空余 座位 信息 上 ， 要 求 这 个 旅客 再 次 选择 即 可 。 

通过 限制 一 个 时 刻 只 允许 一 个 用 户 选择 菜 一 个 航班 的 座位 ， 可 保证 可 事 行 化 。 然 而 ， 这 样 做 可 
能 会 带 来 很 显著 的 延迟 ， 因 为 旅客 需要 等 待 他 的 航班 变 成 可 以 选择 座位 。 特 别 地 ， 如 果 一 个 旅客 花 
费 很 长 时 间 来 选择 一 个 座位 ， 则 会 给 其 他 旅客 带 来 严重 问题 。 另 外 的 做 法 是 ， 这 类 事务 通常 可 以 分 
成 一 个 需要 用 户 交 互 的 部 分 以 及 一 个 专门 在 数据 库 上 运行 的 部 分 。 在 上 述 例 子 中 ， 数 据 库 事务 将 检 
查 旅客 选中 的 座位 是 否 仍 然 空闲 ， 如 果 是 ， 则 更 新 数据 库 中 的 座位 选择 信息 。 只 有 在 没有 用 户 交 互 
的 情况 下 ， 数 据 库 上 运行 的 事务 才能 保证 可 串 行 化 。 
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14.9 隔离 性 级 别 的 实现 


至 此 ， 我 们 已 经 知道 一 个 调度 应 具有 什么 样 的 特性 才能 保证 数据 库 处 于 一 致 状态 ， 并 保证 事务 故 
障 得 以 安全 地 处 理 。 

我 们 可 以 使 用 多 种 并 发 控制 机 制 ( concurrency-control scheme) 来 保证 ， 即 使 在 有 多 个 事务 并 发 执行 

时 ， 不 管 操 作 系 统 在 事务 之 间 如 何 分 时 共享 资源 (如 CPU 时 间 ) ， 都 只 产生 可 接受 的 调度 。 

举 一 个 并 发 控制 机 制 的 简单 例子 ， 考 虑 如 下 机 制 : 一 个 事务 在 开始 前 获得 整个 数据 库 的 锁 (lock ) , 
并 在 它 提 交 之 后 释放 这 个 锁 。 当 一 个 事务 持 有 锁 时 ， 其 他 事务 就 不 允许 获得 这 个 锁 ， 因 此 必须 等 待 锁 
释放 。 由 于 采用 了 封锁 策略 ， 因 此 一 次 只 能 执行 一 个 事务 。 所 以 只 会 产生 串 行 调度 。 这 样 的 调度 很 明 
显 是 可 串 行 化 的 ， 并 且 容 易 证 明 也 是 可 恢复 的 和 无 级 联 的 。 

这 样 的 并 发 控制 机 制 的 性 能 低下 ， 因 为 它 迫 使 事务 等 到 前 面 的 事务 结束 后 才能 开始 。 换 句 话说 ， 
这 种 机 制 提供 的 并 发 程度 很 低 。 正 如 我 们 在 14.5 节 中 看 到 的 那样 ， 并 发 执行 有 诸多 性 能 方面 的 益处 。 

并 发 控制 机 制 的 目的 是 获得 高 度 的 并 发 性 ， 同 时 保证 所 产生 的 调度 是 冲突 可 串 行 化 或 视图 可 串 行 
化 的 、 可 恢复 的 ， 并 且 是 无 级 联 的 。 

下 面 大 致 介绍 一 些 重要 的 并 发 控制 机 制 是 如 何 工作 的 ， 然 后 第 15 章 会 介绍 更 多 细节 。 
14.9.1 锁 


一 个 事务 可 以 封锁 其 访问 的 数据 项 ， 而 不 用 封锁 整个 数据 库 。 在 这 种 策略 下 ， 事 务必 须 在 足够 长 
的 时 间 内 持 有 锁 来 保证 可 串 行 化 ， 但 是 这 一 周期 又 要 足够 短 致 使 不 会 过 度 影响 性 能 。 对 于 我 们 将 在 
14. 10 节 中 看 到 的 数据 项 的 访问 依赖 于 一 条 where 子 句 的 SQL 语句 则 情况 更 为 复杂 。 第 15 章 将 介绍 一 
个 简单 并 且 广 泛 用 来 确保 可 串 行 化 的 两 阶段 封锁 协议 。 简 单 地 说 ， 两 阶段 封锁 要 求 一 个 事务 有 两 个 阶 
段 ,一 个 阶段 只 获得 锁 但 不 释放 锁 ， 第 二 个 阶段 只 释放 锁 但 是 不 获得 锁 。( 实际 上 ， 通 常 只 有 当 事 务 完 
成 所 有 操作 并 且 提 交 或 中 止 时 才 释 放 锁 ,) 

如 果 我 们 有 两 种 锁 ， 则 封锁 的 结果 将 进一步 得 到 改进 : 共享 的 和 排他 的 。 共 享 锁 用 于 事务 读 的 数 
据 项 ， 而 排他 锁 用 于 事务 写 的 数据 项 。 许 多 事务 可 以 同时 持 有 一 个 数据 项 上 的 共享 锁 ， 但 是 只 有 当 其 
他 事务 在 一 个 数据 项 上 不 持 有 任何 锁 (无 论 共 享 锁 或 排他 锁 ) 时 ， 一 个 事务 才 人 允许 持 有 该 数据 项 上 的 排 
他 锁 。 这 两 种 锁 模 式 以 及 两 阶段 封锁 协议 在 保证 可 串 行 化 的 前 提 下 人 允许 数据 的 并 发 读 。 

14.9.2 WEIR 

另 一 类 用 来 实现 隔离 性 的 技术 为 每 个 事务 分 配 一 个 时 间 戳 (timestamp) ， 通 常 是 当 它 开始 的 时 候 。 

对 于 每 个 数据 项 ， 系 统 维护 两 个 时 间 戳 。 数 据 项 的 读 时 间 戳 记录 读 该 数据 项 的 事务 的 最 大 ( 即 最 近 的 ) 
时 间 惟 。 数 据 项 的 写 时 间 戳 记录 写 人 该 数据 项 当前 值 的 事务 的 时 间 戳 。 时 间 惟 用 来 确保 在 访问 冲突 情 

况 下 ， 事 务 按照 事务 时 间 截 的 顺序 来 访问 数据 项 。 当 不 可 能 访问 时 ， 违 例 事务 将 会 中 止 ， 并 且 分 配 一 

个 新 的 时 间 惟 重新 开始 。 

14.9.3 多 版 本 和 快照 隔离 

通过 维护 数据 项 的 多 个 版 本 ， 一 个 事务 允许 读 取 一 个 旧版 本 的 数据 项 ， 而 不 是 被 另 一 个 未 提交 或 
者 在 串 行 化 序列 中 应 该 排 在 后 面 的 事务 写 人 的 新 版 本 的 数据 项 。 有 许多 多 版 本 并 发 控制 技术 。 其 中 一 
个 是 实际 中 广泛 应 用 的 称 为 快照 隔离 (snapshot isolation) 的 技术 。 

在 快照 隔离 中 ， 我 们 可 以 想象 每 个 事务 开始 时 有 其 自身 的 数据 库 版 本 或 者 快照 。 2 它 从 这 个 私有 
版 本 中 读 取 数据 ， 因 此 和 其 他 事务 所 做 的 更 新 隔离 开 。 如 果 事 务 更 新 数据 库 ， 更 新 只 出 现在 其 私有 版 
本 中 ， 而 不 是 实际 的 数据 库 本 身 中 。 当 事务 提交 时 ， 和 更 新 有 关 的 信息 将 保存 ， 使 得 更 新 被 写 人 “真正 
的 数据库。 

当 一 个 事务 了 进入 部 分 提交 状态 后 ， 只 有 在 没有 其 他 并 发 事务 已 经 修改 该 事务 想 要 更 新 的 数据 项 
的 情况 下 ， 事 务 进 入 提交 状态 。 而 不 能 提交 的 事务 则 中 止 。 


名” 当然 ,在 现实 中 ， 不 会 复制 整个 数据 库 。 只 有 改变 的 数据 项 才 会 保留 多 个 版 本 。 
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快照 隔离 可 以 保证 读数 据 的 尝试 永远 无 须 等 待 (不 像 封 锁 的 情况 ) 。 只 读 事 务 不 会 中 止 ; 只 有 修改 
数据 的 事务 有 微小 的 中 止 风险 。 由 于 每 个 事务 读 取 它 自己 的 数据 库 版 本 或 快照 ， 因 此 读数 据 不 会 导致 
此 后 其 他 事务 的 更 新 尝试 被 迫 等 待 (不 像 封 锁 的 情况 ) 。 因 为 大 部 分 事务 是 只 读 的 (并 且 大 多 数 其 他 事 
务 读数 据 的 情况 多 于 更 新 ) ， 所 以 这 是 与 锁 相 比 往往 带 来 性 能 改善 的 主要 原因 。 

矛盾 的 是 ， 快 照 隔离 带 来 的 问题 是 它 提 供 了 太 多 的 隔离 。 考 虑 两 个 事务 7 了 和 7'。 在 一 个 串 行 化 调 
Ep, ATAI 罗 所 做 的 所 有 更 新 ， 要 么 了 看 到 了 所 做 的 所 有 更 新 ， 因 为 在 串 行 化 顺序 中 一 个 必须 
在 另 一 个 之 后 。 在 快照 隔离 下 ， 任 何事 务 都 不 能 看 到 对 方 的 更 新 。 这 是 在 串 行 化 调度 中 不 会 出 现 的 。 
在 许多 (事实 上 ， 大 多 数 ) 情 况 下 ， 两 个 事务 的 数据 访问 不 会 冲突 ， 因 此 没有 什么 问题 。 然 而 ， 如 果 了 
读 取 了 更 新 的 某 些 数据 项 并 且 7' 读 取 7 了 更 新 的 某 些 数据 项 ， 则 可 能 两 个 事务 都 无 法 读 取 对 方 的 更 新 。 
结果 可 能 会 导致 我 们 将 会 在 第 15 章 看 到 的 数据 库 不 一 致 状态 ， 而 这 个 在 可 串 行 化 执行 中 当然 是 不 会 出 
现 的 。 

Oracle, PostgreSQL 和 SQL Server 提供 快照 隔离 的 选项 。Oracle 和 PostgreSQL 使 用 快照 隔离 来 实现 
可 串 行 化 隔离 级 别 。 因 此 ， 它 们 的 可 串 行 化 的 实现 在 某 些 特殊 的 情况 下 会 导致 允许 一 个 非 可 串 行 化 的 
调度 。 而 SQL Server 在 标准 级 别 以 外 增加 了 一 个 称 为 快照 的 隔离 性 级 别 ， 来 提供 快照 隔离 选项 。 
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4.3 节 介 绍 了 SQL 中 标识 事务 开始 和 结束 的 语法 。 现 在 我 们 已 经 介绍 过 一 些 保 持 事务 ACID 特性 的 
问题 ， 我 们 已 经 准备 好 考虑 如 何在 用 一 系列 SQL 语句 表示 事务 时 保证 这 些 特性 ， 而 不 像 到 目前 为 止 我 
们 仅 限 制 了 简单 的 读 和 写 的 模型 。 

在 简单 模型 中 ， 我 们 假设 存在 一 些 数据 项 集合 。 虽 然 我 们 允许 数据 项 的 值 改变 ， 但 是 不 允许 数据 
项 被 创建 或 删除 。 然 而 ， 在 SQL 中 ，insert 语句 用 来 创建 新 数据 ，delete 语句 用 来 删除 数据 。 事 实 上 ， 
这 两 条 语句 是 write 操作 ， 因 为 它们 改变 了 数据 库 ， 但 是 它们 与 其 他 事务 操作 的 交互 与 我 们 在 简单 模 
型 中 看 到 的 不 同 。 例 如 ,考虑 如 下 在 大 学 数据 库 上 的 查询 语句 ， 查 找 所 有 工资 超过 $9000 的 教师 ， 


select JD, name 
from instructor 
where salary > 90000; 


采用 示例 的 关系 instructor ( 见 附录 A. 3) ， 我 们 发 现 只 有 Einstein 和 Brandt 满足 条 件 。 现 在 假设 在 执 
行 该 查询 的 同一 时 间 ， 另 外 一 个 用 户 插入 一 条 新 的 名 为 “James" 并且 工资 为 $10 000 的 教师 数据 。 


insert into instructor values ('11111','James’,’Marketing’, 100000) ; 


查询 结果 会 取决 于 该 插入 是 先 于 还 是 后 于 执行 的 查询 而 有 所 不 同 。 在 这 两 个 事务 的 并 发 执行 中 ， 
从 直观 上 看 它们 是 冲突 的 ， 然 而 这 种 冲突 在 简单 模型 中 无 法 发 现 。 这 种 情况 称 为 幻象 现象 (phantom 
phenomenon) ， 因 为 冲突 存在 于 一 个 “幻象 ”数据 上 。 

简单 事务 模型 要 求 提供 一 个 具体 的 数据 项 作为 操作 的 参数 来 执行 在 该 数据 项 上 的 操作 。 在 简单 模 
型 中 ,我 们 从 read 和 write 步骤 中 就 可 以 看 到 哪个 数据 项 被 使 用 。 但 是 在 一 条 SQL 语句 中 ， 具 体 的 数 
据 项 (元 组 ) 可 能 被 一 条 where 语句 中 的 谓词 所 决定 。 因 此 ， 如 果 在 事务 多 次 运行 之 间 数 据 库 发 生 改 
75, 那么 即使 是 同一 个 事务 ， 在 多 次 不 同 运行 中 也 可 能 会 使 用 不 同 的 数据 项 。 

解决 上 述 问 题 的 一 种 方法 是 要 认识 到 在 并 发 控制 时 仅 考虑 事务 访问 的 元 组 是 不 够 的 ; 并 发 控制 还 
需要 考虑 找到 事务 访问 元 组 所 需 的 信息 。 这 些 用 于 寻找 元 组 的 信息 可 能 会 被 插入 和 删除 所 更 新 ， 或 者 
在 有 索引 的 情况 下 ， 该 信息 还 可 能 由 于 搜索 键 属性 更 新 而 更 新 。 例 如 ， 如 果 采 用 封锁 机 制 来 进行 并 发 
控制 ， 则 用 于 追踪 关系 中 元 组 的 数据 结构 ， 以 及 索引 结构 都 必须 适当 地 封锁 。 然 而 ， 这 种 封锁 可 能 会 
在 一 些 情况 下 导致 低 的 并 发 度 。 最 大 化 并 发 性 的 索引 封锁 协议 将 会 在 15. 8. 3 节 介绍 ， 它 在 插入 、 删 
除 、 带 有 谓词 的 查询 中 都 保证 了 可 串 行 化 。 

让 我 们 再 次 考虑 查询 : 
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select ID, name 
from instructor 
where salary > 90000 ; 


和 以 下 SQL 更 新 : 


update instructor 
set salary = salary * 0.9 
where name = Wu'; 


我 们 在 判断 该 查询 到 底 是 否 和 这 条 更 新 语句 冲突 时 面临 一 个 有 趣 的 现象 。 如 果 我 们 的 查询 读 取 整 
个 instructor 关系 ， 则 它 读 取 了 与 ‘Wu? 相关 的 元 组 ， 因 此 和 更 新 冲突 。 然 而 ， 如 果 存 在 索引 ， 使 得 该 查 
询 可 以 直接 访问 salary > 90 000 的 元 组 ， 则 该 查询 根本 不 会 访问 “Wu ' 的 元 组 ， 因 为 在 该 实例 关系 中 
‘We’ 的 初始 工资 为 890 000， 且 更 新 后 减少 为 $81 000。 

但 是 ， 使 用 上 述 方法 ， 看 起 来 一 个 冲突 是 否 存在 依赖 于 底层 系统 的 查询 处 理 决策 ， 而 与 用 户 级 两 
条 SQL 语句 的 含义 无 关 ! 另 一 种 并 发 控制 方法 是 如 果 一 次 插入 、 删 除 、 更 新 会 影响 一 个 谓词 所 选择 的 
元 组 ， 则 将 其 看 作 与 关系 上 的 谓词 冲突 。 在 上 述 例子 的 查询 中 ,谓词 是 “salary > 90 000”， 则 一 个 将 
‘Wu’ 的 工资 从 $90 000 更 新 为 比 $90 000 更 高 的 更 新 ,或 者 将 “Finstein' 的 工资 从 高 于 $90 000 更 新 到 
低 于 或 等 于 $90 000 的 更 新 都 会 和 谓词 发 生 冲 突 。 基 于 这 种 思想 的 封锁 称 为 谓词 锁 ( predicate locking) 。 

然而 ， 这 种 封锁 代价 大 ， 因 此 实际 中 很 少 使 用 。 


14. 11 总结 


。 事务 是 一 个 程序 执行 单位 ， 它 访问 且 可 能 更 新 不 同 的 数据 项 。 理 解 事务 这 个 概念 对 于 理解 与 实现 数 
据 库 中 的 数据 更 新 是 很 关键 的 ， 只 有 这 样 才能 保证 并 发 执行 与 各 种 故障 不 会 导致 数据 库 处 于 不 一 致 
状态 。 

。 事务 具有 ACID 特性 : 原子 性 、 一 致 性 、 隔 离 性 、 持 久 性 。 

O 原子 性 保证 事务 的 所 有 影响 在 数据 库 中 要 么 全 部 反映 出 来 ， 要 么 根本 不 反映 ; 一 个 故障 不 能 让 数 

据 库 处 于 事务 部 分 执行 后 的 状态 。 

O 一 致 性 保证 若 数据 库 一 开始 是 一 致 的 ， 则 事务 (单独 ) 执行 后 数据 库 仍 处 于 一 致 状态 。 

O 隔离 性 保证 并 发 执行 的 事务 相互 隔离 ， 使 得 每 个 事务 感觉 不 到 系统 中 其 他 事务 的 并 发 执行 。 

O 持久 性 保证 一 旦 一 个 事务 提交 后 ， 它 对 数据 库 的 改变 不 会 丢失 ， 即 使 系统 可 能 出 现 故 障 。 

事务 的 并 发 执行 提高 了 事务 吞吐 量 和 系统 利用 率 ， 也 减少 了 事务 等 待 时 间 。 

计算 机 中 不 同 的 存储 介质 包括 易 失 性 存储 器 、 非 易 失 性 存储 器 和 稳定 性 存储 器 。 易 失 性 存储 器 ( 例如 

RAM) 中 的 数据 当 计算 机 崩溃 时 丢失 。 非 易 失 性 存储 器 ( 如 磁盘 ) 中 的 数据 在 计算 机 崩溃 时 不 会 丢失 ， 

但 是 可 能 会 由 于 磁盘 崩溃 而 丢失 。 稳 定性 存储 器 中 的 数据 永远 不 会 丢失 。 

。 必须 支持 在 线 访问 的 稳定 性 存储 器 与 磁盘 镜像 或 者 其 他 形式 的 提供 元 余数 据 存储 的 RAID 接近 。 对 
于 离线 或 归档 的 情况 ， 稳 定性 存储 器 可 以 由 存储 在 物理 安全 位 置 的 数据 的 多 个 磁带 备份 所 构成 。 

。 多 个 事务 在 数据 库 中 并 发 执行 时 ， 数 据 的 一 致 性 可 能 不 再 维持 。 因 此 系统 必须 控制 各 并 发 事务 之 间 


























的 相互 作用 。 
O 由 于 事务 是 保持 一 致 性 的 单元 ， 所 以 事务 的 串 行 执行 能 保持 一 致 性 。 
655 O 调度 捕获 影响 事务 并 发 执行 的 关键 操作 ， 如 read 和 write 操作 ， 而 忽略 事务 执行 的 内 部 细节 。 
O 我 们 要 求 事务 集 的 并 发 执行 所 产生 的 任何 调度 的 执行 效果 等 价 于 由 这 些 事务 按 某 种 串 行 顺序 执行 
的 效果 。 
O 保证 这 个 特性 的 系统 称 为 保证 了 可 串 行 化 。 
DO 存在 几 种 不 同 的 等 价 概念 ， 从 而 引出 了 冲突 可 串 行 化 与 视图 可 串 行 化 的 概念 。 


事务 并 发 执行 所 产生 的 调度 的 可 串 行 化 可 以 通过 多 种 并 发 控制 机 制 中 的 一 种 来 加 以 保证 。 

给 定 一 个 调度 ， 我 们 可 以 通过 为 该 调度 构造 优先 图 及 搜索 是 否 无 环 来 判定 它 是 否 冲突 可 串 行 
化 。 然 而 ， 有 更 好 的 并 发 控制 机 制 可 用 来 保证 可 串 行 化 。 

调度 必须 是 可 恢复 的 ， 以 确保 : 若 事务 a 看 到 事务 b 的 影响 ， 当 6b 中 止 时 ,a 也 要 中 止 。 

调度 最 好 是 无 级 联 的 ， 这 样 不 会 由 于 一 个 事务 的 中 止 引起 其 他 事务 的 级 联 中 止 。 无 级 联 性 是 通 


过 只 允许 事务 读 取 已 提交 数据 来 保证 的 。 


术语 回顾 


。 事务 
。 ACID 特性 
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易 失 性 存储 器 
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稳定 性 存储 器 
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。 故障 恢复 系统 


14. 11 


。 事务 状态 


实践 习题 


。 数据 库 的 并 发 控制 管理 部 件 负责 处 理 并 发 控制 机 制 。 第 15 
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可 见 的 外 部 写 
并 发 执行 

串 行 执行 
调度 


第 14 章 事 


阐述 并 发 控制 机 制 。 


操作 冲突 
冲突 等 价 
冲突 可 串 行 化 
可 串 行 化 判定 
优先 图 

可 串 行 化 顺序 
可 恢复 调度 
级 联 回 滚 
无 级 联 调度 
并 发 控制 机 制 
封锁 

多 版 本 
快照 隔离 


假设 存在 永远 不 出 现 故障 的 数据 库 系统 ， 对 这 样 的 系统 还 需要 故障 恢复 管理 器 吗 ? 


14.2 考虑 一 个 文件 系统 ， 比 如 你 最 喜欢 的 操作 系统 的 文件 系统 ， 
a 创建 和 删除 文件 分 别 包括 哪些 步骤， 向 文件 中 写 数 据 呢 ? 


b. 试 说 明 原 子 性 和 持久 性 问题 与 创建 和 删除 文件 以 及 向 文件 中 写 数据 有 什么 关系 。 


14.3 ”数据 库 系统 实现 者 比 文件 系统 实现 者 更 注意 ACID 特性 ， 为 什么 会 这 样 ? 
14.4 论证 下 面 的 说 法 : 必须 从 ( 慢 速 的 ) 磁 盘 获 取 数 据 或 执行 长 事务 时 ， 事 务 的 并 发 执行 更 为 重要 ， 而 当 


数据 存在 于 主 存 中 且 事务 非常 短 时 ， 没 那么 重要 。 


化 呢 ? 


的 回答 。 


14.6 考虑 图 14-16 所 示 的 优先 图 ， 相 应 的 调度 是 冲突 可 串 行 化 的 吗 ? 解释 你 


14.7 什么 是 无 级 联 调度 ? 为 什么 要 求 无 级 联 调度 ? 是 否 存在 要 求 允 许 级 联 
调度 的 情况 ?解释 你 的 回答 。 

14.8 ”丢失 更 新 (lost update) 异常 是 指 如 果 事务 T 读 取 了 一 个 数据 项 ， 然 后 另 
一 个 事务 T, 写 该 数据 项 ( 可 能 基于 先前 的 读 取 ) ， 然 后 T, 写 该 数据 项 。 
TFET, 所 做 的 更 新 丢失 了 ， 因 为 7 的 更 新 覆盖 了 7, 写 入 的 值 。 


a 给 出 一 个 表示 丢失 更 新 异常 的 调度 实例 。 


b 给 出 一 个 表示 丢失 更 新 异常 的 调度 实例 ， 表 明 在 已 提交 读 隔离 性 级 
别 下 该 异常 也 可 能 存在 。 

c. 解释 为 什么 在 可 重复 读 隔 离 性 级 别 下 丢失 更 新 异常 不 可 能 发 生 。 
14.9 考虑 一 个 采用 快照 隔离 的 银行 数据 库 系 统 。 描 述 一 个 出 现 非 可 串 行 化 


调度 会 为 银行 带 来 问题 的 特定 场景 。 


好 的 整体 性 能 而 愿意 接受 的 特定 场景 。 


的 优先 图 


务 


14.5 ”既然 每 一 个 冲突 可 串 行 化 调度 都 是 视图 可 串 行 化 的 ， 我 们 为 什么 强调 冲突 可 串 行 化 而 非 视图 可 串 行 


图 14-16 实践 习题 14.6 


14.10 考虑 一 个 采用 快照 隔离 的 航空 公司 数据 库 系统 。 描 述 一 个 出 现 非 可 串 行 化 调度 但 是 航空 公司 为 了 更 


一 个 调度 的 定义 假设 操作 可 以 完全 按时 间 顺 序 排列 。 考 虑 一 个 运行 在 多 处 理 器 系统 上 的 数据 库 系统 ， 
它 并 不 总 是 能 对 于 运行 在 不 同 处 理 器 上 的 操作 确定 一 个 准确 的 顺序 。 但 是 ， 一 个 数据 项 上 的 操作 全 
部 可 以 排序 。 
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以 上 情况 是 否 对 冲突 可 串 行 化 的 定义 造成 问题 ? 解释 你 的 答案 。 
习题 
14.12 列 出 ACID 特性 ， 解 释 每 一 特性 的 用 途 。 
14. 13 事务 从 开始 执行 直到 提交 或 终止 ， 其 间 要 经 过 几 个 状态 。 列 出 所 有 可 能 出 现 的 事务 状态 序列 ， 解 释 
每 一 种 状态 变迁 出 现 的 原因 。 
14. 14 解释 串 行 调度 和 可 串 行 化 调度 的 区 别 。 
14.15 考虑 以 下 两 个 事务 : 
T,,; read(A): 
read(B) ; 
if A=0 then B:= B + 1; 
write( B); 
Ta: read(B) ; 
read(A) ; 
if B =0 then A;= A + l; 
write(A) ; 
设 一 致 性 需求 为 4=0 V B =0， 初 值 是 4=B=0。 
a. 说 明 包括 这 两 个 事务 的 每 一 个 串 行 执行 都 保持 数据 库 的 一 致 性 。 
b. 给 出 Ti3 和 7 的 一 次 并 发 执行 ， 执 行 产生 不 可 串 行 化 调度 。 
c 存在 产生 可 串 行 化 调度 的 To 和 Ts 的 并 发 执行 吗 ? 
14. 16 ”给 出 两 个 事务 的 一 个 串 行 化 调度 的 例子 ， 其 中 事务 的 提交 顺序 与 串 行 化 序列 不 同 。 
14.17 ”什么 是 可 恢复 调度 ”为 什么 要 求 调度 的 可 恢复 性 ? 存在 要 求 允 许 出 现 不 可 恢复 调度 的 情况 吗 ” 解释 
你 的 回答 。 
14. 18 ”为 什么 数据 库 系统 支持 事务 的 并 发 执行 ， 尽 管 需要 额外 编程 工作 来 确保 并 发 执行 不 会 引起 任何 问题 ? 
14. 19 解释 为 何 已 提交 读 隔离 性 级 别 保证 调度 是 无 级 联 的 。 
14.20 ”对 于 以 下 隔离 性 级 别 ， 给 出 一 个 满足 该 隔离 性 级 别 但 不 是 可 串 行 化 的 调度 实例 ; 
a 未 提交 读 
b. 已 提交 读 
c. 可 重复 读 
14.21 假设 除了 read 和 write 操作 ， 我 们 允许 一 个 操作 pred_read(r, P) 读 取 关 系 r 中 所 有 满足 谓词 P HY 
元 组 。 
a. 给 出 一 个 使 用 pred_read 的 调度 实例 来 展示 一 个 有 幻象 现象 的 非 可 串 行 化 调度 。 
b. 给 出 一 个 调度 实例 ， 其 中 一 个 事务 在 关系 r+ 上 用 pred_read， 另 一 个 事务 删除 > 中 的 一 个 元 组 , 但 
是 调度 中 没有 幻象 冲突 。( 为 此 ， 你 需要 给 出 关系 7 的 表 结 构 ， 并 且 显 示 被 删除 元 组 的 值 ) 。 


文献 注解 


Gray 和 Reuter[ 1993 ] 在 其 教科 书 中 全 面 讨 论 了 事务 处 理 的 概念 、 技 术 和 实现 ， 包 括 并 发 控制 和 恢复 问 
题 。Bernstein 和 Newcomer[ 1997] 在 其 教科 书 中 讨论 了 事务 处 理 的 多 个 方面 。 

Eswaran 等 [1976 ] 对 可 串 行 化 的 概念 进行 了 形式 化 描述 ， 这 是 同 他 们 在 System R 的 并 发 控制 上 的 工作 相 
关联 的 。 

事务 处 理 各 个 具体 方面 (如 并 发 控制 和 故障 恢复 ) 的 参考 文献 见 第 15、16 和 26 章 。 


第 15 章 


Database System Concepts, 6E 


并 发 控制 


在 第 14 章 中 我 们 了 解 了 事务 最 基本 的 特性 之 一 是 隔离 性 。 然 而 ， 当 数据 库 中 有 多 个 事务 并 发 执行 
时 ， 事 务 的 隔离 性 不 一 定 能 保持 。 为 保持 事务 的 隔离 性 ， 系 统 必 须 对 并 发 事务 之 间 的 相互 作用 加 以 控 
制 ; 这 种 控制 是 通过 一 系列 机 制 中 的 一 个 称 为 并 发 控制 的 机 制 来 实现 的 。 第 26 章 讨论 允许 非 可 串 行 化 
调度 的 并 发 控制 机 制 。 在 这 一 章 中 ,我 们 考虑 并 发 执行 事务 的 管理 ， 并 且 我 们 忽略 故障 。 第 16 章 将 讨 
论 系 统 如 何 从 故障 中 恢复 。 

诚 如 我 们 将 会 看 到 的 ， 并 发 控制 有 许多 种 机 制 。 没 有 哪 种 机 制 是 明显 最 好 的 ; 每 种 机 制 都 有 优势 . 
在 实践 中 ， 最 常用 的 机 制 有 两 阶段 封锁 和 快照 隔离 。 


15.1 基于 锁 的 协议 


确保 隔离 性 的 方法 之 一 是 要 求 对 数据 项 以 互 斥 的 方式 进行 访问 ; 换 句 话说 ， 当 一 个 事务 访问 某 个 
数据 项 时 ， 其 他 任何 事务 都 不 能 修改 该 数据 项 。 实 现 该 需求 最 常用 的 方法 是 只 允许 事务 访问 当前 该 事 
务 持 有 锁 (lock) 的 数据 项 。14. 9 节 介绍 过 锁 的 概念 。 

15.1.1 锁 


给 数据 项 加 锁 的 方式 有 多 种 ， 在 这 一 节 中 ,我们 只 考虑 两 种 : 

1. 共享 的 (shared) : 如 果 事 务 T, 获得 了 数据 项 0 上 的 共享 型 锁 ( shared-mode lock) ( 记 为 S) ， 则 
T; 可 读 但 不 能 写 0。 

2. 排他 的 (exclusive) : 如 果 事 务 T, 获得 了 数据 项 0 上 的 排他 型 锁 (exclusive-mode lock) ( 记 为 X)， 
WT, 既 可 读 又 可 写 @。 

我 们 要 求 每 个 事务 都 要 根据 自己 将 对 数据 项 0 进行 的 操作 类 型 申请 (request) 适 当 的 锁 。 该 事务 将 
请 求 发 送 给 并 发 控制 管理 器 。 事 务 只 有 在 并 发 控制 管理 器 授予 (grant) 所 需 锁 后 才能 继续 其 操作 。 这 两 
种 锁 类 型 的 使 用 可 以 让 多 个 事务 读 取 一 个 数据 项 但 是 限制 同时 只 能 有 一 个 事务 进行 写 操作 。 

更 普遍 地 说 ， 对 于 给 定 的 一 个 锁 类 型 集合 ， 我们 可 在 它们 上 按 如 下 方式 定义 一 个 相 容 函数 
(compatibility function); 令 4 与 B 代 表 任意 的 锁 类 型 ,假设 事务 T, 请 求 对 数据 项 0 加 4 类 型 锁 ， 而 事 
FTT, ÆT) 当前 在 数据 项 CO 上 拥有 B 类 型 锁 。 尽 管 数据 项 O 上 存在 B 类 型 锁 ， 如 果 事 务 T, 可 以 立即 
获得 数据 项 Q 上 的 锁 ， 则 我 们 就 说 4 类 型 锁 与 B 类 型 锁 是 相 容 的 (compatible)。 这 样 的 一 个 函数 可 以 通 
过 和 矩阵 方便 地 表示 出 来 。 本 节 所 用 的 两 类 锁 的 相 容 关系 由 图 15-1 所 示 的 矩阵 comp 给 出 。 当 且 仅 当 类 
型 4 与 类 型 B 是 相 容 的 ， 该 矩阵 的 一 个 元 素 comp(4，B) 具 有 true 值 。 


注意 共享 型 与 共享 型 是 相 容 的 ， 而 与 排他 型 不 相 容 。 在 任何 时 候 ， pectin 
一 个 具体 的 数据 项 上 可 同时 有 (被 不 同 的 事务 持 有 的 ) 多 个 共享 锁 。 此 BF tue 
后 的 排他 锁 请 求 必须 一 直 等 待 直 到 该 数据 项 上 的 所 有 共享 锁 被 释放 。 k 


一 个 事务 通过 执行 lock-S( 0) 指令 来 申请 数据 项 0 上 的 共享 锁 。 
类 似 地 ， 一 个 事务 通过 执行 lock-X( O ) 指令 来 申请 排他 锁 。 一 个 事务 “图 15-1 人 锁 相 容 性 矩阵 comp 
能 够 通过 unlock (Q) 指令 来 释放 数据 项 0 上 的 锁 。 

要 访问 一 个 数据 项 ,事务 7 必须 首先 给 该 数据 项 加 锁 。 如 果 该 数据 项 已 被 男 一 事务 加 上 了 不 相 容 
类 型 的 锁 ， 则 在 所 有 其 他 事务 持 有 的 不 相 容 类 型 锁 被 释放 之 前 ， 并 发 控制 管理 器 不 会 授予 锁 。 因 此 ， 
T, 只 好 等 待 (wait) ， 直 到 所 有 其 他 事务 持 有 的 不 相 容 类 型 锁 被 释放 。 
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事务 T, 可 以 释放 先前 加 在 某 个 数据 项 上 的 锁 。 注 意 ， 一 个 事务 只 要 还 在 访问 数据 项 ， 它 就 必须 拥 
有 该 数据 项 上 的 锁 。 此 外 ， 让 事务 在 对 数据 项 作 最 后 一 次 访问 后 立即 释放 该 数据 项 上 的 锁 也 未 必 是 可 


取 的 ， 因 为 有 可 能 不 能 保证 可 串 行 性 。 


举 一 个 例子 ， 再 考虑 我 们 在 第 14 章 中 介绍 的 银行 业务 系统 。 CAH BRHF T, 


5 T, 访问 的 两 个 


账户 ,事务 T, 从 账户 B 转 50 美元 到 账户 4 上 ( 见 图 15-2), BHT, 显示 账户 4 与 B 上 的 总 金额 ， 即 


A4+B( 见 图 15-3), 


Ti: lock-x(B); 

read(B); 
B := B — 50; 
write(B); To: lock-S(A); 
unlock(B); read(A); 
lock-x(A); unlock(A); 
read(A); lock-S(B); 
A:=A+50; read(B); 
write(A); unlock(B); 
unlock(A). display(A + B). 

图 15-2 事务 7 图 15-3 34 T, 


假设 账户 4 与 B 的 金额 分 别 为 100 美元 与 200 美元 。 如 果 这 两 个 事务 串 行 执行 ， 
T, 的 顺序 执行 ， 则 事务 T, 将 显示 的 值 为 300 美元 。 然 而 ， 如 果 两 个 事务 并 发 地 执行 ， 


AT T, KT, . 
则 有 可 能 出 现 如 


15-4 所 示 的 调度 1。 在 这 种 情况 下 ， 事 务 T, ER 250 美元 ， 这 是 不 对 的 。 出 现 这 种 错误 的 原因 是 由 


于 事务 7 过 早 释放 数据 项 B 上 的 锁 ， 从 而 导致 事务 T, 看 到 一 个 不 一 致 的 状态 。 











Tı oh ”并 发 控制 管理 器 
lock-x(B) 
grant-x(B, Tı) 
read(B) | 
B:=B—50 
write( B) 
unlock( B) 
lock-S(A) 
grant-S(A, T>) 
read( A) | 
unlock(.4) 
lock-S(B) 
| grant-S(B, T>) 
read(B) | 
unlock( 3) 
display(A + B) 
lock-x(A) 
| grant-x(A, Tı) 
read( 4) 
A:=A~+50 
write( A) 
unlock(A) 
图 15-4 调度 1 


该 调度 显示 了 事务 执行 的 动作 以 及 并 发 控制 管理 器 授权 加 锁 的 时 Ts: lock-x(B); 


刻 。 申 请 加 锁 的 事务 在 并 发 控制 管理 器 授权 加 锁 之 前 不 能 执行 下 一 个 动 
作 。 因 此 ， 锁 的 授予 必然 是 在 事务 申请 锁 操 作 与 事务 的 下 一 动作 的 间隔 
内 。 至 于 在 此 期 间 内 授权 加 锁 的 准确 时 间 并 不 重要 ; 我 们 不 妨 假设 锁 正 
好 在 事务 的 下 一 动作 前 获得 。 因 此 ， 在 本 章 余 下 部 分 所 描述 的 调度 中 我 
们 将 去 掉 并 发 控制 管理 器 授予 锁 的 那 一 栏 。 我 们 让 读者 自己 去 推断 何 时 
授予 锁 。 


read(B); 

B := B — 50; 
write(B); 
lock-x(A); 
read(A); 
A:=A+50; 
write(A); 
unlock(B); 
unlock(A). 


现在 假定 事务 结束 后 才 释 放 锁 。 事 务 T 对 应 于 7, ， 它 延迟 了 锁 释 放 图 15-5 事务 7 
( 见 图 15-5)， 事务 T, 对 应 于 于 ， 它 延迟 了 锁 释放 ( 见 图 15-6) 。 (事务 T, 延迟 释放 锁 ) 
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你 可 以 验证 ,在 调度 1 中 导致 显示 不 准确 总 和 250 美元 的 读 写 顺序 ， 在 事务 7 与 7, 的 调度 中 没有 
再 出 现 的 可 能 。 我 们 也 可 以 用 别 的 一 些 调 度 ， 在 任何 调度 当中 ，7, 将 不 Ty: lock-S(A); 


会 显示 不 一 致 的 结果 ; 稍 后 我 们 将 明白 其 中 缘由 。 lock-S(B); 
遗憾 的 是 ， 封 锁 可 能 导致 一 种 不 受 欢迎 的 情形 。 考 察 如 图 15-7 所 示 read(B); 

的 有 关 事务 T, 与 7, 的 部 分 调度 ， 由 于 7, 在 上 拥有 排他 锁 ， 而 T, 正在 ee 

申请 8 上 的 共享 锁 ， 因 此 T, 等 待 7 释放 B 上 的 锁 ; 类 似 地 ， 由 于 T, 在 unlock(B). 


4 上 拥有 共享 锁 ， 而 7, 正在 申请 4 上 的 排他 锁 ， 因 此 T 等 待 7, 释放 4 ”图 15-6 事务 7 
上 的 锁 。 于 是 ,我 们 进入 了 这 样 一 种 哪个 事务 都 不 能 正常 执行 的 状态 ， (事务 7 延迟 释放 锁 ) 
这 种 情形 称 为 死 锁 ( deadlock) 。 当 死 锁 发 生 时 ， 系 统 必 须 回 滚 两 个 事务 中 
的 一 个 。 一 旦 某 个 事务 回 滚 ， 该 事务 锁 住 的 数据 项 就 被 解锁 ， 其 他 事务 就 可 以 访问 这 些 数据 项 ， 继 续 
自己 的 执行 。15. 2 节 将 再 讨论 死 锁 处 理 这 个 问题 。 

我 们 如 果 不 使 用 封锁 ， 或 者 我 们 对 数据 项 进行 读 写 之 后 立即 解锁 ， 那 么 ‘ 
我 们 可 能 会 进入 不 一 致 的 状态 。 另 一 方面 ， 如 果 在 申请 对 另 一 数据 项 加 锁 之 。 “iockx(B) 
前 如 果 我 们 不 对 当前 锁 住 的 数据 项 解锁 ， 则 可 能 会 发 生死 锁 。 在 某 些 情形 下 read(B) 








有 办 法 避免 死 锁 ， 我 们 将 在 15. 1.5 节 讨论 。 然 而 ， 一 般 而 言 ， 如 果 我 们 为 wre | 

了 避免 不 一 致 状态 而 采取 封锁 ， 则 死 锁 是 随 之 而 来 的 必然 产物 。 产 生死 锁 显 全 
然 比 产生 不 一 致 状态 要 好 ， 因 为 它们 可 以 通过 回 滚 事务 加 以 解决 ， 而 不 一 至 lock-s(B) 
状态 可 能 引起 现实 中 的 问题 ， 这 是 数据 库 系统 不 能 处 理 的 。 86 


我 们 将 要 求 在 系统 中 的 每 一 个 事务 遵从 称 为 封锁 协议 (locking protocol ) 图 15-7 调度 2 
的 一 组 规则 ， 这 些 规 则 规定 事务 何 时 对 数据 项 们 进行 加 锁 、 解 锁 。 封 锁 协 议 
限制 了 可 能 的 调度 数目 。 这 些 调度 组 成 的 集合 是 所 有 可 能 的 可 串 行 化 调度 的 一 个 真子 集 。 我 们 将 讲述 
几 个 封锁 协议 ， 它 们 只 人 允许 冲突 可 串 行 化 调度 ， 从 而 保证 隔离 性 。 在 此 之 前 ， 我 们 需要 先 给 出 几 个 

SiD, T, e, ,| 是 参与 调度 5 的 一 个 事务 集 ， 如 果 存 在 数据 项 @， 使 得 下 在 Q 上 持 有 4 型 锁 ， 
EX, T, Æ Q ERA BAS, H comp(A, B) =false， 则 我 们 称 在 S 中 7; 先 于 (precede)T， 记 为 7. 一 
To WR 7. 一 7,， 这 一 居 先 意味 着 在 任何 等 价 的 串 行 调 度 中 ,7 必须 出 现在 7 之前。 注意 这 个 图 与 
14.6 节 中 用 于 检测 冲突 可 串 行 性 的 优先 图 是 类 似 的 。 指 令 之 间 的 冲突 对 应 于 锁 类 型 之 间 的 不 相 容 性 。 

如 果 调 度 S 是 那些 遵从 封锁 协议 规则 的 事务 集 的 可 能 调度 之 一 ， 我 们 称 调度 5 在 给 定 的 封锁 协议 
下 是 合法 的 (legal)。 当 且 仅 当 其 所 有 合法 的 调度 为 冲突 可 串 行 化 时 ， 我们 称 一 个 封锁 协议 保证 
(ensure) 冲突 可 串 行 性 ; 换 句 话 说， 对 于 任何 合法 的 调度 ， 其 关联 的 一 关系 是 无 环 的 。 
15.1.2 锁 的 授予 

当 事 务 申 请 对 一 个 数据 项 加 某 一 类 型 锁 ， 且 没有 其 他 事务 在 该 数据 项 上 加 上 了 与 此 类 型 相 冲 突 的 
锁 ， 则 可 以 授予 锁 。 然 而 ， 必 须 小 心 防止 出 现下 面 的 情形 。 假 设 事务 T, 在 一 数据 项 上 持 有 共享 锁 ， 另 
一 事务 7, 申请 在 该 数据 项 加 排他 锁 。 显 然 ， 事务 7 必须 等 待 事务 T, 释放 共享 锁 。 同 时 ， 事 务 7, 可 能 
申请 对 该 数据 项 加 共享 锁 ， 加 锁 请 求 与 已 授予 T 的 锁 是 相 容 的 ， 因 此 可 以 授权 7, 加 共享 锁 。 此 时 ， 
T, 可 能 释放 锁 , 但 T, 还 必须 等 待 7, 完成 。 可 是 ， 可 能 又 有 一 个 新 的 事务 7, 申请 对 该 数据 项 加 共享 
M, HET, 完成 之 前 授予 锁 。 事 实 上 ， 有 可 能 存在 一 个 事务 序列 ， 其 中 每 个 事务 申请 对 该 数据 项 加 共 
享 锁 ， 每 个 事务 在 授权 加 锁 后 一 小 段 时 间 内 释放 锁 ， 而 7, 总 是 不 能 在 该 数据 项 上 加 排他 锁 。 事 务 7 
可 能 永远 不 能 取得 进展 ， 这 称 为 饿 死 ( starved ) 。 

我 们 可 以 通过 按 如 下 方式 授权 加 锁 来 避免 事务 饿 死 ， 当 事务 7, 申请 对 数据 项 Q 加 MM 型 锁 时 ， 并 发 
控制 管理 器 授权 加 锁 的 条 件 是 : 

1. 不 存在 在 数据 项 0 上 持 有 与 M 型 锁 冲 突 的 锁 的 其 他 事务 。 

2. 不 存在 等 待 对 数据 项 0 加 锁 且 先 于 T 申请 加 锁 的 事务 。 

因此 ， 一 个 加 锁 请 求 就 不 会 被 其 后 的 加 锁 申请 阻塞 。 
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15. 1.3 两 阶段 封锁 协议 

保证 可 串 行 性 的 一 个 协议 是 两 阶段 封锁 协议 (two-phase locking protocol) 。 该 协议 要 求 每 个 事务 分 两 
个 阶段 提出 加 锁 和 解锁 申请 。 

1. 增长 阶段 (growing phase) : 事务 可 以 获得 锁 ， 但 不 能 释放 锁 。 

2. 缩减 阶段 (shrinking phase): 事务 可 以 释放 锁 ， 但 不 能 获得 新 锁 。 

最 初 ， 事 务 处 于 增长 阶段 ， 事 务 根据 需要 获得 锁 。 一 旦 该 事务 释放 了 锁 ， 它 就 进入 了 缩减 阶段 ， 
并 且 不 能 再 发 出 加 锁 请 求 。 

fin, #37, 57, 是 两 阶段 的 。 与 此 相反 ， 事 务 T, ST, 不 是 两 阶段 的 。 注 意 ， 解 锁 指 令 不 必 非 
得 出 现在 事务 末尾 。 例 如 ， 就 事务 T, 而 言 ， 我 们 可 以 把 unlock(B) 指 令 放 在 紧 跟 指 令 lock-X(4) 之 后 ， 
并 且 仍 然 保持 两 阶段 封锁 特性 。 

我 们 可 以 证 明 两 阶段 封锁 协议 保证 冲突 可 串 行 化 。 对 于 任何 事务 ， 在 调度 中 该 事务 获得 其 最 后 加 
锁 的 位 置 (增长 阶段 结束 点 ) 称 为 事务 的 封锁 点 (lock point) 。 这 样 ， 多 个 事务 可 以 根据 它们 的 封锁 点 进 
行 排序 ， 实 际 上 ， 这 个 顺序 就 是 事务 的 一 个 可 串 行 化 顺序 。 我 们 将 此 证 明 留 为 习题 ( 见 实 践 习 题 
15.1), 

两 阶段 封锁 并 不 保证 不 会 发 生死 锁 。 不 难 发 现 事务 7, 与 7, 是 两 阶段 的 ， 但 在 调度 2 中 (如 图 15-7 
所 示 ) ， 它 们 却 发 生死 锁 。 

回想 一 下 ,在 14.7.2 节 中 ,除了 调度 可 串 行 化 外 ， 调 度 还 应 该 是 无 级 联 的 。 在 两 阶段 封锁 协议 
下 ,级 联 回 滚 可 能 发 生 。 作 为 示例 ， 考 虑 如 图 15-8 所 示 的 部 分 调度 。 每 个 事务 都 遵循 两 阶段 封锁 协 
议 , 但 在 事务 T, 的 read(A) 步骤 之 后 事务 7; 发 生 故障 ， 从 而 导致 7 与 7 级 联 回 滚 。 

级 联 回 滚 可 以 通过 将 两 阶段 封锁 修改 为 严格 两 阶段 封锁 协议 ( strict two-phase locking protocol ) 加 以 

避免 。 这 个 协议 除了 要 求 封 锁 是 两 阶段 之 外 ， 还 要 求 事务 持 有 的 所 有 排他 锁 必 须 在 事务 提交 后 方 可 释 

放 。 这 个 要 求 保 证 未 提交 事务 所 写 的 任何 数据 在 该 事务 提交 之 前 均 以 排他 方式 加 锁 ， 防 止 其 他 事务 读 











另 一 个 两 阶段 封锁 的 变 体 是 强 两 阶段 封锁 协议 (rigorous two-phase locking protocol) , ， 它 要 求 事务 提 
交 之 前 不 得 释放 任何 锁 。 我 们 很 容易 验证 在 强 两 阶段 封锁 条 件 Ts Ts | a 
下 ， 事 务 可 以 按 其 提交 的 顺序 串 行 化 。 lock-x(A) 
考察 下 面 两 个 事务 ， 我 们 只 写 出 了 其 中 较为 重要 的 read 与 nee 
write 指令 : read(B) | 
Ts: read(a, ); ey | 
read(a,) ; lock-x(A) 
‘iso read(A) 
read(a,) ; write(A) 
wie ): | avata 
T,: read(a,) ; | read(A) 
read( a, ) ; 


Sages, 二 地 可 图 15-8 在 两 阶段 封锁 下 的 部 分 调度 


如 果 我 们 采用 两 阶段 封锁 协议 ， 则 7 必须 对 a 加 排他 锁 。 因 此 ， 两 个 事务 的 任何 并 发 执行 方式 都 
相当 于 串 行 执行 。 然 而 ， 请 注意 ，7, 仅 在 其 执行 结束 ， 写 a 时 需要 对 w 加 排他 锁 。 因 此 ， 如 果 T, 开 
始 时 对 a, 加 共享 锁 ， 然后 在 需要 时 将 其 变更 为 排他 锁 ， 那 么 我 们 可 以 获得 更 高 的 并 发 度 ， 因 为 7. 与 7， 
可 以 同时 访问 a, 与 a,。 

以 上 观察 提示 我 们 对 基本 的 两 阶段 封锁 协议 加 以 修改 ， 使 之 允许 锁 转 换 (lock conversion) 。 我 们 将 
提供 一 种 将 共享 锁 升 级 为 排他 锁 ， 以 及 将 排他 锁 降 级 为 共享 锁 的 机 制 。 我 们 用 升级 (upgrade ) 表示 从 共 
享 到 排他 的 转换 ， 用 降级 (downgrade ) 表示 从 排他 到 共享 的 转换 。 锁 转换 不 能 随意 进行 。 锁 升级 只 能 发 

生 在 增长 阶段 ， 而 锁 降 级 只 能 发 生 在 缩减 阶段 。 

回 到 我 们 的 例子 ， 事 务 及 与 7, 可 在 修改 后 的 两 阶段 封锁 协议 下 并 发 执行 ， 如 图 15-9 所 示 ， 其 中 

的 调度 是 不 完整 的 ， 它 只 给 出 了 一 些 封 锁 指 令 。 
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注意 ， 事 务 试 图 升级 数据 项 0 上 的 锁 时 可 能 不 得 不 等 待 。 这 种 情况 发 生 在 另 一 个 事务 当前 对 @ 持 








有 共享 锁 时 。 Ts Ts 
像 基 本 的 两 阶段 封锁 协议 一 样 ， 具 有 锁 转 换 的 两 阶段 封锁 协议 只 产生 ocksa) 

冲突 可 趾 行 化 的 调度 ， 并 且 事 务 可 以 根据 其 封锁 点 作 串 行 化。 此 外 , 如果 osa | OSO 

排他 锁 直 到 事务 结束 时 才 释 放 ， 则 调度 是 无 级 联 的 。 © | lock-s(a2) 
对 于 一 个 事务 集 ， 可 能 存在 某 些 不 能 通过 两 阶段 封锁 协议 得 到 的 冲突 Ice) 

可 串 行 化 调度 。 然 而 ， 如 果 要 通过 非 两 阶段 封锁 协议 得 到 冲突 可 串 行 化 调 unlock(a1) 

度 ， 我 们 或 者 需要 事务 的 附加 信息 ， 或 者 要 求 数据 库 中 的 数据 项 集合 有 一 。 iock sw | mom) 

定 的 结构 或 顺序 。 在 本 章 后 面 当 我 们 考虑 其 他 封锁 协议 时 ， 我 们 将 看 到 upgrade(a) 

ats 图 15-9 带 有 锦 转 换 的 
严格 两 阶段 封锁 与 强 两 阶段 封锁 ( 含 锁 转 换 ) 在 商用 数据 库 系统 中 广泛 不 完整 调度 

使 用 。 


这 里 介绍 一 种 简单 却 广泛 使 用 的 机 制 ， 它 基于 来 自 事务 的 读 、 写 请 求 ， 自 动 地 为 事务 产生 适当 的 
加 锁 、 解 锁 指 令 : 

。 当 事 务 T, 进行 read( 0) 操 作 时 ， 系 统 就 产生 一 条 lock-S(Q)##4, Wread(Q) 指令 紧 跟 其 后 。 

。 当 事 务 T, 进行 write(Q) 操 作 时 ， 系 统 检查 T, 是否 已 在 CQ 上 持 有 共享 锁 。 若 有 ， 则 系统 发 出 

upgrade( 0) 指 令 ， 后 接 write( 0) 指令。 否则 系统 发 出 lock-X(Q) 指 令 ， 后 接 write( 0) 指 令 。 

。 当 一 个 事务 提交 或 中 止 后 ， 该 事务 持 有 的 所 有 锁 都 被 释放 。 
15.1.4 封锁 的 实现 

锁 管理 器 (lock manager) 可 以 实现 为 一 个 过 程 ， 它 从 事务 接受 消息 并 反馈 消息 。 锁 管理 器 过 程 针 对 
锁 请 求 消息 返回 授予 锁 消 息 ， 或 者 要 求 事务 回 滚 的 消息 (发 生死 锁 时 ) 。 解 锁 消 息 只 需要 得 到 一 个 确认 
回答 ， 但 可 能 引发 为 其 他 等 待 事务 的 授予 锁 消 息 。 

锁 管 理 器 使 用 以 下 数据 结构 : 锁 管 理 器 为 目前 
已 加 锁 的 每 个 数据 项 维护 一 个 链表 ， 每 一 个 请 求 为 
链表 中 一 条 记录 ， 按 请 求 到 达 的 顺序 排序 。 它 使 用 


I7 I23 





23 T T8 T2 
一 个 以 数据 项 名 称 为 索引 的 散 列 表 来 查找 链表 中 的 
数据 项 ( 如 果 有 的 话 ); 这 个 表 叫 做 锁 表 (ock 
table) 。 一 个 数据 项 的 链表 中 每 一 条 记录 表示 由 哪 | | z 


个 事务 提出 的 请 求 ， 以 及 它 请 求 什 么 类 型 的 锁 ， 该 
记录 还 表示 该 请 求 是 否 已 授予 锁 。 一 
图 15-10 是 一 个 锁 表 的 示例 ， 该 表 包 含 5 个 不 门 | 
URGES 14, 17, 123, 144 和 ]912 的 锁 。 锁 表 采 用 站 
溢出 链 ， 因 此 对 于 锁 表 的 每 一 个 表 项 都 有 一 个 数据 
项 的 链表 。 每 一 个 数据 项 都 有 一 个 已 授予 锁 或 等 待 u 
授予 锁 的 事务 列表 , 已 授予 锁 的 事务 用 深 色 阴 影 方 
块 表示 ， 等 待 授予 锁 的 事务 则 用 浅 色 阴 影 方块 表 
示 。 为 了 简化 图 形 我 们 省 略 了 锁 的 类 型 。 举 个 例 
F, 从 图 15-10 中 可 以 看 到 ，T23 在 数据 项 1912 和 
17 上 已 被 授予 锁 ， 并 且 正 在 等 待 在 上 加 锁 。 
虽然 图 15-10 上 没有 标示 出 来 ， 但 锁 表 还 应 当 Ber 
维护 一 个 基于 事务 标识 符 的 索引 ， 这 样 它 可 以 有 效 UES 
地 确定 给 定 事务 持 有 的 锁 集 。 T8 
锁 管 理 器 这 样 处 理 请 求 : 图 15-10” 锁 表 


T23 
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。 当 一 条 锁 请 求 消息 到 达 时 ， 如 果 相 应 数据 项 的 链表 存在 ， 在 该 链表 未 尾 增加 一 个 记录 ; 否则 ， 
新 建 一 个 仅 包 含 该 请 求 记 录 的 链表 。 

在 当前 没有 加 锁 的 数据 项 上 总 是 授予 第 一 次 加 锁 请 求 ， 但 当 事 务 向 已 被 加 锁 的 数据 项 申请 
加 锁 时 ， 只 有 当 该 请 求 与 当前 持 有 的 锁 相 容 ， 并 且 所 有 先前 的 请 求 都 已 授予 锁 的 条 件 下 ， 锁 管 
理 器 才 为 该 请 求 授予 锁 ， 和 否则 ， 该 请 求 只 好 等 待 。 

。 当 锁 管理 器 收 到 一 个 事务 的 解锁 消息 时 ， 它 将 与 该 事务 相对 应 的 数据 项 链表 中 的 记录 删除 ， 然 
后 检查 随后 的 记录 ， 如 果 有 ， 如 前 所 述 ， 就 看 该 请 求 能 否 被 授权 ， 如 果 能 ， 锁 管理 器 授权 该 请 
求 并 处 理 其 后 记录 ， 如 果 还 有 ， 类 似 地 一 个 接 一 个 地 处 理 。 

。 如果 一 个 事务 中 止 ， 锁 管理 器 删除 该 事务 产生 的 正在 等 待 加 锁 的 所 有 请 求 。 一 旦 数据 库 系统 采 
取 适 当 动作 撤销 该 事务 ( 见 16. 3 节 ) ， 该 中 止 事务 持 有 的 所 有 锁 将 被 释放 。 

这 个 算法 保证 了 锁 请 求 无 俄 死 现 象 ， 因 为 在 先前 接收 到 的 请 求 正在 等 待 加 锁 时 ， 后 来 者 不 可 能 获 
得 授权 。 我 们 稍 后 将 在 15. 2. 2 节 学 习 检测 和 处 理 死 锁 。17. 2. 1 节 阐 述 另 一 个 实现 一 一 在 锁 申请 /授权 
上 利用 共享 内 存 取代 消息 传递 。 

15.1.5 基于 图 的 协议 

TEAN 15.1.3 节 提 到 的 ， 如 果 我 们 要 开发 非 两 阶段 协议 ， 我 们 需要 有 关 每 个 事务 如 何 存 取 数据 库 的 
附加 信息 。 有 多 种 不 同 模型 可 以 为 我 们 提供 这 些 附 加 信息 ， 每 一 种 所 提供 的 信息 量 大 小 不 同 。 最 简单 
的 模型 要 求 我 们 事先 知道 访问 数据 项 的 顺序 。 在 已 知 这 些 信息 的 情况 下 ， 有 可 能 构造 出 非 两 阶段 的 封 
锁 协议 ， 并 且 无 论 如 何 ， 仍 然 保 证 冲突 可 串 行 性 。 

670 为 获取 这 些 事 先 的 知识 ， 我 们 要 求 所 有 数据 项 集合 D = | di, dy, © d,| 满足 偏 序 一 ， 如 果 d> 
671 | d;， 则 任何 既 访 问 d, 又 访问 d, 的 事务 必须 首先 访问 di, RAVE 4 。 这 种 偏 序 可 以 是 数据 的 逻辑 或 物 
理 组 织 的 结果 ， 也 可 以 只 是 为 了 并 发 控制 而 加 上 的 。 

偏 序 意 味 着 集合 D 可 以 视 为 有 向 无 环 图 ， 称 为 数据 库 图 ( database graph) 。 在 本 节 中 ， 为 了 简单 起 
见 ， 我 们 只 关心 那些 带 根 树 的 图 。 我 们 将 给 出 一 个 称 为 树 形 协议 的 简单 协议 ， 该 协议 只 使 用 排他 锁 。 
其 他 更 复杂 的 基于 图 的 封锁 协议 可 以 参阅 文献 注解 中 给 出 的 有 关 文献 。 

在 树 形 协议 ( tree protocol) 中 ， 可 用 的 加 锁 指 令 只 有 lock- a) 

X。 每 个 事务 7 对 一 数据 项 最 多 能 加 一 次 锁 ， 并 且 必须 遵从 以 
下 规则 : (a) GS 

1.7 首次 加 锁 可 以 对 任何 数据 项 进行 。 

2. EJE, T, 对 数据 项 0 加 锁 的 前 提 是 7, 当 前 持 有 0 的 父 
项 上 的 锁 。 © (E) 

3. 对 数据 项 解锁 可 以 随时 进行 。 © Ch) 

4. 数据 项 被 7, 加 锁 并 解锁 后 ，7, 不 能 再 对 该 数据 项 加 锁 。 

所 有 满足 树 形 协议 的 调度 是 冲突 可 串 行 化 的 。 

为 了 说 明 这 个 协议 ， 考 察 如 图 15-1 所 示 的 数据 库 图 。 下 Ce 

= A ea ee ee pe 





To: lock-X( B); lock-X(£) ; lock-X(D); unlock(B); unlock( £) ; lock-X(G) ; 
unlock( D); unlock(G). 

Tı: lock-X(D) ; lock-X(H) ; unlock( D); unlock( #). 

T: lock-X(B); lock-X(E); unlock( £); unlock( B). 

Ta: lock-X( D); lock-X(H); unlock( D); unlock( H). 


这 4 个 事务 参与 的 一 个 可 能 的 调度 如 图 15-12 Pra. HER, 在 执行 时 ， 事 务 7, 持 有 两 棵 互相 分 离 
的 子 树 的 锁 。 

不 难 发 现 如 图 15-12 所 示 的 调度 是 冲突 可 串 行 化 的 。 可 以 证 明 树 形 协议 不 仅 保 证 冲突 可 串 行 性 ， 
而 且 保证 不 会 产生 死 锁 。 
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图 15-12 所 示 的 树 形 协议 不 保证 可 恢复 性 和 无 级 联 回 滚 。 为 了 保证 可 恢复 性 和 无 级 联 回 滚 ， 可 以 
将 协议 修改 为 在 事务 结束 前 不 允许 释放 排他 锁 。 直 到 事务 结束 前 一 直 持 有 排他 锁 降低 了 并 发 性 。 这 里 
有 一 个 提高 并 发 性 的 替代 方案 ， 但 它 只 保证 可 恢复 性 : 为 每 一 个 发 生 了 未 提交 写 操作 的 数据 项 ， 我 们 
记录 是 哪个 事务 最 后 对 它 执行 了 写 操 作 ， 当 事务 T, 执行 了 对 未 提交 数据 项 的 读 操作 ， 我 们 就 在 最 后 对 
该 数据 项 执行 了 写 操作 的 事务 上 记录 一 个 了 的 提交 依赖 (commit dependency), ÆA T, 的 提交 依赖 的 所 
有 事务 提交 完成 之 前 ，7 不 得 提交 。 如 果 其 中 任何 一 个 事务 中 止 ，7; 也 必须 中 止 。 





与 两 阶段 封锁 协议 不 同 ， 树 形 协议 不 会 产生 死 锁 ， to Ta ts Ti 
因此 不 需要 回 深 ， 这 一 点 树 形 封锁 协议 要 优 于 两 阶段 lock-x(B) 
封锁 协议 。 树 形 封锁 协议 的 另 一 个 优点 是 可 以 在 较 早 eet 
时 候 释 放 锁 。 较 早 解 锁 减 少 了 等 待 时 间 , 增加 了 并 unlock(D) 

发 性 。 lock-x(E) 
lock-x(D) 


然而 ， 在 某 些 情况 下 ， 该 协议 也 有 其 缺点 ， 事 务 unlock(B) 
有 可 能 必须 给 那些 根本 不 访问 的 数据 项 加 锁 。 例 如 ， "os 
如 果 某 事务 要 访问 图 15-11 所 示 数 据 库 图 中 的 数据 项 4 lock-X(E) 
与 J， 则 该 事务 不 仅 要 给 4 与 加 锁 ， 而且 还 要 给 B、 poo | 0O 
D 与 刀 数 据 项 加 锁 。 这 种 额外 的 封锁 导致 封锁 开销 增 unlook(D) 











加 ， 可 能 造成 额外 的 等 待 时 间 ， 并 且 可 能 引起 并 发 性 oo 
降低 。 此 外 ， 如 果 事 先 没有 得 到 哪些 数据 项 需要 加 锁 uniock(D) 
的 知识 ,事务 将 必须 给 树 根 加 锁 ， 这 会 大 大 降低 并 uniock(E) i 
发 性 。 unlock(B) 

unlock(G) 


对 于 一 个 事务 集 ， 可 能 存在 某 些 不 能 通过 树 形 封 
锁 协 议 得 到 的 冲突 可 串 行 化 调度 。 事 实 上 ， 一 些 两 阶 图 15-12 在 树 形 协议 下 的 可 串 行 化 调度 
段 封 锁 协议 中 可 行 的 调度 在 树 形 封锁 协议 下 是 不 可 行 
的 ， 反 之 亦 然 。 习 题 中 对 这 样 的 调度 的 例子 进行 了 探讨 。 


15.2 死 锁 处 理 


如 果 存 在 一 个 事务 集 ， 该 集合 中 的 每 个 事务 在 等 待 该 集合 中 的 另 一 个 事务 ， 那 么 我 们 说 系统 处 于 
死 锁 状态 。 更 确切 地 说 ， 存 在 一 个 等 待 事务 集 | 7,, 7,,…7,| ,使 得 7 正 等 待 被 7, 锁 住 的 数据 项 ，7, 
正 等 待 被 T, 锁 住 的 数据 项 ，…，7,_, 正 等 待 被 7, 锁 住 的 数据 项 ， 且 T, 正 等 待 被 T 锁 住 的 数据 项 。 在 
这 种 情况 下 ,没有 一 个 事务 能 取得 进展 。 

此 时 ， 系 统 唯一 的 补救 措施 是 采取 激烈 的 动作 ， 如 回 滚 某 些 陷于 死 锁 的 事务 。 事 务 有 可 能 只 部 分 
回 滚 ， 即 事务 回 滚 到 这 样 的 点 之 前 ， 它 在 该 点 得 到 一 个 锁 ， 而 释放 该 锁 就 可 以 解决 死 锁 。 

处 理 死 锁 问题 有 两 种 主要 的 方法 。 我 们 可 以 使 用 死 锁 预防 ( deadlock prevention ) 协议 保证 系统 永 不 
进入 死 锁 状态 。 男 一 种 方法 是 ,我 们 允许 系统 进入 死 锁 状态 ， 然 后 试 着 用 死 锁 检测 ( deadlock detection ) 
与 死 锁 恢复 ( deadlock recovery) 机 制 进行 恢复 。 正 如 我 们 将 要 看 到 的 那样 ， 两 种 方法 均 有 可 能 引起 事务 
回 深 。 如 果 系 统 进入 死 锁 状态 的 概率 相对 较 高 ， 则 通常 使 用 死 锁 预防 机 制 ; 否则 ,使 用 检测 与 恢复 机 
制 会 更 有 效 。 

注意 ， 检 测 与 恢复 机 制 带 来 各 种 开销 ， 不 仅 包括 在 运行 时 维护 必要 信息 及 执行 检测 算法 的 代价 ， 
还 要 包括 从 死 锁 中 恢复 所 固有 的 潜在 损失 。 

15.2.1 死 锁 预防 

预防 死 锁 有 两 种 方法 。 一 种 方法 是 通过 对 加 锁 请 求 进行 排序 或 要 求 同 时 获得 所 有 的 锁 来 保证 不 会 
发 生 循环 等 待 。 另 一 种 方法 比较 接近 死 锁 恢复 ， 每 当 等 待 有 可 能 导致 死 锁 时 ， 进 行事 务 回 滚 而 不 是 等 
待 加 锁 。 

第 一 种 方法 下 最 简单 的 机 制 要 求 每 个 事务 在 开始 之 前 封锁 它 的 所 有 数据 项 。 此 外 ， 要 么 一 次 全 部 
封锁 要 么 全 不 封锁 。 这 个 协议 有 两 个 主要 的 缺点 ，(1) 在 事务 开始 前 通常 很 难 预知 哪些 数据 项 需要 封 
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锁 。(2) 数 据 项 使 用 率 可 能 很 低 ， 因 为 许多 数据 项 可 能 封锁 很 长 时 间 却 用 不 到 。 

防止 死 锁 的 另 一 种 机 制 是 对 所 有 的 数据 项 强加 一 个 次 序 ， 同 时 要 求 事务 只 能 按 次 序 规定 的 顺序 封 
锁 数据 项 。 我 们 曾经 在 树 形 协议 中 讲述 过 一 个 这 样 的 机 制 ， 其 中 采用 一 个 偏 序 的 数据 项 。 

该 方法 的 一 个 变种 是 使 用 数据 项 与 两 阶段 封锁 关联 的 全 序 。 一 旦 一 个 事务 锁 住 了 某 个 特定 的 数据 
项 ， 它 就 不 能 申请 顺序 中 位 于 该 数据 项 前 面 的 数据 项 上 的 锁 。 只 要 在 事务 开始 执行 之 前 ， 它 要 访问 的 
数据 项 集 是 已 知 的 ， 该 机 制 就 容易 实现 。 如 果 使 用 了 两 阶段 封锁 ， 潜 在 的 并 发 控制 系统 就 不 需要 更 改 : 
所 需要 的 是 ， 保 证 锁 的 申请 按照 正确 的 顺序 。 

防止 死 锁 的 第 二 种 方法 是 使 用 抢占 与 事务 回 滚 。 在 抢占 机 制 中 ， 若 事务 7 所 申请 的 锁 已 被 事务 T, 
RA, MET T, 的 锁 可 能 通过 回 滚 事务 T, 被 抢占 (preempted) ， 并 将 锁 授 予 也。 为 控制 抢占 ， 我 们 给 每 
个 事务 赋 一 个 唯一 的 时 间 戳 ， 系 统 仅 用 时 间 戳 来 决定 事务 应 当 等 待 还 是 回 滚 。 并 发 控制 仍 使 用 封锁 机 制 。 
若 一 个 事务 回 滚 ， 则 该 事务 重启 时 保持 原 有 的 时 间 戳 。 已 提出 利用 时 间 戳 的 两 种 不 同 的 死 锁 预防 机 制 : 

1. wait-die 机 制 基 于 非 抢占 技术 。 当 事务 T, 申请 的 数据 项 当前 被 7 持 有 ， 仅 当 了 的 时 间 惟 小 于 了 
的 时 间 戳 ( 即 ，7 HeT, Æ), R T, Ei BW, T, EREC). 

Hi, BBS Ta. TA Tie 的 时 间 戳 分 别 为 5、10 515, WR Tu PREN A TIFA , 
则 ZT, 将 等 待 。 如 果 Te FA HE TE TPA, WU TAR. 

2. wound-wait 机 制 基于 抢占 技术 ， 是 与 wait-die 相反 的 机 制 。 当 事务 T, 申请 的 数据 项 当前 被 了 
RA, M47, HRA 7, WERC, T, 比 7 年轻 ) 时 ， 人 允许 T Ef B, T, ERT, 被 

675] 7 伤害 ) 。 

回 到 前 面 的 例子 ， 对 于 事务 Ti,,、7T; 及 7T,。， 如 果 Ts 申 请 的 数据 项 当前 被 Ts 持 有 ， 则 7, 将 从 7; 抢 
占 该 数据 项 ，7; 将 回 深 。 如 果 Te 申请 的 数据 项 当前 被 7; 持 有 ， 则 7, 将 等 待 。 

两 种 机 制 都 面临 的 主要 问题 是 可 能 发 生 不 必要 的 回 滚 。 

另 一 种 处 理 死 锁 的 简单 方法 基于 锁 超时 (lock timeout)。 在 这 种 方法 中 ， 申 请 锁 的 事务 至 多 等 待 一 
段 给 定 的 时 间 。 若 在 此 期 间 内 未 授予 该 事务 锁 ， 则 称 该 事务 超时 ， 此 时 该 事务 自己 回 滚 并 重启 。 如 果 
确实 存在 死 锁 ， 卷 人 死 锁 的 一 个 或 多 个 事务 将 超时 并 回 滚 ， 人 允许 其 他 事务 继续 。 该 机 制 介 于 死 锁 预 防 
(不 会 发 生死 锁 ) 与 死 锁 检 测 及 恢复 之 间 ， 死 锁 检测 与 恢复 在 15. 2. 2 节 讲 述 。 

超时 机 制 的 实现 极其 容易 ， 并 且 如 果 事 务 是 短 事务 并 且 长 时 间 等 待 很 可 能 由 死 锁 引 起 的 ， 该 机 制 
运作 良好 。 然 而 ， 一 般 而 言 很 难 确定 一 个 事务 超时 之 前 应 等 待 多 长 时 间 。 如 果 已 发 生死 锁 ， 等 待 时 间 
太 长 导致 不 必要 的 延迟 。 如 果 等 待 时 间 太 短 ， 即 便 没 有 死 锁 ， 也 可 能 引起 事务 回 滚 ， 造 成 资源 浪费 。 
该 机 制 也 可 能 会 产生 饿 死 。 因 此 ， 基 于 超时 的 机 制 应 用 有 限 。 

15.2.2 死 锁 检测 与 恢复 

如 果 系 统 没有 采用 能 保证 不 产生 死 锁 的 协议 ,那么 系统 必须 采用 检测 与 恢复 机 制 。 检 查 系统 状态 
的 算法 周期 性 地 激活 ， 判 断 有 无 死 锁 发 生 。 如 果 发 生死 锁 ， 则 系统 必须 试 着 从 死 锁 中 恢复 。 为 实现 这 
一 点 ， 系统 必须 : 

。 维护 当前 将 数据 项 分 配给 事务 的 有 关 信 息 ， 以 及 任何 尚未 解决 的 数据 项 请 求 信息 。 

© 提供 一 个 使 用 这 些 信 息 判 断 系 统 是 否 进 入 死 锁 状态 的 算法 。 

e 当 检 测算 法 判定 存在 死 锁 时 ， 从 死 锁 中 恢复 。 

本 节 详 细 讲 述 上 述 问 题 。 

15. 2.2.1 死 锁 检 测 

死 锁 可 以 用 称 为 等 待 图 ( wait-for graph) 的 有 向 图 来 精确 描述 。 该 图 由 C = (V,，E) 对 组 成 HP V 

EMAR, E 是 边 集 。 顶 点 集 由 系统 中 的 所 有 事务 组 成 ， 边 集 E 的 每 一 元 素 是 一 个 有 序 对 7. 一 7。 如 
KR TT, 属于 EE， 则 存在 从 事务 7, 到 了 的 一 条 有 向 边 ， 表 示 事务 T, 在 等 待 7 释放 所 需 数据 项 。 

当 事 务 T, 申请 的 数据 项 当前 被 7 持 有 时 ， 边 ToT 被 插入 等 待 图 中 。 只 有 当 事 务 7 不 再 持 有 事 
务 T, 所 需 数 据 项 时 ， 这 条 边 才 从 等 待 图 中 删除 。 

当 且 仅 当 等 待 图 包含 环 时 ， 系 统 中 存在 死 锁 。 在 该 环 中 的 每 个 事务 称 为 处 于 死 锁 状 态 。 要 检测 死 
锁 ， 系 统 需 要 维护 等 待 图 ， 并 周期 性 地 激活 一 个 在 等 待 图 中 搜索 环 的 算法 。 
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为 说 明 这 些 概 念 ， 考 虑 图 15-13 所 示 的 等 待 图 ， 它 说 明了 下 面 这 些 情 形 : 
© 事务 7 在 等 待 事务 Tet Too 
。 事务 7 在 等 待 事务 Ts 。 


© 事务 7 在 等 待 事务 Tao 
由 于 该 等 待 图 无 环 ， 因 此 系统 没有 处 于 死 锁 状态 。 @ 
现在 假设 事务 Tu 申请 事务 Ti 持 有 的 数据 项 。 边 7,, 一 7 被 加 入 等 待 
图 中 ， 得 到 图 15-14 所 示 的 系统 新 状态 。 此 时 ， 该 等 待 图 包含 环 : 
Tie—To0— To— Ts 图 15-13 无 环 等 待 图 

意味 着 事务 7,,、7,, 与 7 都 处 于 死 锁 状 态 。 

由 此 ， 引 出 下 面 的 问题 : 我们 何 时 激活 检测 算法 ? 答案 取决 于 两 个 因素 : 

L 死 锁 发 生 频 度 怎样 ? 

2. 有 和 多少 事 务 将 受到 死 锁 的 影响 ? 

如 果 死 锁 频繁 发 生 ， 则 检测 算法 应 比 通常 情况 下 激活 得 更 频繁 。 分 配给 处 于 死 锁 状 态 的 事务 的 数 
据 项 在 死 锁 解除 之 前 不 能 为 其 他 事务 获取 。 此 外 ， 等 待 图 中 环 的 数目 也 可 能 增 大 。 在 最 坏 的 情况 下 ， 
我 们 要 在 每 个 分 配 请 求 不 能 立即 满足 时 激活 检测 算法 。 

15.2.2.2 ”从 死 锁 中 恢复 

当 一 个 检测 算法 判定 存在 死 锁 时 ， 系统 必须 从 死 锁 中 恢复 (te) (Ta) 
(recover) 。 解 除 死 锁 最 通常 的 做 法 是 回 滚 一 个 或 多 个 事务 。 需 采取 的 动 @ I 
作 有 三 个 。 

L 选择 牺牲 者 ; 给 定 处 于 死 锁 状态 的 事务 集 ， 为 解除 死 锁 ， 我们 ay 
必须 决定 回 滚 娜 一 个 (或 哪 一 些 ) 事 务 以 打破 死 锁 。 我 们 应 使 事务 回 滚 
带 来 的 代价 最 小 。 可 惜 “ 最 小 代价 "这 个 词 并 不 准确 。 很 多 因素 影响 事 
务 回 滚 代 价 ， 其 中 包括 : 

a 事务 已 计算 了 多 久 ， 并 在 完成 其 指定 任务 之 前 该 事务 还 将 计算 多 长 时 间 。 

b. 该 事务 已 使 用 了 多 少数 据 项 。 

c. 为 完成 事务 还 需 使 用 多 少数 据 项 。 

d， 回 滚 时 将 牵涉 多 少 事务 。 

2. AR: 一 旦 我 们 决定 了 要 回 滚 哪个 事务 ， 就 必须 决定 该 事务 回 滚 多 远 。 
最 简单 的 方法 是 彻底 回 滚 (total rollback); 中 止 该 事务 ， 然 后 重新 开始 。 然 而 ， 事 务 只 回 滚 到 可 以 解除 
死 锁 处 会 更 有 效 。 这 种 部 分 回 滚 ( partial rollback) 要 求 系统 维护 所 有 正在 运行 事务 的 额外 状态 信息 。 确 
切 地 说 ， 需 要 记录 锁 的 申请 /授予 序列 和 事务 执行 的 更 新 。 死 锁 检 测 机 制 应 当 确 定 ， 为 打破 死 锁 ， 选 定 
的 事务 需要 释放 哪些 锁 。 选 定 的 事务 必须 回 滚 到 获得 这 些 锁 的 第 一 个 之 前 ， 并 取消 它 在 此 之 后 的 所 有 
动作 。 恢 复 机 制 必须 能 够 处 理 这 种 部 分 回 滚 。 而 且 ， 事 务必 须 能 够 在 部 分 回 滚 之 后 恢复 执行 。 有 关 参 [678 
考 文献 见 文献 注解 。 

3. RIE: 在 系统 中 ， 如 果 选 择 牺牲 者 主要 基于 代价 因素 ， 有 可 能 同一 事务 总 是 被 选 为 牺牲 者 。 这 
样 一 来 ， 该 事务 总 是 不 能 完成 其 指定 任务 ， 这 样 就 发 生 饿 死 ( starvation ) 。 我 们 必须 保证 一 个 事务 被 先 
为 牺牲 者 的 次 数 有 限 ( 且 较 少 ) 。 最 常用 的 方案 是 在 代价 因素 中 包含 回 滚 次 数 。 


15.3 多 粒度 


到 目前 为 止 所 讲 的 并 发 控制 机 制 中 ， 我 们 将 一 个 个 数据 项 作为 进行 同步 执行 的 单元 。 

然而 ， 某 些 情况 下 需要 把 多 个 数据 项 聚 为 一 组 ， 将 它们 作为 一 个 同步 单元 ， 因 为 这 样 会 更 好 。 例 
如 ， 如 果 事务 T, 需要 访问 整个 数据 库 ， 使 用 的 是 一 种 封锁 协议 ， 则 事务 T, 必须 给 数据 库 中 每 个 数据 项 
加 锁 。 显 然 ， 执 行 这 些 加 锁 操 作 是 很 费时 的 。 要 是 7, 能 够 只 发 出 单个 封锁 整个 数据 库 的 加 锁 请 求 ， 那 
会 更 好 。 另 一 方面 ， 如 果 事 务 T, 只 需要 存 取 少 量 数据 项 ， 就 不 应 要 求 给 整个 数据 库 加 锁 ， 否 则 并 发 性 
MERT. 


R 15-14 有 一 个 环 的 等 待 图 
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我 们 需要 的 是 一 种 允许 系统 定义 多 级 粒度 ( granularity ) 的 机 制 。 这 通过 允许 各 种 大 小 的 数据 项 并 定 
义 数据 粒度 的 层次 结构 ， 其 中 小 粒度 数据 项 肉 套 在 大 粒度 数据 项 中 来 实现 。 这 种 层次 结构 可 以 图 形 化 
地 表示 为 树 。 注 意 ， 这 里 所 描述 的 树 与 树 形 协议 ( 见 15. 1.5 节 ) 所 用 的 树 的 概念 完全 不 同 。 多 粒度 树 中 
的 非 叶 结 点 表示 与 其 后 代 相 联系 的 数据 。 在 树 形 协议 中 ， 每 个 结 点 是 一 个 相互 独立 的 数据 项 。 





图 15-15 粒度 层次 图 


作为 例子 ， 考 虑 图 15-15 所 示 的 树 。 它 由 4 层 结 点 组 成 ， 最 高 层 表 示 整 个 数据 库 ， 其 下 是 area 类 
型 的 结 点 ， 数 据 库 恰 好 由 这 些 区 域 组 成 。 每 个 区 域 又 以 file 类 型 结 点 作为 子 结 点 ， 每 个 区 域 恰好 由 作 
为 其 子 结 点 的 文件 结 点 组 成 。 没 有 任何 文件 处 于 一 个 以 上 区 域 中 。 最 后 ， 每 个 文件 由 record 类 型 的 结 
点 组 成 。 和 前 面 一 样 ， 文 件 恰好 由 作为 其 子 结 点 的 记录 组 成 ， 并 且 任 何 记 录 不 能 同时 属于 多 个 文件 。 

树 中 每 个 结 点 都 可 以 单独 加 锁 。 正 如 我 们 在 两 阶段 封锁 协议 中 所 做 的 那样 ， 我 们 将 使 用 共享 
(shared) 锁 与 排他 (exclusive) 锁 。 当 事务 对 一 个 结 点 加 锁 ， 或 为 共享 锁 或 为 排他 锁 ， 该 事务 也 以 同样 类 

锁 隐 式 地 封锁 这 个 结 点 的 全 部 后 代 结 点 。 例 如 ， 若 事务 T, 给 图 15-15 中 的 F, 显 式 (explicit lock) 地 

加 排他 锁 ， 则 事务 T, 也 给 所 有 属于 该 文件 的 记录 隐 式 (implicit lock) 地 加 排他 锁 。 没 有 必要 显 式 地 给 FP, 
中 的 单条 记录 逐个 加 锁 。 

假设 事务 T, 希望 封锁 文件 F, 的 记录 7 o HFT, 显 式 地 给 有 加 锁 ， 因 此 意味 着 7 也 被 加 锁 ( 隐 式 
H). BÆ, T, EEX r, 加 锁 的 请 求 时 , 7 没有 显 式 加 锁 ! 系统 如 何 判 定 是 否 7 可 以 封锁 7, YE? T, 
必须 从 树 根 到 7, 进行 遍历 ， 如 果 发 现 此 路 径 上 某 个 结 点 的 锁 NE WU T, 必须 延迟 。 


























IX S 
[ime [eve [fate [fae [ee | 
Pee [se [ie [te [te | 





| 


图 15-16 相 容 性 矩阵 


现 假设 事务 T, 希望 封锁 整个 数据 库 。 为 此 ， 它 只 需 给 层次 结构 图 的 根 结 点 加 锁 。 不 过 ， 请 注意 也 
给 根 结 点 加 锁 不 会 成 功 ， 因 为 目前 T, 在 树 的 某 部 分 持 有 锁 ( 具体 地 说 ， 对 文件 F, 持 有 锁 ) 。 但 是 ， 系 
统 是 怎样 判定 根 结 点 是 否 可 以 加 锁 呢 ? 一 种 可 能 的 方法 是 搜索 整 棵 树 。 然 而 ， 这 个 方法 破坏 了 多 粒度 
封锁 机 制 的 初 囊 。 获 取 这 种 知识 的 一 个 更 有 效 的 方法 是 引入 一 种 新 的 锁 类 型 ， 即 意向 锁 类 型 (intention 
lock mode) 。 如 果 一 个 结 点 加 上 了 意向 锁 ， 则 意味 着 要 在 树 的 较 低 层 进行 显 式 加 锁 ( 也 就 是 说 ， 以 更 小 
的 粒度 加 锁 ) 。 在 一 个 结 点 显 式 加 锁 之 前 ， 该 结 点 的 全 部 祖先 结 点 均 加 上 了 意向 锁 。 因 此 ， 事 务 不 必 搜 
索 整 棵 树 就 能 判定 能 和 否 成 功 地 给 一 个 结 点 加 锁 。 和 希望 给 某 个 结 点 (如 8) 加 锁 的 事务 必须 遍历 从 根 到 0 
的 路 径 。 在 遍历 树 的 过 程 中 ， 该 事务 给 各 结 点 加 上 意向 锁 。 

与 共享 锁 相 关联 的 是 一 种 意向 锁 ， 与 排他 锁 相 关联 的 是 另 一 种 意向 锁 ， 如 果 一 个 结 点 加 上 了 共享 
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型 意向 (intention-shared (IS) mode) 锁 ， 那 么 将 在 树 的 较 低层 进行 显 式 封锁 ， 但 只 能 加 共享 锁 。 类 似 地 ， 
如 果 一 个 结 点 加 排他 型 意向 (intention-exclusive( IX) mode) 锁 ， 那 么 将 在 树 的 较 低层 进行 显 式 封锁 ， 可 
以 加 排他 锁 或 共享 锁 。 最 后 ， 若 一 个 结 点 加 上 了 共享 排他 型 意向 锁 ( shared and intention-exclusive (SIX ) 
mode) ， 则 以 该 结 点 为 根 的 子 树 显 式 地 加 了 共享 锁 ， 并 且 将 在 树 的 更 低层 显 式 地 加 排他 锁 。 这 些 锁 类 
型 的 相 容 函数 如 图 15-16 所 示 。 


o 


| 


多 粒度 封锁 协议 ( multiple-granularity locking protocol ) 采用 这 些 锁 类 型 保证 可 串 行 性 。 每 个 事务 了. 要 
求 按 如 下 规则 对 数据 项 0 加 锁 : 
1. 事务 T, 必须 遵从 图 15-16 所 示 的 锁 类 型 相 容 函数 。 
2. 事务 T, 必须 首先 封锁 树 的 根 结 点 ， 并 且 可 以 加 任意 类 型 的 锁 。 
3. LH T, 当前 对 O 的 父 结 点 具有 IX 或 IS Bit, T, 对 结 点 8 ATOI S E IS Hi. 
4. L% T, 当前 对 Q 的 父 结 点 具有 IX 或 SIX 锁 时 ，7 对 结 点 8 可 加 X、SIX 或 IX Hi. 
5. 仅 当 7 未曾 对 任何 结 点 解锁 时 ，T, 可 对 结 点 加 锁 (也 就 是 说 ，7, 是 两 阶段 的 ) 。 
6. 仅 当 7 当前 不 持 有 Q 的 子 结 点 的 锁 时 ，7, 可 对 结 点 0 解锁 。 
多 粒度 协议 要 求 加 锁 按 自 项 向 下 的 顺序 ( 根 到 叶 )， 而 锁 的 释放 则 按 自 底 向 上 的 顺序 ( 叶 到 根 )。 
作为 该 协议 的 例子 ， 考 虑 图 15-15 所 示 的 树 及 下 面 的 事务 : 
。 假设 事务 Ta 读 文 件 F, Wider, BA, 7, 需 给 数据 库 、 区 域 4, ,以 及 HIS BAC Fe 
F), 最 后 给 7 加 S 锁 。 
。 假设 事务 T EBIOU F, 的 记录 7,。 那 么 ，7T;, 需 给 数据 库 、 区 域 4 ， 以 及 文件 F( 按 此 顺 
FP) IM IX Hi, 最 后 给 记录 7, 加 X 锁 。 
。 假设 事务 TERRI F, 的 所 有 记录 。 那 么 ，7,; 需 给 数据 库 和 区 域 4,( 按 此 顺序 ) 加 IS 锁 ，[681 | 
最 后 给 iS Bi. 
。 假设 事务 7,, 要 读 取 整 个 数据 库 。 它 在 给 数据 库 加 S 锁 后 就 可 读 取 。 
我 们 注意 到 事务 Ta, Ta 5 7 可 以 并 发 地 存 取 数据 库 。 事 务 Ty TUS 7, 并 发 执行 ， 但 不 能 与 Ta 
或 7 并 发 执行 。 
该 协议 增强 了 并 发 性 ， 减 少 了 锁 开 销 。 它 在 由 如 下 事务 类 型 混合 而 成 的 应 用 中 尤其 有 用 : 
e 只 访问 几 个 数据 项 的 短 事务 。 
。 由 整个 文件 或 一 组 文件 来 生成 报表 的 长 事务 。 
类 似 的 封锁 协议 可 以 用 于 数据 粒度 按 有 向 无 环 图 组 织 的 数据 库 系统 中 ， 参 考 文 献 见 文献 注解 。 与 
在 两 阶段 封锁 协议 中 一 样 ， 在 多 粒度 协议 中 也 可 能 存在 死 锁 。 有 多 种 技术 可 以 用 来 减少 多 粒度 协议 中 
死 锁 发 生 的 频 度 ， 甚 至 可 以 彻底 消除 死 锁 。 文 献 注解 给 出 了 这 些 技术 的 相关 资料 。 


15.4 基于 时 间 戳 的 协议 


到 目前 为 止 我 们 所 讲述 的 封锁 协议 中 ， 每 一 对 冲突 事务 的 次 序 是 在 执行 时 由 二 者 都 申请 的 ， 但 类 
型 不 相 容 的 第 一 个 锁 决 定 的 。 另 一 种 决定 事务 可 串 行 化 次 序 的 方法 是 事先 选 定 事务 的 次 序 。 其 中 最 常 
用 的 方法 是 时 间 玲 排序 机 制 。 

15.4.1 WEIR 

对 于 系统 中 每 个 事务 7.， 我 们 把 一 个 唯一 的 固定 时 间 戳 和 它 联系 起 来 ， 此 时 间 戳 记 为 TS(7,)。 该 
时 间 惟 是 在 事务 T, 开始 执行 前 由 数据 库 系统 赋予 的 。 若 事务 7 已 赋予 时 间 惟 TS(7,)， 此 时 有 一 新 事 
FT, ARS, W TS(7,) < TS(7,)。 实 现 这 种 机 制 可 以 采用 下 面 这 两 个 简单 的 方法 : 

1. 使 用 系统 时 钟 (system clock) MIA VE AAT AK; 即 ， 事 务 的 时 间 惟 等 于 该 事务 进入 系统 时 的 时 
钟 值 。 

2. 使 用 逻辑 计数 器 (logical counter) ， 每 赋予 一 个 时 间 惟 ， 计 数 器 增加 计数 ; 即 ， 事 务 的 时 间 戳 等 
于 该 事务 进入 系统 时 的 计数 器 值 。 682 

事务 的 时 间 惟 决定 了 串 行 化 顺序 。 因 此 , A TS(T,) < TS(T)， 则 系统 必须 保证 所 产生 的 调度 等 价 
FES T, 出 现在 事务 7 之 前 的 某 个 串 行 调度 。 
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683 





要 实现 这 个 机 制 ， 每 个 数据 项 Q 需要 与 两 个 时 间 戳 值 相关 联 : 


e W-timestamp( 0) 表 示 成 功 执行 write(@) 的 所 有 事务 的 最 大 时 间 戳 。 


。 R-timestamp( Q) 表示 成 功 执行 read ( Q) 的 所 有 事务 的 最 大 时 间 戳 。 
每 当 有 新 的 read(Q) 或 write(Q) 指令 执行 时 ， 这 些 时 间 戳 就 更 新 。 


15.4.2 ”时间 戳 排序 协议 


时 间 惟 排序 协议 ( timestamp-ordering protocol ) 保证 任何 有 冲突 的 read 或 write 操作 按时 间 戳 顺序 执 


行 。 该 协议 运作 方式 如 下 : 
1. 假设 事务 T, 发 出 read( 0)。 


a. # TS(T,) < W-timestamp(Q ) ， 则 7, 需要 读 和 的 OE RAR. All, read 操作 被 拒绝 ,7 


ER. 


b. # TS(T,) >W-timestamp( Q), WPT read 操作 ，R -timestamp(Q) 被 设置 为 R-timestamp( Q) 


与 TS(7,) 两 者 的 最 大 值 。 
2. 假设 事务 T; 发 出 write(Q) . 


a. # TS(T,) < R-timestamp(Q)， 则 7 产生 的 Q 值 是 先前 所 需要 的 值 ， 且 系统 已 假定 该 值 不 会 


再 产生 。 因此 ， write 操作 被 拒绝 ， T; 回 滚 。 


b. # TS(T,) < W-timestamp(Q), M T, 试图 写 入 的 Q 值 已 过 时 。 因 此 ，write 操作 被 拒绝 ，7 


LR 


c 其 他 情况 ， 系 统 执行 write 操作 ， 将 W-timestamp( 0 ) 设 置 为 TS(7.)。 
如 果 事 务 T, 由 于 发 出 read 或 write 操作 而 被 并 发 控制 机 制 回 滚 ， 则 系统 赋予 它 新 的 时 间 惟 并 重新 


启动 。 


为 说 明 这 个 协议 ， 我 们 考虑 事务 7 与 Tx 。 事 务 7 显示 账户 4 与 妃 的 内 容 : 


Tx: read(B) ; 
read(A) ; 
display(A + B). 

事务 7, 从 账户 B 转 50 美元 到 账户 4， 然 后 显示 两 个 账户 的 内 容 : 

T: read(B) ; 

B:= B -50; 
write( B) ; 
read(A) ; 
A:=A + 50; 
write(A) ; 
display(A + B). 


在 说 明 时 间 戳 协议 下 的 调度 时 ， 我 们 将 假设 事务 在 执行 第 一 条 指令 之 前 的 那 一 刻 被 赋予 时 间 
Bi. A, FEMA 15-17 所 示 的 调度 3 中 ，TS(7,;) <TS(7x ) ， 这 是 满足 时 间 惟 协议 的 一 个 可 能 


的 调度 。 


我 们 注意 到 前 面 的 执行 过 程 也 可 以 由 两 阶段 封锁 协议 产生 。 不 过 ， 存 在 满足 两 阶段 封锁 协议 却 不 


满足 时 间 戳 协议 的 调度 ， 反 之 亦 然 ( 见 习题 15. 29 ) 。 

时 间 戳 排序 协议 保证 冲突 可 串 行 化 ， 这 因为 冲突 操作 按时 间 戳 顺 
序 进行 处 理 。 

该 协议 保证 无 死 锁 ， 因 为 不 存在 等 待 的 事务 。 但 是 ， 当 一 系列 冲 
突 的 短 事务 引起 长 事务 反复 重启 时 ， 可 能 导致 长 事务 饿 死 的 现象 。 如 
果 发 现 一 个 事务 反复 重启 ， 与 之 冲突 的 事务 应 当 暂 时 阻塞 ， 以 使 该 事 
务 能 够 完成 。 

该 协议 可 能 产生 不 可 恢复 的 调度 。 然 而 ， 该 协议 可 以 进行 扩展 ， 
用 以 下 几 种 方法 之 一 来 保证 调度 可 恢复 : 

。 在 事务 末尾 执行 所 有 的 写 操作 能 保证 可 恢复 性 和 无 级 联 性 ， 这 





Tas Tre 
read(B) 
read(B) 
B := B — 50 
write(B) 
read(A) 
read(A) 
display(A + B) 
A:=A+50 
write(A) 
| display(A + B) 
图 15-17 调度 3 
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些 写 操作 必须 具有 下 述 意义 的 原子 性 : 在 写 操作 正在 执行 的 过 程 中 ,任何 事务 都 不 许 访问 已 写 
完 的 任何 数据 项 。 
。 可 恢复 性 和 无 级 联 性 也 可 以 通过 使 用 一 个 受 限 的 封锁 形式 来 保证 ， 由 此 ， 对 未 提交 数据 项 的 读 
操作 被 推迟 到 更 新 该 数据 项 的 事务 提交 之 后 (见习 题 15. 30) 。 
。 可 恢复 性 可 以 通过 跟踪 未 提交 写 操作 来 单独 保证 ， 一 个 事务 T, 读 取 了 其 他 事务 所 写 的 数据 ， 只 
有 在 其 他 事务 都 提交 之 后 ，7, 才能 提交 。15. 1. 5 节 概 述 过 的 提交 依赖 可 以 用 作 这 个 目的 。 
15. 4.3 Thomas 写 规则 
我 们 现在 给 出 对 时 间 截 排序 协议 的 一 种 修改 ， 它 允许 的 并 发 程度 比 15.4.2 节 中 的 协议 要 高 。 让 我 
们 考虑 图 15-18 所 示 的 调度 4， 并 应 用 时 间 惟 排序 协议 。 由 于 Ty EF Ts 开始， 因此 假定 TS(7T,,) <TS 
(Ts )。72 的 read(0) 操 作成 功 ，7T,s 的 write(O) 操 作 也 成 功 。 当 7 试图 进行 write(@) 操 作 时 ， 我 们 发 
HL TS(T,,) < W-timestamp(Q), Fl W-timestamp(Q) = TS(T7,,). PLA, Tan 的 write(Q) 操作 被 拒绝 且 
事务 Ty, 回 滚 。 
虽然 事务 T, 回 滚 是 时 间 戳 排序 协议 所 要 求 的 ， 但 这 是 不 必要 的 。 由 于 Ta 
已 经 写 人 了 Q@， 因 此 思想 要 写 人 的 值 将 永远 不 会 被 读 到 。 满 足 TS(7) < TS read(Q) 


Ths 








(Ta) HOE (el SEH T, 试图 进行 read (Q) 操作 时 均 回 滚 ， 因 为 TS(T ) < W- write(Q) 
timestamp(Q). Æ TS(T) > TS( Tx ) 的 任何 事务 T, 必须 读 由 Ta BAK Q 值 ， 
而 不 是 T, BES AMA. 图 15-18 调度 4 


根据 以 上 分 析 ， 我 们 可 以 修改 时 间 堆 排序 协议 而 得 到 一 个 新 版 本 的 协议 ， 

该 协议 在 某 些 特定 的 情况 下 忽略 过 时 的 write FRE. PM PAK read 操作 的 规则 保持 不 变 ; 但 write 
操作 的 协议 规则 与 15. 4. 2 节 中 的 时 间 惟 排序 协议 略 有 区 别 。 

时 间 惟 排序 协议 所 做 的 这 种 修改 称 为 Thomas 5 48N] (Thomas write rule): 假设 事务 T, 发 出 write 
(Q). 

1. 4 TS(T,) < R-timestamp(Q), W 7, 产生 的 Q 值 是 先前 所 需要 的 值 ， 且 系统 已 假定 该 值 不 会 再 
产生 。 因 此 ，write 操作 被 拒绝 ，7, FR. 

2. 若 TS( 了 ) < W-timestamp(Q), RI T, RASA OE. Alt, i+ write 操作 可 和 忽略。 

3. 其 他 情况 ， 执 行 write 操作 ， 将 W-timestamp( 8) 设 置 为 TS(7,)。 

以 上 规则 与 15. 4. 2 节 中 规则 的 区 别 在 第 二 条 ， 时 间 戳 排序 协议 在 了 发 出 write(O) 且 TS(7 ) <W- 
timestamp(Q) 时 要 求 7, 回 滚 。 而 在 修改 后 协议 对 这 种 情况 的 处 理 是 , E TS(T,) > R -timestamp(O) 时 ， 
我 们 忽略 过 时 的 write 操作 。 

通过 忽略 写 ，Thomas 写 规 则 允许 非 冲 突 可 串 行 化 但 是 正确 的 调度 。 这 些 允 许 的 非 冲 突 可 串 行 化 调 
度 满 足 视 图 可 串 行 化 调度 的 概念 ( 见 示例 框 ) Thomas 写 规则 实际 上 是 通过 删除 事务 发 出 的 过 时 的 
write 操作 来 使 用 视图 可 串 行 性 。 对 事务 的 这 种 修改 使 得 系统 可 以 产生 本 章 中 其 他 协议 所 不 能 产生 的 可 
ATI BE. Hin, PA 15-18 所 示 调 度 4 是 非 冲突 可 串 行 化 的 ， 因 此 在 两 阶段 封锁 协议 、 树 形 封锁 协 
议 或 时 间 惟 排序 协议 中 都 是 不 可 能 的 。 在 Thomas SHM F, Tn 的 write( Q) 操作 将 忽略 ， 产 生 视图 等 
价 于 串 行 调度 < Ty, Ta > 的 一 个 调度 。 


视图 可 串 行 化 
有 一 种 等 价 形式 比 冲 突 等 价 的 限制 要 宽松 ， 但 这 种 等 价 形式 与 冲突 等 价 一 样 只 基于 事务 的 read 
与 write 操作 。 
考虑 两 个 调度 5S 与 S'， 参与 两 个 调度 的 事务 集 是 相同 的 ， 若 满足 下 面 三 个 条 件 ， 调度 S 与 S' 就 
称 为 视图 等 价 ( view equivalent) th; 
1. 对 于 每 个 数据 项 O， 若 事务 了. 在 调度 5S 中 读 取 了 Q 的 初始 值 ， 那 么 在 调度 8 中 也 也 必须 读 
RRQ 的 初始 值 。 
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2. 对 于 每 个 数据 项 O， 若 在 调度 S 中 事务 了 执行 了 read(Q@) 并且 读 取 的 值 是 由 事务 了 执行 
write( 0) 操 作 产 生 的 ; 则 在 调度 S' 中 ，7, 的 read(O@O) 操 作 读 取 的 值 0 也 必须 是 由 了 的 同一 个 write 
(@) 操 作 产生 的 。 

3. 对 于 每 个 数据 项 Q， 著 在 调度 S 中 有 事务 执行 了 最 后 的 write(@) 操 作 ， 则 在 调度 S' 中 该 事务 

也 必须 执行 最 后 的 write( 0) 操 作 。 

条 件 1 与 2 保证 在 两 个 调度 中 的 每 个 事务 都 读 取 相同 的 值 ， 从 而 进行 相同 的 计算 。 条 件 3 与 条 
件 1、2 一 起 保证 两 个 调度 得 到 相同 的 最 终 系 统 状态 。 

视图 等 价 的 概念 引出 了 视图 可 串 行 化 的 概念 。 如 果 某 个 调度 视图 等 价 于 一 个 串 行 调度 ， 则 我 们 
说 这 个 调度 是 视图 可 串 行 化 (view serializable) 的 。 

举 个 例子 ， 假 设 我 们 在 调度 4 中 增加 事务 7 ， 由 此 得 到 以 下 视图 可 串 行 化 的 调度 (调度 3) : 






read (Q) 
write (Q) 


write (Q) 


write (Q) 

实际 上 ， 调度 5 视图 等 价 于 串 行 调度 <T,，T;s。 ，T,。> ， 因 为 在 两 个 调度 中 read(Q) 指令 均 是 读 
RO 的 初始 值 ， 两 个 调度 中 729 均 最 后 写 入 Q 值 。 

每 个 冲突 可 囊 行 化 调度 都 是 视图 可 串 行 化 的 ， 但 存在 非 冲 突 可 串 行 化 的 视图 可 串 行 化 调度 。 事 
实 上 ,调度 5 就 不 是 冲突 可 串 行 化 的 ， 因 为 每 对 连续 指令 均 冲 突 ， 从 而 交换 指令 是 不 可 能 的 。 

注意 ， 在 调度 5 t, F Tad Ty 执行 write(Q) 操 作 之 前 没有 执行 read(Q@) 操 作 。 这 样 的 写 操 
作 称 作 盲目 写 操 作 (blind write) 。 育 目 写 操作 存在 于 任何 非 冲 突 可 串 行 化 的 视图 可 串 行 化 调度 中 。 


15.5 基于 有 效 性 检查 的 协议 


在 大 部 分 事务 是 只 读 事 务 的 情况 下 ， 事 务 发 生 冲突 的 频率 较 低 。 因 此 ， 许 多 这 样 的 事务 ， 即 使 在 
没有 并 发 控制 机 制 监控 的 情况 下 执行 ， 也 不 会 破坏 系统 的 一 致 状态 。 并 发 控制 机 制 带 来 代码 执行 的 开 
销 和 可 能 的 事务 延迟 ， 采 用 开销 较 小 的 机 制 是 我 们 所 希望 的 。 减 小 开销 面临 的 困难 是 我 们 事先 并 不 知 
道 哪 些 事务 将 陷入 冲突 中 。 为 获得 这 种 知识 ， 我 们 需要 一 种 监控 系统 的 机 制 。 

有 效 性 检查 协议 (validation protocol ) 要求 每 个 事务 T, 在 其 生命 周期 中 按 两 个 或 三 个 阶段 执行 ， 这 
取决 于 该 事务 是 一 个 只 读 事务 还 是 一 个 更 新 事务 。 这 些 阶段 顺序 地 列 在 下 面 。 

1. 读 阶 段 (read phase): 在 这 一 阶段 中 ， 系 统 执行 事务 7;。 各 数据 项 值 被 读 入 并 保存 在 事务 T; 的 
局 部 变量 中 。 所 有 write 操作 都 是 对 局 部 临时 变量 进行 的 ， 并 不 对 数据 库 进行 真正 的 更 新 。 

2. 有 效 性 检查 阶段 (validation phase): 对 事务 T, 进行 有 效 性 测试 (下 面 将 会 介绍 ) 。 判 定 是 否 可 以 
执行 write 操作 而 不 违反 可 串 行 性 。 如 果 事 务 有 效 性 测试 失败 ， 则 系统 终止 这 个 事务 。 

3. 写 阶段 (write phase): 若 事务 T, 已 通过 有 效 性 检查 (第 2 步 )， 则 保存 7; 任何 写 操作 结果 的 临时 
局 部 变量 值 被 复制 到 数据 库 中 。 只 读 事 务 忽略 这 个 阶段 。 

每 个 事务 必须 按 以 上 顺序 经 历 这 些 阶段 。 然 而 ， 并 发 执行 的 事务 的 三 个 阶段 可 以 是 交叉 执行 的 。 

为 进行 有 效 性 检测 ， 我 们 需要 知道 事务 T, 的 各 个 阶段 何 时 进行 。 为 此 ， 我 们 将 三 个 不 同 的 时 间 戳 
与 事务 7, 相关 联 。 

1. Start(7;) : 事务 T, 开始 执行 的 时 间 。 

2. Validation(7.) : 事务 T, 完成 读 阶 段 并 开始 其 有 效 性 检查 的 时 间 。 

3. Finish( 7,) : 事务 T, 完成 写 阶段 的 时 间 。 

我 们 利用 时 间 戳 Validation( T,) 的 值 ， 通 过 时 间 戳 排序 技术 决定 可 串 行 性 顺序 。 因 此 , 值 TS(7) = 
Validation(7 ) ， 并 且 若 TS(T,) <TSCT,) ， 则 产生 的 任何 调度 必须 等 价 于 事务 7 出 现在 T, 之 前 的 某 个 
串 行 调度 。 我 们 选择 Validation( 7 ) 而 不 是 Start( 7, ) 作为 事务 T, 的 时 间 惟 是 因为 在 冲突 频 度 很 低 的 情况 
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下 期 望 有 更 快 的 响应 时 间 。 

事务 7, 的 有 效 性 测试 (validation test) 要 求 任何 满足 TS(7,) <TS(7,) 的 事务 7, 必须 满足 下 面 两 条 件 
Z=: 

1. Finish(7,) < Start(7) 。 因 为 丈 在 开 开 始 之 前 完成 其 执行 ， 所 以 可 串 行 性 次 序 得 到 了 保证 。 

2.7, 所 写 的 数据 项 集 与 T, 所 读数 据 项 集 不 相交 ， 并 且 T, 的 写 阶段 在 7, 开始 其 有 效 性 检查 阶段 之 
前 完成 (Start(7,) < Finish(T,) < Validation(7,))。 这 个 条 件 保证 7, 与 7 的 写 不 重合 。 因 为 7, 的 写 不 








影响 也 的 读 ， 又 因为 7 不 可 能 影响 7, 的 读 ， 从 而 保证 了 可 串 行 性 次 序 。 [688 | 
作为 例子 ， 我 们 再 一 次 考虑 事务 T, IP Tuo (Ri TS(T,,) < TS Ts | Ts 

(7 ) ， 则 有 效 性 检查 阶段 成 功 地 产生 调度 6， 如 图 15-19 所 示 。 注 意 ， read(B) | 

只 有 在 7 的 有 效 性 检查 阶段 之 后 才 写 实际 的 变量 。 因 此 ，7,s 读 取 B 与 4 pl Ks 

的 旧 值 ， 且 该 调度 是 可 串 行 化 的 。 read(4) 
有 效 性 检查 机 制 自动 预防 级 联 回 滚 ， 因 为 只 有 发 出 写 操 作 的 事务 提 vies 


read(A 
交 后 实际 的 写 才 发 生 。 然 而 ， 存 在 长 事务 俄 死 的 可 能 ， 原 因 是 一 系列 冲 。 validate 


突 的 短 事务 引起 长 事务 反复 重启 。 为 了 避免 俄 死 ， 与 之 冲突 的 事务 应 当 。 “SPA1) iqates 

暂时 阻塞 ， 以 使 该 长 事务 能 够 完成 。 write(B) 
在 有 效 性 检查 机 制 中 ， 由 于 事务 乐观 地 执行 ， 假 定 它们 能 够 完成 执 We 

行 并 且 最 终 有 效 ， 因 此 也 称 为 乐观 的 并 发 控制 (optimistic concurrency 图 15-19 调度 6， 采 用 有 效 

control) 机 制 。 与 之 相反 ， 封 锁 和 时 间 惟 排序 是 翡 观 的 ， 因 为 当 它们 检测 。 ”性 检查 得 到 的 一 个 调度 

到 一 个 冲突 时 ， 它 们 强迫 事务 等 待 或 回 滚 ， 即 使 该 调度 有 可 能 是 冲突 可 

串 行 化 的 。 

15.6 多 版 本 机 制 


目前 为 止 讲述 的 并 发 控制 机 制 要 么 延迟 一 项 操作 要 么 中 止 发 出 该 操作 的 事务 来 保证 可 串 行 性 。 例 
如 ，read 操作 可 能 由 于 相应 值 还 未 写 人 而 延迟 ; 或 因为 它 要 读 取 的 值 已 被 覆盖 而 被 拒绝 执行 ( 即 ， 发 
出 read 操作 的 事务 必须 中 止 )。 如 果 每 一 数据 项 的 旧 值 拷贝 保存 在 系统 中 ， 这 些 问题 就 可 以 避免 

在 多 版 本 并 发 控制 (multiversion concurrency control) 机制 中 ， 每 个 write(O) 操 作 创建 0 的 一 个 新 版 
本 (version) 。 当 事务 发 出 一 个 read( 0) 操 作 时 ， 并 发 控制 管理 器 选择 0 的 一 个 版 本 进行 读 取 。 并 发 控 [689 | 
制 机 制 必须 保证 用 于 读 取 的 版 本 的 选择 能 保持 可 串 行 性 。 由 于 性 能 原因 ， 一 个 事务 能 容易 而 快速 地 判 
定 读 取 哪 个 版 本 的 数据 项 也 是 很 关键 的 。 

15.6.1 多 版 本 时 间 惟 排序 

时 间 惟 排序 协议 可 以 扩展 为 多 版 本 的 协议 。 对 于 系统 中 的 每 个 事务 7， 我 们 将 一 个 唯一 的 静态 时 
间 截 与 之 关联 ， 记 为 TS(7,)。 如 15.4 节 所 述 ， 数 据 库 系统 在 事务 开始 前 赋予 该 时 间 蕉 。 

对 于 每 个 数据 项 0， 有 一 个 版 本 序列 <Q, Q, n> 与 之 关联 ， 每 个 版 本 QO, 包含 三 个 数据 
字段 : 

e Content  Q, 版 本 的 值 。 

e W-timestamp( 0) 是 创建 Q, 版 本 的 事务 的 时 间 戳 。 

e R-timestamp( Q): 所 有 成 功 地 读 取 Q, 版 本 的 事务 的 最 大 时 间 戳 。 

事务 (如 了 ) 通 过 发 出 write( Q) 操作 创建 数据 项 @ 的 一 个 新 版 本 Q;， 版 本 的 content 字段 保存 事务 
T, 写 入 的 值 ， 系 统 将 W-timestamp 与 R-timestamp 初始 化 为 TS(7)。 每 当 事 务 7 读 取 Q, WAH R- 
timestamp(Q,) < TS(T;,) i}, R-timestamp 的 值 就 更 新 。 

下 面 展示 的 多 版 本 时 间 戳 排序 机 制 ( multiversion timestamp-ordering scheme ) 保证 可 串 行 性 。 该 机 制 
运作 如 下 : 假设 事务 T, 发 出 read( 0) 或 write( 0) 操 作 ， 令 0, 表示 0 满足 如 下 条 件 的 版 本 ， 其 写 时 间 
截 是 小 于 或 等 于 TS(7 ) WKS IY A 

1. 如 果 事 务 T, 发 出 read(Q)， 则 返回 值 是 Q, HAA. 

2. WRES T, 发 出 write(Q), HA TS(T,) < R-timestamp( Q;)， 则 系统 回 滚 事 务 7,， 男 一 方面 ， 
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若 TS(T ) = W-timestamp(Q,), WAR 0, 的 内 容 ; 否则 ( 若 TS(7 ) > R-timestamp(Q,)), 创建 0 
的 一 个 新 版 本 。 

规则 1 的 理由 是 显然 的 ， 一 个 事务 读 取 位 于 其 前 的 最 近 版 本 。 第 二 条 规则 规定 当 一 个 事务 执行 写 
操作 “ 太 迟 "时 将 强迫 中 止 ， 更 确切 地 说 ， 如 果 T, 试图 写 入 其 他 事务 应 该 已 读 取 了 的 版 本 ， 则 我 们 不 允 
许 该 写 操作 成 功 。 

不 再 需要 的 版 本 根据 以 下 规则 删除 : 假设 有 某 数据 项 的 两 个 版 本 Q, 与 QW， 这 两 个 版 本 的 W- 
timestamp 都 小 于 系统 中 最 老 的 事务 的 时 间 戳 ,那么 0; AO, 中 较 旧 的 版 本 将 不 会 再 用 到 ， 因 而 可 以 
删除 。 

多 版 本 时 间 惟 排序 机 制 有 一 个 很 好 的 特性 : 读 请 求 从 不 失败 且 不 必 等 待 。 在 典型 的 数据 库 系统 中 ， 
读 操作 比 写 操作 频繁 ， 因 而 这 个 优点 对 于 实践 来 说 至 关 重 要 。 

然而 这 个 机 制 也 存在 两 个 不 好 的 特性 。 首 先 ， 读 取 数 据 项 要 求 更 新 R-timestamp 字段 ， 于 是 产生 两 
次 潜在 的 磁盘 访问 而 不 是 一 次 。 其 次 ， 事 务 间 的 冲突 通过 回 滚 而 不 是 等 待 来 解决 。 这 种 做 法 开销 可 能 
很 大 。15. 6. 2 节 讲 述 一 个 可 以 减轻 这 个 问题 的 算法 。 

多 版 本 时 间 惟 排序 机 制 不 保证 可 恢复 性 和 无 级 联 性 。 按 照 与 基本 的 时 间 戳 排序 机 制 一 样 的 方法 进 
行 扩充 ， 我们 可 以 使 之 成 为 可 恢复 的 和 无 级 联 的 。 

15. 6.2 多 版 本 两 阶段 封锁 

多 版 本 两 阶段 封锁 协议 (multiversion two-phase locking protocol) 希 望 将 多 版 本 并 发 控制 的 优点 与 两 阶 
段 封 锁 的 优点 结合 起 来 。 该 协议 对 只 读 事 务 (read-only transaction) 与 更 新 事务 (update transaction ) 加 以 
区 分 。 

更 新 事务 执行 强 两 阶段 封锁 协议 ; 即 它们 持 有 全 部 锁 直 到 事务 结束 。 因 此 ， 它 们 可 以 按 提交 的 次 
序 进行 串 行 化 。 数 据 项 的 每 个 版 本 有 一 个 时 间 戳 ， 这 种 时 间 惟 不 是 真正 基于 时 钟 的 时 间 惟 ， 而 是 一 个 
计数 器 ， 我 们 称 之 为 ts-counter ， 这 个 计数 器 在 提交 处 理 时 增加 计数 。 

只 读 事务 在 开始 执行 前 ， 数 据 库 系统 读 取 ts-counter 的 当前 值 来 作为 该 事务 的 时 间 惟 。 只 读 事务 
在 执行 读 操作 时 遵从 多 版 本 时 间 戳 排序 协议 。 因 此 ， 当 只 读 事务 T, 发 出 read(O) 时 ,返回 值 是 小 于 TS 
(T) 的 最 大 时 间 戳 的 版 本 的 内 容 。 

当 更 新 事务 读 取 一 个 数据 项 时 ， 它 在 获得 该 数据 项 上 的 共享 锁 后 读 取 该 数据 项 最 新 版 本 的 值 。 当 
更 新 事务 想 写 一 个 数据 项 时 ， 它 首先 要 获得 该 数据 项 上 的 排他 锁 ， 然 后 为 此 数据 项 创建 一 个 新 版 本 。 
写 操作 在 新 版 本 上 进行 ， 新 版 本 的 时 间 惟 最初 置 为 ， 它 大 于 任何 可 能 的 时 间 戳 值 。 

当 更 新 事务 T, 完成 其 任务 后 ， 它 按 如 下 方式 进行 提交 : 首先 ，7, 将 它 创建 的 每 一 版 本 的 时 间 戳 设 
置 为 ts-counter 的 值 加 1; la, T, 将 ts-counter 增加 1。 在 同一 时 间 内 只 允许 有 一 个 更 新 事务 进行 
提交 。 

这 样 , 在 了 增加 了 ts-counter 之 后 启动 的 只 读 事务 将 看 到 了 更 新 的 值 ， 而 那些 在 也 增加 ts-counter 

691 | 之 前 就 启动 的 只 读 事 务 将 看 到 T, 更 新 之 前 的 值 。 无 论 哪 种 情况 ， 只 读 事务 均 不 必 等 待 加 锁 。 多 版 本 两 
阶段 封锁 也 保证 调度 是 可 恢复 的 和 无 级 联 的 。 

版 本 删除 类 似 于 多 版 本 时 间 惟 排序 中 采用 的 方式 。 假 设 有 某 数据 项 的 两 个 版 本 Q, 与 Q ， 两 个 版 本 
的 时 间 截 都 小 于 或 等 于 系统 中 最 老 的 只 读 事务 的 时 间 惟 。 则 两 个 版 本 中 较 旧 的 将 不 会 再 使 用 ， 可 以 
删除 。 


15.7 快照 隔离 


快照 隔离 是 一 种 特殊 的 并 发 控制 机 制 ， 并且 在 商业 和 开源 系统 中 广泛 接受 ,包括 Oracle, 
PostgreSQL 和 SQL Server。14. 9. 3 节 介 绍 了 快照 隔离 。 这 儿 将 更 详细 地 观察 它 如 何 工作 。 

从 概念 上 讲 ， 快 照 隔 离 在 事务 开始 执行 时 给 它 数 据 库 的 一 份 " 快照 "。 然 后 ， 事 务 在 该 快照 上 操 
作 ， 和 其 他 并 发 事务 完全 隔离 开 。 快 照 中 的 数据 值 仅 包括 已 经 提交 的 事务 所 写 的 值 。 这 种 隔离 对 于 只 
读 事 务 来 说 是 理想 的 ， 因 为 它们 不 用 等 待 ， 也 不 会 被 并 发 管理 器 中 止 。 当 然 ， 更 新 数据 库 的 事务 在 将 
更 新 写 人 数据 库 之 前 ， 必 须 处 理 与 其 他 并 发 更 新 的 事务 之 间 存 在 的 潜在 冲突 。 更 新 操作 发 生 在 事务 的 


第 15 章 并 发 控制 


私有 工作 空间 中 ， 直 到 事务 成 功 提交 ， 此 时 更 新 写 人 数据 库 。 当 人 允许 事务 7 提交 时 ， 事 务 了 变 为 提交 
状态 ， 并 且 了 对 数据 库 的 所 有 写 操作 都 必须 作为 一 个 原子 操作 执行 ， 以 保证 其 他 事务 的 快照 要 么 包括 
了 的 所 有 更 新 ， 要 么 任何 都 不 包括 。 

15.7.1 更 新 事务 的 有 效 性 检验 步骤 

决定 是 否 允 许 一 个 更 新 事务 的 提交 需要 小 心 。 潜 在 地 ， 两 个 并 发 执行 的 事务 可 能 会 更 新 同一 个 数 
据 项 。 由 于 两 个 事务 的 操作 用 它们 各 自 的 私有 快照 隔离 ， 因 此 任何 事务 都 看 不 到 对 方 所 做 的 更 新 。 如 
果 两 个 事务 都 允许 写 人 数据 库 ， 第 一 个 更 新 的 写 人 将 被 第 二 个 覆盖 。 结 果 导 致 一 个 更 新 丢失 (1lost 
update) 。 显 然 地 ， 这 必须 预防 。 快 照 隔离 有 两 个 变种 ， 都 防止 了 更 新 丢失 。 它 们 称 为 先 提交 者 获胜 和 
先 更 新 者 获胜 。 两 种 方法 都 基于 检查 事务 的 并 发 事务 。 一 个 事务 称 为 与 了 并 发 (concurrent with T) ， 如 
果 在 从 了 开始 到 执行 这 个 检查 之 间 的 任何 时 刻 该 事务 是 活跃 的 或 者 部 分 提交 的 。 

按照 先 提交 者 获胜 (first committer wins) 方 法 ， 当 事务 T 进入 部 分 提交 状态 ， 以 下 操作 作为 一 个 原 
子 操作 执行 : 

。 检查 是 否 有 与 了 并 发 执行 的 事务 ， 对 于 7 打算 写 和 的 某 些 数据 ， 该 事务 已 经 将 更 新 写 人 数 

据 库 。 

。 如 果 发 现 这 样 的 事务 ， 则 了 中 止 。 

。 如 果 没 有 发 现 这 样 的 事务 ， 则 了 提交 ， 并 且 将 更 新 写 和 数据库 。 

这 种 方法 称 为 “ 先 提交 者 获胜 ”"， 因 为 如 果 事 务 发 生 冲突 ,第 一 个 使 用 上 述 规则 检查 的 事务 成 功 地 
写 和 更新， 而 随后 的 事务 则 被 迫 中 止 。 有 关 如 何 实 现 以 上 检查 的 细节 在 习题 15. 19 中 讨论 。 

按照 先 更 新 者 获胜 ( first updater wins) 方 法 ,系统 采用 一 种 仅 用 于 更 新 操作 的 锁 机 制 ( 读 操作 不 受 此 
影响 ， 因 为 它们 不 获得 锁 ) 。 当 事务 人 试图 更 新 一 个 数据 项 时 ， 它 请 求 该 数据 项 的 一 个 写 锁 。 如 果 没 
有 另 一 个 并 发 事务 持 有 该 锁 ， 则 获得 锁 后 执行 以 下 步骤 : 

© 如 果 这 个 数据 项 已 经 被 任何 并 发 事务 更 新 ， 则 T, 中 止 。 

。 否则 T, 能够 执行 其 操作 ， 可 能 包括 提交 。 

然而 ， 如 果 另 一 个 并 发 事务 T, 已 经 持 有 该 数据 项 的 写 锁 ， 则 T, 不 能 执行 ， 并 且 执 行 以 下 规则 : 

。 T, 等 待 直到 T, 中 止 或 提交 。 

口 如 果 T 中止， 则 锁 被 释放 并 且 T, 可 以 获得 锁 。 当 获得 锁 后 ， 执 行 前 面 描述 的 对 于 并 发 事务 
的 更 新 检查 : 如 果 有 男 一 个 并 发 事务 更 新 过 该 数据 项 ， 则 7, 中 止 ; 否则 ， 执 行 其 操作 。 
O WR T E, W T 必须 中 止 。 

当 事 务 提交 或 中 止 时 ， 锁 被 释放 。 

这 种 方法 称 为 先 更 新 者 获胜 ” ， 因 为 如 果 事 务 发 生 冲突 ， 人 允许 第 一 个 获得 锁 的 事务 提交 并 完成 其 
更 新 。 其 后 试图 更 新 的 事务 中 止 ， 除 非 第 一 个 更 新 者 随后 由 于 其 他 原因 中 止 。( 除 了 等 待 看 第 一 个 事务 
7 是否 中 止 ， 其 后 的 更 新 者 T, 可 以 在 发 现 它 所 想 要 的 写 锁 被 7 持 有 时 立刻 中 止 。) 

15.7.2 串 行 化 问题 

快照 隔离 在 实践 中 很 有 吸引 力 ， 因 为 其 开销 低 并 且 没 有 中 止 发 生 ， 除 非 两 个 并 发 的 事务 更 新 同一 
个 数据 项 。 

然而 ， 我 们 前 面 所 给 出 的 ， 以 及 在 实践 中 实现 的 快照 隔离 机 制 存 在 一 个 严重 的 问题 : 快照 隔离 不 
能 保证 可 串 行 化 。 即 使 在 将 快照 隔离 作为 串 行 化 隔离 级 别 实现 的 Oracle 中 也 是 如 此 ! 下 面 举例 说 明快 
照 隔 离 下 可 能 的 非 可 串 行 化 执行 ， 并 且说 明 如 何 解决 。 

1. 假设 有 两 个 并 发 事务 7, 和 7， 以 及 两 个 数据 项 4 AB. BRT, ERAMB, 然后 更 新 B, 而 7 
读 取 4 和 B， 然 后 更 新 4。 简单 起 见 ， 假 设 没 有 其 他 并 发 事务 。 由 于 7, 和 7 是 并 发 的 ， 因 此 任何 事务 
在 其 快照 内 不 能 看 到 对 方 的 更 新 。 但 是 ， 因 为 它们 更 新 的 是 不 同 数据 项 ， 不 管 系统 采用 先 提交 者 获胜 
或 者 先 更 新 者 获胜 ， 两 者 都 可 以 提交 。 

然而 ， 优 先 图 有 一 个 环 。 优 先 图 中 从 T, 到 娓 有 一 条 边 ， 因 为 工 在 也 写 4 之 前 读 取 4 的 值 。 同 样 ， 
优先 图 中 从 7 到 7 也 有 一 条 边 ， 因 为 7 在 7, 写 8 之 前 读 取 8B 的 值 。 由 于 优先 图 中 存在 环 ， 因 此 结果 
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是 非 可 串 行 化 的 。 

一 对 事务 中 的 每 一 个 都 读 取 对 方 写 的 数据 ， 但 是 不 存在 两 者 同时 写 的 数据 ， 这 种 情况 称 为 写 偏锋 
(write skew) 。 举 一 个 写 偏 斜 的 具体 例子 ， 考 虑 一 个 银行 场景 。 假 设 银行 通过 完整 性 约束 限制 一 个 客户 
的 支票 账户 和 储蓄 账户 的 余额 之 和 不 能 为 负 。 假 设 一 个 客户 的 支票 账户 余额 和 储蓄 账户 余额 分 别 为 
100 美元 和 200 美元 。 假 设 事务 7; 读 这 两 个 余额 ， 进 行 完整 性 约束 核实 ， 从 支票 账户 中 取出 200 美元 
假设 另 一 个 并 发 执行 的 事务 7; 也 经 过 完整 性 约束 核实 ， 从 储蓄 账户 中 取出 200 美元 。 由 于 每 个 事务 都 
在 其 快照 上 进行 完整 性 约束 检验 ， 如 果 它 们 同时 执行 ， 任 何 一 方 都 会 相信 取款 后 的 余额 之 和 为 100 美 
元 ， 因 此 取款 并 不 违反 完整 性 约束 。 由 于 两 个 事务 更 新 不 同 的 数据 项 ， 它 们 之 间 不 存在 更 新 冲突 ， 因 
此 在 快照 隔离 下 两 者 都 可 以 提交 。 

遗憾 的 是 ， 在 Th 和 7 都 提交 后 的 状态 中 ， 余额 之 后 为 - 100 美元 ， 违 反 了 完整 性 约束 。 这 种 违反 
不 可 能 出 现在 7 和 7; 的 串 行 执行 中 。 

值得 注意 的 是 ， 由 数据 库 强 制 执行 的 完整 性 约束 ， 例 如 主键 和 外 键 约束 ， 不 能 在 快照 上 进行 检查 ; 
否则 将 可 能 有 两 个 并 发 事务 同时 插入 主键 相同 的 记录 ， 或 者 一 个 事务 插入 一 个 外 键 值 ， 而 另 一 个 并 发 
事务 从 引用 的 表 中 删除 该 值 。 相 反 ， 数 据 库 系统 必须 在 数据 库 的 当前 状态 下 检查 约束 ， 作 为 提交 时 有 
效 性 检验 的 一 部 分 。 

5654] 2. 在 接 下 来 的 例子 中 ,我 们 考虑 两 个 并 发 更 新 事务 本 身 是 可 串 行 化 的 且 不 存在 任何 问题 但 是 当 
一 个 只 读 事 务 出 现在 某 个 时 刻 时 正好 会 造成 问题 。 

假设 有 两 个 并 发 事务 7, 和 7， 以 及 两 个 数据 项 4 和 8B。 假设 7, 读 取 B， 然 后 更 新 B， 而 T, 读 取 4 
和 B， 然 后 更 新 4。 同 时 并 发 执行 这 两 个 事务 没有 问题 。 由 于 7, 只 访问 数据 项 B， 在 数据 项 4 上 没有 冲 
突 ， 因 此 优先 图 中 没有 环 。 优 先 图 中 唯一 的 边 是 从 7, 指向 7,， 因 为 7, 在 7, 写 人 8B 前 读 取 B 的 值 。 

然而 ,假设 7, 提交 时 T, 仍然 活跃 。 假 设 7, 提交 后 但 7 尚未 提交 时 ， 一 个 新 的 只 读 事 务 T, 进入 系 
统 ， 而 且 7, 读 取 4 和 B。 它 的 快照 包括 7, 的 更 新 ， 由 于 了. 已 经 提交 。 然 而 ， 由 于 7 REX, CHE 
新 还 未 写 入 数据库 ， 因 此 不 包含 在 7, 的 快照 中 。 

考虑 优先 图 中 添加 的 与 T, 相关 的 边 。 优 先 图 中 有 一 条 从 7, 到 T, 的 边 ， 因 为 7 在 7, 读 取 8 之 前 
写 人 8 的 值 。 优 先 图 中 还 有 一 条 从 T, BIT, 的 边 ， 因 为 7, 在 7, 写 4 之 前 读 取 4 的 值 。 这 导致 优先 图 中 
出 现 环 ， 说 明 调 度 是 非 可 串 行 化 的 。 

上 述 异 常 可 能 不 像 它 们 乍 一 看 起 来 那样 麻烦 。 回 想 串 行 化 的 原因 是 为 了 确保 在 事务 并 发 执行 时 的 
数据 库 保持 一 致 性 。 因 为 一 致 性 是 目标 ， 所 以 我 们 可 以 接受 潜在 的 非 可 串 行 化 执行 ， 如 果 我 们 确信 那 
些 可 能 出 现 的 非 可 串 行 化 执行 不 会 导致 不 一 致 。 上 述 第 二 个 例子 只 有 在 提交 只 读 事务 ( 7,) 的 应 用 关心 
A 和 有 的 更 新 出 现 乱 序 时 才 会 出 现 问题 。 在 这 个 例子 中 ,我 们 没有 指定 每 个 事务 必须 保持 的 数据 库 一 
致 性 约束 。 如 果 我 们 是 在 处 理 一 个 金融 数据 库 ，7, 读 取 非 可 串 行 的 更 新 时 会 出 现 严 重 问题 。 而 如 果 4 
和 B 是 同一 个 课程 的 两 次 开课 的 注册 数 ， 则 T, 不 要 求 理想 的 可 串 行 化 ， 并 且 我 们 可 以 从 应 用 中 得 知 更 
新 频率 足够 低 ， 因 此 T, 读 取 中 的 不 准确 也 是 不 重要 的 。 

数据 库 必 须 在 提交 时 而 非 快照 上 检查 完整 性 约束 这 一 事实 也 帮助 避免 在 某 些 情况 下 的 不 一 致 。 一 
些 金融 应 用 程序 创建 连续 的 序列 号 ， 例 如 在 给 账单 编号 时 ， 将 新 账单 号 设置 为 当前 最 大 账单 号 加 1。 
如 果 两 个 事务 并 发 执行 ， 每 一 方 在 其 快照 中 都 会 看 到 相同 的 账单 集合 ， 每 一 方 都 会 创建 具有 相同 账单 

号 的 新 账单 。 两 个 事务 都 通过 快照 隔离 的 有 效 性 检验 ， 因 为 它们 不 更 新 相同 的 元 组 。 然 而 ， 执 行 是 非 
串 行 化 的 。 由 此 产生 的 数据 库 状态 无 法 从 两 个 事务 的 任何 串 行 执行 中 得 到 。 创 建 两 个 具有 相同 账单 号 
的 账单 可 能 会 导致 严重 的 法 律 后 果 。 

上 述 问题 是 一 个 幻象 的 例子 ，15. 8. 3 节 将 描述 它 ， 因 为 任何 一 个 事务 执行 的 插入 操作 都 会 和 另 一 
个 事务 读 取 最 大 账单 号 的 读 操作 冲突 ， 但 是 这 种 冲突 不 能 通过 快照 隔离 检测 到 。 S 

幸运 的 是 ， 在 大 多 数 应 用 程序 中 账单 号 会 声明 为 主键 ， 数 据 库 系统 会 在 快照 之 外 检查 主键 冲突 ， 





© SQL 标准 中 的 术语 幻象 问题 指 非 可 重复 谓词 读 ， 导 致 一 些 人 声称 快照 隔离 避免 了 幻象 问题 。 然 而 ， 根 据 我 们 对 约 
象 冲突 的 定义 ， 该 声称 是 无 效 的 。 
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并 且 回 滚 事务 中 的 一 方 。 
程序 开发 人 员 可 以 通过 将 以 下 for update 子 句 附加 到 SQL 查询 语句 之 后 来 防止 这 种 快照 异常 


select” 

from instructor 
where ID =22222 
for update; 


添加 for update 子 句 会 使 系统 出 于 并 发 控制 的 目的 将 读 取 的 数据 作为 刚 被 更 新 来 对 待 。 在 第 一 个 
关于 写 偏 斜 的 例子 中 ， 如 果 for update 子 句 附加 到 查询 账户 余额 的 查询 语句 之 后 ， 那 么 两 个 并 发 事务 
中 只 有 一 个 允许 提交 ， 因 为 看 起 来 两 个 事务 都 对 支票 账户 和 储蓄 账户 余额 进行 更 新 。 

在 第 二 个 非 可 串 行 化 执行 的 例子 中 ， 如 果 事 务 T, 的 发 起 者 希望 避免 异常 ，for update 子 句 可 以 附 
加 到 查询 语句 之 后 ， 尽 管事 实 上 没有 更 新 。 在 该 例子 中 ， 如 果 T, 采用 select for update， 则 当 它 读 取 4 
和 B 时 作为 对 它们 的 更 新 。 结 果 将 是 或 者 T, 或 者 7, 中止 ， 并 稍 后 作为 一 个 新 事务 重 试 。 这 将 会 得 到 
一 个 可 串 行 化 的 执行 。 在 这 个 例子 中 ， 另 外 两 个 事务 中 的 查询 不 需要 添加 for update 子 句 ， 不 必要 的 
for update 子 句 会 导致 并 发 度 的 显著 下 降 。 

存在 规范 的 方法 ( 见 文 献 注解 ) 用 来 判断 给 定 一 个 事务 的 混合 运行 ， 是 否 存在 快照 隔离 下 非 可 串 行 
化 执行 的 风险 ， 并 且 决 定 引 入 何 种 冲突 (例如 采用 for update 子 句 ) 来 保证 可 串 行 化 。 当 然 ， 这 些 方法 
只 有 在 我 们 事先 知道 要 执行 什么 事务 时 才 有 效 。 在 一 些 应 用 中 ， 所 有 事务 都 是 预先 确定 的 事务 集中 的 事 
务 ， 这 使 得 这 种 分 析 成 为 可 能 。 然 而 ， 如 果 应 用 允许 不 受 限制 的 、 临 时 的 事务 ， 则 这 种 分 析 是 不 可 能 的 。 

在 三 个 广泛 应 用 的 支持 快照 隔离 的 系统 中 ，SQL Server 提供 了 一 个 可 串 行 化 隔离 级 别 选 项 ， 它 能 
真正 保证 可 串 行 化， 以 及 一 个 快照 隔离 级 别 选 项 ， 它 提供 快照 隔离 的 性 能 优势 (连同 上 面 讨 论 的 潜在 异 
常 ) 。 在 Oracle 和 PostgreSQL 中 ， 可 串 行 化 隔离 级 别 仅 提 供 快 照 隔离 。 


15.8 插入 操作 、 删 除 操作 与 谓词 读 


目前 为 止 我 们 一 直 把 注意 力 集中 在 read 与 write 操作 上 。 这 就 限制 了 事务 只 能 处 理 已 存在 于 数据 
库 中 的 数据 项 。 一 些 事务 不 仅 要 求 访问 已 存在 的 数据 项 ， 而 且 要 求 创建 新 的 数据 项 ; 还 有 一 些 事 务 要 
求 能 删除 数据 项 。 为 考察 这 样 的 事务 如 何 影 响 并 发 控制 ， 我 们 引入 如 下 操作 。 

© delete(Q): 从 数据 库 中 删除 数据 项 Q. 

。 insert(Q): 插入 一 个 新 的 数据 项 0 到 数据 库 中 并 赋予 0 一 个 初 值 。 

事务 7 试图 在 @ 被 删除 后 执行 read( 0) 操 作 将 导致 7, 中 的 逻辑 错误 。 类 似 地 ， 事务 7 在 0 被 插 
入 之 前 执行 read( 0) 操 作 也 会 导致 7; 中 的 逻辑 错误 。 试 图 删除 并 不 存在 的 数据 项 也 是 一 个 逻辑 错误 。 
15.8.1 删除 

要 理解 delete 指令 怎样 影响 并 发 控制 ， 我 们 必须 弄 清 delete 指令 何 时 与 另 一 指令 发 生 冲 突 。 令 1 
与 1 分 别 是 7 与 7 的 指令 ,它们 连续 地 出 现 于 调度 S 中 。 令 /=delete(Q)。 我 们 考虑 几 条 指令 了。 
I =read(Q): L, 51 冲突。 如果 1 出 现在 1 之前, 事务 7 将 出 现 逻 辑 错 误 。 如 果 /出 现在 了/ 
ZA, 事务 7 可 以 成 功 执行 read 操作 。 
I, = write(O) : 天 与 二 冲突 。 如 果 大 出 现在 厂 之 前 ， 事 务 T 将 出 现 逻 辑 错误 。 如 果 厂 出 现在 1 
之 前 ， 事 务 7 可 以 成 功 执行 write 操作 。 
[,=delete(Q) : J, 91, R. WIR], MEL SH, BST, BPR. WR 出 现在 1 
之 前 ， 事 务 T 将 出 现 逻 辑 错误 。 
I, =insert( Q); 1, 5 1, 冲突。 假设 数据 项 Q 在 执行 /与 1 之 前 不 存在 。 那 么 ,车 1; 出 现在 1 之 
A, 事务 7 将 出 现 逻 辑 错误 。 如 果 7 出 现在 7; 之前， 则 没有 逻辑 错误 。 类 似 地 ， 如 果 0 在 执 
行 1 与 1 之 前 已 存在 ， 则 如 果 7 出 现在 1 之 前 会 出 现 逻 辑 错误 ， 反 过 来 则 不 会 。 





-O KASERA I. L T. Bombay 金融 应 用 中 实际 发 生 过 几 次 ， 其 账单 号 不 是 作为 主键 (原因 过 于 复杂 ， 不 在 此 讨 
论 )， 问 题 是 由 财务 审计 员 发 现 的 。 
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697 我 们 可 以 总 结 如 下 : 
。 在 两 阶段 封锁 协议 下 ， 一 数据 项 可 以 删除 之 前 ， 在 该 数据 项 上 必须 请 求 加 排他 锁 。 
© 在 时 间 惟 排序 协议 下 ， 必 须 执行 类 似 于 为 write 操作 进行 的 测试 。 假 设 事 务 了 发 出 delete( 0): 
O 如 果 TS(T,) <R-timestamp( Q), W T, 将 要 删除 的 Q 值 已 被 满足 TS(T)>TS(7) 的 事务 7 读 
取 。 因 此 ，delete 操作 被 拒绝 ，7, 回 滚 。 
口 如 果 TS(T,) < W-timestamp( Q), MI Æ TS(T,) >TS(7 ) 的 事务 T, 已 经 写 过 Q. Alt, delete 
操作 被 拒绝 ，7, ER. 
口 否则 ， 执 行 delete 操作 。 
15.8.2 插入 
我 们 已 经 看 到 insert( 0 ) 操作 与 delete (Q) 操作 冲突 。 类 似 地 ，insert(O ) HEF read (Q) 操作 或 
write( Q) 操作 冲突 。 在 数据 项 存在 之 前 不 能 进行 read 或 write 操作 。 
由 于 insert( 0) 给 数据 项 0 赋值 ， 在 并 发 控制 中 应 当 类 似 于 处 理 write 操作 那样 处 理 insert 操作 : 
。 在 两 阶段 封锁 协议 下 ， 如 果 T, 执行 insert( 8) 操作 ， 就 在 新 创建 的 数据 项 0 上 赋予 了 7. 排他 锁 。 
。 在 时 间 惟 排序 协议 下 ， 如 果 T, 执行 insert(O ) 操作 ， 就 把 R-timestamp( Q) 与 W-timestamp( Q) 的 
{Hi BM TS(T;) o 
15.8.3 谓词 读 和 幻象 现象 
考虑 事务 Ta ， 它 在 大 学 数据 库 上 执行 以 下 SQL 查询 : 
select count( ` ) 


from instructor 
where dept_name = 'Physics’ ; 


事务 To 需要 访问 instructor 关系 中 与 Physics 系 相 关 的 所 有 元 组 。 
考虑 事务 Ta, EHTA F SQL 搬入: 
insert into instructor 
values(11111,’Feynman’,'Physics’, 94000) ; 
698 S 5 是 包含 事务 Tu 与 7, 的 调度 。 由 于 下 面 的 原因 ， 我 们 预计 冲突 是 可 能 存在 的 : 
© 如 果 Tu 在 计算 count( * ) 时 使 用 7 新 近 插 入 的 元 组 ， 则 Ta 读 取 7 写 和 人 的 值 。 因 此 ， 在 等 价 于 
S WRITER, Ta 必须 先 于 Too 
© 如 果 To 在 计算 count( + ) 时 未 使 用 7, 新 近 插 入 的 元 组 ， 则 在 等 价 于 S 的 串 行 调度 中 ，7% 必 须 
MT Tiyo 

这 两 种 情况 中 的 第 二 种 让 人 感到 奇怪 。T% 与 7 没有 访问 共同 的 元 组 ,但 它们 相互 冲突 ! 事实 上 ， 
7 与 7 在 一 个 幻象 元 组 上 发 生 冲 突 。 如 果 并 发 控制 在 元 组 级 粒度 上 进行 ， 该 冲突 将 难以 发 现 。 结 果 
是 ， 系 统 也 许 不 能 防止 出 现 非 可 串 行 化 调度 。 我 们 把 这 种 现象 称 为 幻象 现象 (phantom phenomenon) - 

除了 幻象 问题 ， 我 们 还 需要 处 理 14. 10 节 中 我 们 看 到 的 情况 ， 一 个 事务 利用 索引 查询 dept_name = 
“Physics” 的 元 组 ， 因 此 它 不 读 取 其 他 系 的 任何 元 组 。 如 果 男 一 个 事务 更 新 这 些 元 组 中 的 一 个 ， 把 它 的 
系 名 称 改 为 Physics， 一 个 相当 于 幻象 问题 的 问题 则 会 出 现 。 这 些 问题 都 是 由 谓词 读 导 致 的 ， 并 且 有 共 
同 的 解决 方法 。 

为 防止 幻象 现象 ， 我 们 允许 Tw 阻止 其 他 事务 在 关系 instructor 上 创建 dept_name = “Physics "的 新 元 
组 ， 并 且 阻 止 将 一 个 已 有 的 instructor 元 组 的 系 名 更 新 为 Physics。 

为 找到 关系 instructor 中 满足 条 件 dept_name = “Physics” HIMA JCH, To UIR RRA instructor X 
系 ， 或 至 少 搜索 关系 上 的 一 个 索引 。 到 现在 为 止 ， 我 们 隐 含 地 假设 事务 所 访问 的 数据 项 仅仅 是 元 组 。 
Ril, BS 7 是 一 个 读 取 关 系 中 有 哪些 元 组 这 一 信息 的 事务 的 例子 ， 而 事务 Ta 则 是 更 新 这 种 信息 的 
事务 的 例子 。 

显然 ， 仅 仅 封 锁 所 访问 的 元 组 是 不 够 的 ; 用 来 找 出 事务 访问 的 元 组 的 信息 也 需要 封锁 。 

封锁 用 来 找 出 要 访问 的 元 组 的 信息 可 以 通过 将 一 个 数据 项 与 关系 关联 在 一 起 来 实现 ; 该 数据 项 代 
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表 一 种 信息 ， 事 务 用 它 来 查找 关系 中 的 元 组 。 读 取 关 系 中 有 哪些 元 组 这 一 信息 的 事务 ， 如 事务 To, V 
须 以 共享 模式 封锁 对 应 于 该 关系 的 数据 项 。 更 新 关系 中 有 哪些 元 组 这 一 信息 的 事务 ， 如 事务 7,, ， 必 须 
以 排他 模式 封锁 对 应 于 该 关系 的 数据 项 加 。 这 样 ， 事务 7% 与 7 将 在 一 个 真实 的 数据 项 上 发 生 冲 突 ， 
而 不 是 在 幻象 上 发 生 冲 突 。 类 似 地 ， 使 用 索引 来 检索 元 组 的 事务 必须 封锁 索引 本 身 。 
不 要 将 多 粒度 封锁 中 对 整个 关系 的 封锁 与 这 儿 讲 的 对 对 应 于 关系 的 数据 项 的 封锁 相 混淆 。 通 过 封 
锁 该 数据 项 ， 一 个 事务 只 是 阻止 其 他 事务 对 关系 中 有 哪些 元 组 这 一 信息 的 修改 。 对 元 组 的 封锁 仍 是 需 
要 的 。 直 接 访 问 某 个 元 组 的 事务 可 以 被 授予 该 元 组 上 的 锁 ， 即 使 另 一 个 事务 在 对 应 于 关系 本 身 的 数据 
项 上 持 有 排他 锁 。 
封锁 对 应 于 关系 的 一 个 数据 项 或 者 封锁 整个 索引 的 主要 缺点 是 并 发 程度 低 一 一 往 关 系 中 插 和 人 不同 
元 组 的 两 个 事务 也 不 能 并 发 执行 。 
较 好 的 解决 方法 是 使 用 索引 封锁 (index-locking) 技 术 ， 它 避免 封锁 整个 索引 。 在 关系 中 插 人 元 组 的 
任何 事务 必须 在 该 关系 上 维护 的 每 一 个 索引 中 插 人 有 关 信 息 。 通 过 使 用 索引 的 封锁 协议 ， 我 们 可 以 消 
除 幻象 现象 。 为 简单 起 见 ， 我 们 只 考虑 B WRI. 
正如 我 们 在 11 章 中 看 见 的 那样 ， 每 一 个 搜索 码 值 与 索引 中 的 一 个 叶 结 点 相关 联 。 查 询 通常 使 用 一 
个 或 多 个 索引 来 访问 关系 。 插 和 人 操作 必须 在 关系 的 所 有 索引 中 插 人 新 元 组 。 在 该 例子 中 ， 假 定 在 关系 
instructor 的 dept_name 上 建立 了 索引 。 那 么 ， 事 务 ,必须 修改 包含 码 值 “Physics” 的 叶 结 点 。 如 果 Ty E 
取 同 一 叶 结 点 ， 查 找 有 关 Physics 系 的 所 有 元 组 ， 则 7 与 ,在 该 叶 结 点 上 发 生 冲 突 。 
通过 将 幻象 现象 实例 转换 为 对 索引 叶 结 点 上 封锁 的 冲突 ， 索 引 封锁 协议 (index-locking protocol ) 利 
用 了 关系 上 索引 的 可 用 性 。 该 协议 运作 如 下 : 
。 每 个 关系 至 少 有 一 个 索引 。 
e 只 有 首先 在 关系 的 一 个 或 多 个 索引 上 找到 元 组 后 ， 事 务 7, 才能 访问 关系 上 的 这 些 元 组 。 为 了 达 
到 索引 封锁 协议 的 目的 ， 全 表 扫 描 看 作 一 个 索引 上 所 有 叶 结 点 的 扫描 。 

。 进行 查找 (不 管 是 区 间 查 找 还 是 点 查找 ) 的 事务 T, 必须 在 它 要 访问 的 所 有 索引 叶 结 点 上 获得 共 
享 锁 。 

。 在 没有 更 新 关系 > 上 的 所 有 索引 之 前 ， 事 务 T, 不 能 插入 、 删 除 或 更 新 关系 > 中 的 元 组 o AF 
务必 须 获 得 插入 、 删 除 或 更 新 所 影响 的 所 有 索引 叶 结 点 上 的 排他 锁 。 对 于 插入 与 删除 ， 受 影响 
的 叶 结 点 是 那些 ( 插 人 后 ) 包 含 或 (删除 前 ) 包 含 元 组 搜索 码 值 的 叶 结 点 。 对 于 更 新 ， 受 影响 的 
叶 结 点 是 那些 (修改 前 ) 包 含 搜索 码 旧 值 的 叶 结 点 ， 以 及 (修改 后 ) 包 含 搜索 码 新 值 的 叶 结 点 。 

。 元 组 照常 获得 锁 。 

。 必须 遵循 两 阶段 封锁 协议 规则 。 

请 注意 ， 索 引 封锁 协议 并 不 关注 索引 内 部 结 点 的 并 发 控制 问题 。 最 小 化 锁 冲 突 的 索引 并 发 控制 技 
术 将 在 15. 10 节 介 绍 。 

封锁 一 个 索引 叶 结 点 阻止 了 该 结 点 上 的 任何 更 新 ， 即 使 这 个 更 新 实际 上 并 没有 与 谓词 冲突 。 一 个 
称 为 码 值 封锁 的 变种 将 在 15. 10 节 作 为 索引 并 发 控制 的 一 部 分 介绍 ， 它 可 以 使 这 样 的 假 的 锁 冲 突 最 
小 化 。 

如 14. 10 节 所 指出 的 ， 事务 之 间 的 冲突 看 起 来 取决 于 低级 别 的 系统 查询 处 理 决策 ， 而 与 用 户 级 别 
的 事务 含义 无 关 。 另 一 种 并 发 控制 的 方法 允许 给 查询 中 的 谓词 加 共享 锁 ， 如 关系 instructor 上 的 谓词 
“salary > 90000”。 关 系 上 的 插入 和 删除 操作 都 要 检查 是 否 满足 谓词 。 若 满足 ， 则 存在 锁 冲 突 ， 插 入 和 
删除 操作 要 等 待 直 到 谓词 锁 被 释放 。 对 于 更 新 操作 ， 元 组 的 初始 值 和 最 终 值 都 要 检查 是 否 满足 谓词 。 
这 些 冲 突 的 插入 、 删 除 和 更 新 操作 影响 谓词 选中 的 元 组 集合 ， 因 此 不 能 允许 它们 与 已 获得 (共享 的 ) 谓 
词 锁 的 查询 并 发 执行 。 我 们 称 以 上 的 协议 为 谓词 锁 (predicate locking), = 谓词 锁 在 实践 中 不 采用 ， 因 
为 相 比较 于 索引 封锁 机 制 ， 它 的 实现 代价 很 大 ， 但 又 不 能 带 来 显著 的 额外 好 处 。 





o 术语 谓词 锁 用 于 对 谓词 使 用 共享 锁 和 排他 锁 的 协议 的 一 个 版 本 ， 因 此 更 加 复杂 。 我 们 在 此 给 出 的 版 本 仅 含 有 在 
谓词 上 的 共享 锁 ， 因 此 也 叫做 精确 锁 ( precision locking) 
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谓词 锁 技术 存在 一 些 变 种 ， 可 以 用 来 消除 本 章 中 其 他 并 发 控制 协议 下 的 幻象 现象 。 然 而 ， 许 多数 
据 库 ， 如 PostgreSQL (版 本 8.1) 和 Oracle (版 本 10g) (就 我 们 所 知 ) 都 没有 实现 索引 封锁 和 谓词 锁 ， 而 
且 即 使 将 隔离 性 级 别 设置 为 可 串 行 化 ， 也 很 容易 由 于 幻象 问题 导致 非 可 串 行 性 。 


15.9 实践 中 的 弱 一 致 性 级 别 


14. 5 节 讨 论 了 SQL 标准 中 的 隔离 级 别 : 可 串 行 化 、 可 重复 读 、 已 提交 读 和 未 提交 读 。 本 节 首 先 简 
要 介绍 一 些 比 可 串 行 化 级 别 弱 的 一 致 性 级 别 的 较 老 技术 ， 并 将 它们 与 SQL 标准 级 别 相关 联 。 然 后 我 们 
将 讨论 在 14. 8 节 中 已 简要 讨论 过 的 涉及 用 户 交 互 的 事务 并 发 控制 问题 。 
15.9.1 二 级 一 致 性 

二 级 一 致 性 (degree-two consistency) 的 目的 是 在 不 必 保 证 可 串 行 性 的 前 提 下 防止 发 生 级 联 中 止 。 二 
级 一 致 性 的 封锁 协议 采用 两 阶段 封锁 协议 中 我 们 用 过 的 同样 的 两 类 锁 ， 共 享 锁 (S$) 和 排他 锁 ( 民 ) 。 事 务 
必须 持 有 适当 的 锁 才 能 访问 数据 项 ， 但 是 两 阶段 动作 不 是 必需 的 。 

与 两 阶段 封锁 的 情况 大 不 相同 ， 这 里 共享 锁 可 以 在 任何 时 候 释 放 ， 并且 锁 可 以 在 任何 时 间 获 得 ， 
而 排他 锁 只 有 在 事务 提交 或 中 止 后 才能 释放 。 该 协议 不 保证 可 串 行 性 。 实 际 上 ， 事务 有 可 能 两 次 读 取 
同一 数据 项 却 得 到 不 同 结果 ， 如 在 图 15-20 H, TE 7, 写 Q 值 之 前 和 之 后 读 取 Q 值 。 











显然 ， 读 取 不 是 可 重复 读 ， 但 是 由 于 直到 事务 提交 前 一 直 持 有 排他 锁 ， i Ki 
因此 没有 事务 可 以 读 取 未 提交 的 值 。 因 此 ， 二 级 一 致 性 是 已 提交 读 隔离 性 水 iocksID) 
平 的 一 种 特殊 实现 。 read(Q) 
unlock(Q) 

15.9.2 游标 稳定 性 look x(Q) 

游标 稳定 性 (cursor stability ) 是 二 级 一致 性 的 一 种 形式 ， 它 是 为 利用 游标 ee 
对 关系 中 的 元 组 进行 迭代 的 程序 而 设计 的 。 它 不 封锁 整个 关系 ， 游 标 稳定 性 oos | MOM 
保证 : read(Q) 

。 正 被 迭代 处 理 的 元 组 被 加 上 共享 锁 。 unlock) 

。 任何 被 更 改 的 元 组 被 加 上 排他 锁 ， 直 至 事务 提交 。 图 15-20 具有 二 级 一 至 


这 些 规 则 保证 了 二 级 一 致 性 ， 不 要 求 两 阶段 封锁 ， 没 有 保证 调度 的 可 串 ”性 的 非 可 串 行 化 调度 
行 性 。 实 践 中 游标 稳定 性 用 于 频繁 访问 的 关系 ， 以 作为 一 种 提高 并 发 性 和 改 
善 系统 性 能 的 方法 。 无 论 是 否 存在 非 可 串 行 化 的 调度 ， 利 用 游标 稳定 性 的 应 用 程序 必须 在 编码 上 确保 
数据 库 的 一 致 性 。 所 以 ， 游 标 稳 定性 的 用 途 局 限于 某 些 专门 的 并 且 具 有 简单 一 致 性 约束 的 情况 。 
15.9.3 ”跨越 用 户 交 互 的 并 发 控制 

并 发 控制 协议 通常 考虑 的 是 不 涉及 用 户 交互 的 事务 。 现 在 考虑 14. 8 节 中 涉及 用 户 交互 的 航空 公司 
座位 选择 的 例子 。 假 设 我 们 从 初始 时 将 座位 空闲 情况 显示 给 用 户 ， 直 到 确定 座位 选择 的 所 有 步骤 看 作 
一 个 事务 。 

如 果 使 用 两 阶段 封锁 协议 ， 飞 机 上 所 有 座位 都 被 加 上 共享 锁 ， 直 到 用 户 选 择 完 座位 ， 在 这 期 间 其 
他 事务 不 允许 更 新 座位 分 配 情况 。 显 然 ， 这 种 锁 是 非常 糟糕 的 ， 因 为 用 户 可 能 需要 很 长 的 时 间 来 做 出 
选择 ， 甚 至 放弃 交易 但 不 显 式 地 取消 。 可 以 采用 时 间 戳 协议 或 者 有 效 性 检验 来 代替 ， 避 免 加 锁 出 现 的 
问题 ,但 是 这 两 种 协议 会 在 另 一 个 用 户 B 更 新 座位 分 配 信息 时 中 止 用 户 4 的 事务 ， 即 使 用 户 B 选择 的 
座位 和 用 户 4 选择 的 座位 并 不 冲突 。 快 照 隔离 是 在 这 种 情况 下 最 好 的 选择 ， 因 为 只 要 用 户 B 没有 选择 
和 用 户 4 相同 的 座位 ，4 的 事务 就 不 会 中 止 。 

然而 ， 快 照 隔离 要 求 数据 库 记 录 一 个 事务 的 更 新 信息 ， 即 便 该 事务 已 经 提交 ， 但 只 要 任何 其 他 并 
发 的 事务 仍然 是 活跃 的 ， 这 对 于 长 事务 会 存在 问题 。 

另 一 种 方法 是 将 涉及 用 户 交 互 的 事务 划分 成 两 个 或 者 更 多 的 事务 ， 使 得 没有 事务 跨越 用 户 交 互 。 
如 果 我 们 的 座位 选择 事务 按照 这 样 进行 划分 ， 则 第 一 个 事务 将 读 取 空 闪 座位 ,第 二 个 事务 将 完成 分 配 
选择 的 座位 。 如 果 第 二 个 事务 编写 不 慎 ， 会 出 现在 分 配 座位 给 用 户 的 时 候 ， 没 有 检查 该 座位 是 否 同时 
分 配给 其 他 用 户 ， 导 致 更 新 丢失 的 问题 。 为 避免 这 个 问题 ， 正 如 14. 8 节 所 述 ， 第 二 个 事务 只 有 在 座位 
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没有 同时 分 配给 其 他 用 户 时 才能 将 其 分 配 。 

上 述 思想 在 另 一 种 并 发 控制 机 制 中 概 化 了 ， 该 机 制 使 用 存储 在 元 组 中 的 版 本 号 来 避免 更 新 丢失 。 
每 个 关系 模式 中 添加 一 个 额外 的 版 本 号 属性 ， 当 创建 元 组 时 初始 化 为 0。 当 一 个 事务 (第 一 次 ) 读 取 它 
试图 更 新 的 一 个 元 组 时 ， 它 记录 该 元 组 的 版 本 号 。 读 操作 作为 一 个 独立 的 数据 库 事务 执行 ， 因 此 任何 
所 获得 的 锁 被 立即 释放 。 更 新 操作 在 本 地 完成 ， 并 作为 提交 过 程 的 一 部 分 拷贝 到 数据 库 中 ， 采 用 作为 
原子 执行 的 以 下 步骤 ( 即 作 为 数据 库 事务 的 一 部 分 ): 

。 对 于 每 个 更 新 的 元 组 ， 事 务 检查 当前 的 版 本 号 是 否 等 于 第 一 次 读 取 事务 时 的 版 本 号 . 

1. 如 果 版 本 号 匹配 ， 则 执行 数据 库 中 该 元 组 的 更 新 ， 并 且 它 的 版 本 号 加 1。 
2. 如 果 版 本 号 不 匹配 ， 事 务 中 止 ， 回 滚 它 所 执行 的 所 有 更 新 。 

如 果 对 于 所 有 更 新 元 组 的 版 本 号 检查 成 功 ， 事 务 提交 。 值 得 一 提 的 是 时 间 戳 可 以 用 来 代 蔡 版 本 号 ， 
而 对 机 制 没 有 任何 影响 。 

注意 到 上 述 机 制 和 快照 隔离 的 相似 性 。 版 本 号 检查 实现 了 快照 隔离 中 的 先 提 交 者 获胜 规则 ， 而 且 
在 事务 活跃 时 间 很 长 的 情况 下 也 可 使 用 。 然 而 ， 与 快照 隔离 不 同 ， 事 务 的 读 操作 可 能 不 对 应 数据 库 中 
的 一 个 快照 。 与 有 效 性 检验 协议 不 同 ， 事 务 的 读 操 作 不 进行 检验 。 

我 们 将 以 上 的 机 制 称 为 不 做 读 有 效 性 检查 的 乐观 并 发 机 制 (optimistic concurrency control without read 
validation ) 。 不 做 读 有 效 性 检验 的 乐观 并 发 控制 机 制 提供 了 一 种 弱 的 串 行 化 水 平 ， 并 不 保证 可 串 行 化 。 
该 机 制 的 一 个 变种 是 在 提交 的 时 候 ， 除 了 检验 写 操 作 外 ， 还 采用 版 本 号 来 检验 读 操 作 ， 以 保证 事务 读 
取 的 元 组 在 初次 读 取 之 后 没有 更 新 。 这 种 机 制 即 我 们 前 面 看 到 的 乐观 并 发 控制 机 制 。 

上 述 机 制 已 经 被 应 用 程序 开发 人 员 广 泛 地 用 在 涉及 用 户 交 互 的 事务 处 理 中 。 该 机 制 的 一 个 诱 人 的 
特点 是 它 可 以 轻松 地 实现 在 数据 库 系 统 顶 层 。 作 为 提交 过 程 的 一 部 分 ， 检 验 和 更 新 操作 作为 一 个 单独 
的 数据 库 事务 执行 ， 并 采用 数据 库 的 并 发 控制 机 制 保持 提交 过 程 的 原子 性 。 以 上 机 制 同样 用 在 
Hibernate 对 象 关 系 映 射 系统 ( 见 9.4.2 节 ) 和 其 他 对 象 关系 映射 系统 中 ， 并 称 为 乐观 并 发 控制 (即使 默 
认 读 操作 不 检验 ) 。 在 Hibernate 中 涉及 用 户 交互 的 事务 称 为 对 话 ( conversation) ， 以 区 分 它们 和 采用 版 
本 号 的 常规 事务 检验 。 对 象 关 系 映 射 系 统 还 将 数据 库 元 组 在 内 存 中 以 对 象 的 形式 进行 缓存 ， 在 缓存 的 
对 象 上 执行 事务 。 对 象 上 的 更 新 在 事务 提交 时 转化 为 数据 库 上 的 更 新 。 数 据 可 能 会 在 缓存 中 存在 很 长 
的 时 间 ， 如 果 事 务 更 新 缓存 的 数据 ， 则 会 有 更 新 丢失 的 风险 。 因 此 ，Hibernate 和 其 他 关系 对 象 映射 系 
统 采用 透明 的 版 本 号 检查 作为 提交 过 程 的 一 部 分 。( 如果 需 要 可 串 行 化 ，Hibernate 允许 程序 员 绕 开 组 
存 ， 直 接 在 数据 库 上 执行 事务 。) 


15. 10 ”索引 结构 中 的 并 发 


对 索引 结构 访问 的 处 理 可 以 像 处 理 访问 其 他 数据 库 结 构 那 样 进行 ， 并 应 用 前 面 讲述 过 的 并 发 控制 
技术 。 然 而 ， 由 于 索引 访问 频繁 ， 它 们 将 成 为 封锁 竞争 的 集中 点 ， 从 而 导致 低 并 发 度 。 幸 运 的 是 ， 索 
引 不 必 像 其 他 数据 库 结构 那样 处 理 。 事 务 在 两 次 索引 查找 期 间 ， 发 现 索 引 结构 发 生 了 变化 ， 这 是 完全 
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可 以 接受 的 ， 只 要 索引 查找 返回 正确 的 元 组 集 。 因 此 ， 只 要 维护 索引 的 准确 性 ， 对 索引 进行 非 可 串 行 
化 并 发 存 取 是 可 接受 的 。 
我 们 讲述 两 种 并 发 访问 B * 树 的 技术 。 关 于 处 理 B 树 的 其 他 技术 ， 以 及 处 理 其 他 索引 结构 的 技术 
可 参阅 的 相关 文献 请 参见 文献 注解 。 
我 们 所 讲述 的 处 理 B “ 树 的 技术 基于 封锁 机 制 ， 但 既 不 采用 两 阶段 封锁 也 不 采用 树 形 协议 。 用 于 碍 
找 、 插 入 与 删除 的 算法 是 第 11 章 中 使 用 的 算法 ， 只 是 做 了 小 小 的 修改 。 
第 一 中 技术 叫 作 钱 行 协议 ( crabbing protocol ) : 
。 当 查 找 一 个 码 值 时 ， 和 蟹 行 协议 首先 用 共享 模式 锁 住 根 结 点 。 沿 树 向 下 遍历 ， 它 在 子 结 点 上 获得 
一 个 共享 锁 ， 以 便 向 更 远 处 遍历 ， 在 子 结 点 上 获得 锁 以 后 ， 它 释放 父 结 点 上 的 锁 。 它 重复 该 过 
程 直至 叶 结 点 。 
e 当 插 入 或 删除 一 个 码 值 时 ， 和 蟹 行 协议 采取 如 下 行动 : 
O 采取 与 查找 相同 的 协议 直至 希望 的 叶 结 点 ， 到 此 为 止 ， 它 只 获得 (和 释放 ) 共享 锁 。 
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O 它 用 排他 锁 封锁 该 叶 结 点 ， 并 且 插 入 或 删除 码 值 。 
DO 如 果 需 要 分 裂 一 个 结 点 或 将 它 与 兄弟 结 点 合并 ,或 者 在 兄弟 结 点 之 间 重 新 分 配 码 值 ， 秘 行 协 
议 用 排他 锁 封 锁 父 结 点 ， 在 完成 这 些 操作 后 ， 它 释放 该 结 点 和 兄弟 结 点 上 的 锁 。 
如 果 父 结 点 需要 分 裂 、 合 并 或 重新 分 布 码 值 ， 该 协议 保留 父 结 点 上 的 锁 ， 以 同样 方式 分 
裂 、 合 并 或 重新 分 布 码 值 ， 并 且 传 播 更 远 。 否 则 ， 该 协议 释放 父 结 点 上 的 锁 。 
该 协议 的 名 字 来 源 于 螃蟹 走路 的 方式 : 先 移动 一 边 的 腿 ， 然 后 另 一 边 的 ， 如 此 交 蔡 进行 。 该 协议 
的 封锁 过 程 ， 从 上 往 下 和 从 下 往 上 ( 发生 分 裂 、 合 并 或 重新 分 布 的 情况 ) ， 就 像 螃蟹 移动 一 样 。 





一 旦 某 个 操作 释放 了 一 个 结 点 上 的 锁 ， 别 的 操作 就 可 以 访问 该 结 点 。 在 向 下 的 搜索 操作 和 由 于 分 
裂 、 合 并 或 重新 分 布 传播 向 上 的 操作 之 间 有 可 能 出 现 死 锁 ， 系 统 能 很 容易 地 处 理 这 种 死 锁 ， 它 先 让 搜 
索 操 作 释 放 锁 ， 然 后 从 树 根 重启 它 。 

705 第 二 种 技术 使 用 一 个 改进 版 本 的 B 树 ， 称 为 B-link 树 ( B-link tree) ， 避 免 了 在 获取 另 一 个 结 点 的 
锁 时 还 占有 一 个 结 点 的 锁 ， T a 不 仅仅 是 叶 结 
点 ) 维 护 一 个 指向 右 兄 弟 结 点 的 指针 ， 这 个 指针 是 必要 的 ， 因 为 在 一 个 结 点 正在 分 裂 时 进行 的 查找 可 能 
不 仅 要 查找 该 结 点 而 生 可 能 要 查找 谈 结 点 的 有 兄弟 结 点 (如 果 存 在 的 话 )。 我 们 以 后 将 用 个 例子 来 说 
明 这 个 技术 。 但 首先 我 们 列 出 修改 后 的 B-link 树 封锁 协议 (B-link-tree locking protocol) 。 

。 ER: B 树 的 每 个 结 点 在 访问 之 前 必须 加 共享 锁 。 非 叶 结 点 上 的 锁 应 该 在 对 B 树 的 其 他 任何 

结 点 发 出 加 锁 请 求 前 释放 。 如 果 结 点 分 裂 与 查找 同时 发 生 ， 所 希望 的 搜索 码 值 可 能 不 再 位 于 查 
找 过 程 中 所 访问 的 某 个 结 点 所 代表 的 那些 值 的 范围 内 。 在 这 种 情况 下， 搜索 码 值 在 兄弟 结 点 所 
代表 的 范围 内 ， 系 统 循 着 指向 右 兄弟 结 点 的 指针 能 找到 该 兄弟 结 点 。 不 过 ， 叶 结 点 的 封锁 遵循 
两 阶段 封锁 协议 以 避免 幻象 现象 ， 如 15. 8. 3 节 所 述 。 

。 插入 与 删除 : 系统 遵循 查找 规则 ， 定 位 要 进行 插入 或 删除 的 叶 结 点 。 该 结 点 的 共享 锁 升 级 为 排 
他 锁 ， 然 后 进行 插入 或 删除 。 受 插入 或 删除 影响 的 叶 结 点 封锁 遵循 两 阶段 封锁 协议 ， 以 避免 幻 
象 现象 ， 如 15. 8. 3 节 所 述 。 

。 FR: 如 果 事务 使 一 个 结 点 分 裂 ， 则 按 11. 3 节 的 算法 创建 新 结 点 并 作为 原 结 点 的 右 兄弟 。 设 
置 原 结 点 和 新 产生 结 点 的 右 兄 弟 指针 。 接 着 ， 事 务 释 放 原 结 点 的 排他 锁 ( 假若 它 是 一 个 内 部 结 
点 ; 叶 结 点 以 两 阶段 形式 加 锁 ) ， 然 后 发 出 对 父 结 点 加 排他 锁 的 请 求 ， 以 便 插入 指向 新 结 点 的 
指针 。(〈 没 有 必要 对 新 结 点 加 锁 或 解锁 。) 

。 合并 : 执行 删除 后 ， 如 果 一 个 结 点 的 搜索 码 值 太 少 ， 则 必须 将 要 与 之 合并 的 那个 结 点 加 上 排他 

锁 。 一 旦 这 两 个 结 点 合并 ， 就 发 出 对 父 结 点 加 排他 锁 的 请 求 ， 以 便 删除 要 被 删除 的 结 点 。 此 
时 ,事务 释放 已 合并 结 点 的 锁 。 除 非 父 结 点 也 需 再 合并 ,不然 释放 其 锁 。 

注意 这 个 重要 的 事实 : 插入 与 删除 操作 可 能 封锁 一 个 结 点 ， 释 放 该 结 点 ， 然 后 又 对 它 重 新 封锁 
此 外 ， 与 分 列 或 合并 操作 并 发 执行 的 查找 可 能 发 现 所 需 搜 索 码 值 被 分 裂 或 合并 操作 移 到 右 兄 弟 结 点 。 

为 说 明 这 一 点 ， 考 虑 图 15-21 所 示 的 B-link 树 。 假 设 有 两 个 针对 该 B-link 树 的 并 发 操作 : 





图 15-21 department 文件 的 n=3 的 B-link 树 


1. 插入 “Chemistry”。 
2. 查找 “Comp. Sci. ”。 
我 们 假设 插入 操作 首先 开始 。 它 为 “Chemistry” 执行 查找 ， 发 现 要 插入 “Chemistry” 的 结 点 已 满 。 于 
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是 它 将 该 结 点 的 共享 锁 转 换 为 排他 锁 ， 并 创建 新 结 点 。 这 样 ， 原 结 点 包含 搜索 码 值 ” Biology ”与 
“Chemistry”。 新 结 点 包含 搜索 码 值 “Comp. Sci. ”。 

现在 假设 发 生 上 下 文 切换 ， 导 致 控制 传递 给 查找 操作 。 该 查找 操作 访问 根 结 点 ， 然 后 沿 指向 根 结 
点 左 子 结 点 的 指针 而 下 。 接 着 访问 那个 结 点 ， 并 得 到 指向 左 子 结 点 的 指针 。 该 左 子 结 点 原先 包含 搜索 
BIE“ Biology” 与 ”Comp. Sci.” 。 由 于 该 结 点 目前 被 插入 操作 以 排他 方式 封锁 ， 因 此 查找 操作 必须 等 待 。 
注意 ， 此 时 查找 操作 不 持 有 任何 锁 ! 

插入 操作 现在 释放 了 叶 结 点 并 重新 对 父 结 点 加 锁 ， 这 次 以 排他 方式 封锁 。 它 完成 了 插入 操作 ， 得 
到 图 15-22 所 示 的 B-link 树 。 查 找 操作 继续 进行 。 然 而 ， 它 拥有 的 指针 指向 错误 的 叶 结 点 。 于 是 它 顺 
着 右 兄弟 结 点 指针 定位 下 一 个 结 点 。 如 果 该 结 点 仍 不 正确 ， 则 继续 顺 着 该 结 点 的 右 兄弟 指针 查找 。 可 
以 证 明 ， 如 果 查 找 操作 拥有 指向 错误 结 点 的 指针 ， 则 沿 着 右 兄弟 结 点 指针 ， 查 找 操作 最 终 可 以 到 达 正 
确 的 结 点 。 





图 15-22 插入 “Chemistry” 到 图 15-21 所 示 的 B-link 树 中 


查找 与 插入 不 会 引起 死 锁 。 删 除 操作 时 的 结 点 合并 可 能 引起 不 一 致 性 ， 因 为 查找 操作 可 能 在 父 结 
点 更 新 前 已 经 从 父 结 点 读 取 了 指向 被 删除 结 点 的 指针 ， 然 后 试图 访问 被 删除 的 结 点 ， 查 找 操作 将 必须 
从 根 结 点 重新 开始 。 不 对 结 点 进行 合并 可 以 避免 这 样 的 不 一 致 性 。 这 个 解决 方案 使 某 些 结 点 包含 的 搜 
RBA, GAS B 树 的 某 些 特性 。 然 而 ， 在 大 部 分 数据 库 中 ， 插 人 操作 比 删除 操作 频繁 ， 因 此 包 
含 搜索 码 值 太 少 的 结 点 可 能 较 快 地 得 到 更 多 的 值 。 

一 些 索引 并 发 控制 机 制 不 是 以 两 阶段 形式 封锁 索引 叶 结 点 ， 而 是 对 个 别 的 码 值 使 用 码 值 封锁 ( key- 
value locking) ， 允 许 其 他 码 值 从 同一 个 叶 结 点 插入 或 删除 ， 这 样 码 值 封锁 提供 了 增强 了 的 并 发 性 。 但 
是 ， 朴 素 地 使 用 码 值 封锁 可 能 引发 幻象 现象 ; 为 防止 幻象 现象 可 以 采用 下 一 码 封锁 (next-key locking) 
技术 。 在 这 个 技术 中 ， 每 一 次 索引 查找 不 仅 封锁 查找 范围 内 的 多 个 码 (或 单个 码 ， 在 点 查找 时 ) ， 而 且 
封锁 下 一 个 码 值 一 一 也 就 是 刚好 比 范围 内 最 后 一 个 码 值 大 的 码 值 ; 并 且 ， 每 一 次 插入 必须 不 仅 封锁 要 
插入 的 值 ， 而 且 包 括 下 一 个 码 值 。 这 样 ， 如 果 一 个 事务 试图 插入 一 个 值 到 另 一 个 事务 的 索引 查找 范围 
之 内 时 ， 这 两 个 事务 将 在 插入 码 值 的 下 一 个 码 值 上 冲突 。 同 样 ， 删 除 也 必须 封锁 被 删除 值 的 下 一 个 码 
值 ， 来 保证 检测 得 到 它 与 别 的 查询 的 查找 范围 的 并 发 冲突 。 


15. 11 总 结 


。 当 多 个 事务 在 数据 库 中 并 发 地 执行 时 ， 数 据 的 一 致 性 可 能 不 再 维持 。 系 统 有 必要 控制 各 事务 之 间 的 
相互 作用 ， 这 是 通过 称 为 并 发 控制 机 制 的 多 种 机 制 中 的 一 种 来 实现 的 。 

为 保证 可 串 行 性 ， 我 们 可 以 使 用 多 种 并 发 控制 机 制 。 所 有 这 些 机 制 要 么 延迟 一 个 操作 ， 要 么 中 止 发 
出 该 操作 的 事务 。 最 常用 的 机 制 是 各 种 封锁 协议 、 时 间 戳 排序 机 制 、 有 效 性 检查 技术 与 多 版 本 机 制 。 
封锁 协议 是 一 组 规则 ， 这 些 规 则 阐明 了 事务 何 时 对 数据 库 中 的 数据 项 进行 加 锁 和 解锁 。 

两 阶段 封锁 协议 仅 在 一 个 事务 未 曾 释 放任 何 数据 项 上 的 锁 时 才 允 许 该 事务 封锁 新 数据 项 。 该 协议 保 
证 可 串 行 性 ， 但 不 能 避免 死 锁 。 在 没有 关于 数据 项 访问 方式 信息 的 情况 下 ， 两 阶段 封锁 协议 对 于 保 
证 可 串 行 性 既是 必要 的 又 是 充分 的 。 


度 的 可 恢复 性 和 无 级 联 性 ， 强 两 阶段 封锁 协议 要 求 事务 持 有 的 所 有 锁 必 须 在 事务 结束 时 方 可 释放 。 
基于 图 的 封锁 协议 对 访问 数据 项 的 顺序 加 以 限制 ， 从 而 不 需要 使 用 两 阶段 封锁 还 能 够 保证 可 串 行 性 ， 
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严格 两 阶段 封锁 协议 要 求 事务 持 有 的 所 有 排他 锁 必 须 在 事务 结束 时 方 可 释放 ， 其 目的 是 保证 结果 调 ate 
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而 且 又 能 够 保证 不 会 产生 死 锁 。 

许多 种 封锁 协议 都 不 能 防止 死 锁 。 一 种 可 以 防止 死 锁 的 方法 是 使 用 数据 项 的 一 种 顺序 ， 并 且 按 与 该 
顺序 一 致 的 次 序 申请 加 锁 。 

另 一 种 防止 死 锁 的 方法 是 使 用 抢占 与 事务 回 滚 。 为 控制 抢占 ， 我 们 给 每 个 事务 赋予 一 个 唯一 时 间 戳 。 
这 些 时 间 惟 用 于 决定 事务 是 等 待 还 是 回 滚 。 如 果 一 个 事务 回 滚 ， 它 在 重启 时 保持 原 有 时 间 崔 。 
wound-wait 机 制 是 一 个 抢占 机 制 。 

如 果 没 有 预防 死 锁 ， 系 统 必 须 用 死 锁 检测 与 恢复 机 制 来 处 理 它们 。 为 此 ， 系 统 构造 了 一 个 等 待 图 。 
当 且 仅 当 等 待 图 包含 环 时 ， 系 统 处 于 死 锁 状态 。 当 一 个 检测 算法 判定 死 锁 存 在 ， 系 统 必 须 从 死 锁 中 
恢复 。 系 统 通 过 回 滚 一 个 或 多 个 事务 来 解除 死 锁 。 

某 些 情况 下 把 多 个 数据 项 聚 为 一 组 ， 将 它们 作为 聚集 数据 项 来 处 理 ， 其 效果 可 能 更 好 ， 这 就 导致 了 
粒度 的 多 个 级 别 。 我 们 允许 各 种 大 小 的 数据 项 ， 并 定义 数据 项 的 层次 ， 其 中 小 数据 项 垦 套 于 大 数据 
项 之 中 。 这 种 层次 结构 可 以 图 形 化 地 表示 为 树 。 封 锁 按 从 根 结 点 到 叶 结 点 的 顺序 进行 ; 解锁 则 按 从 
叶 结 点 到 根 结 点 的 顺序 进行 。 该 协议 保证 可 串 行 性 ， 但 不 能 避免 死 锁 。 

时 间 戳 排序 机 制 通过 事先 在 每 对 事务 之 间 选 择 一 个 顺序 来 保证 可 串 行 性 。 系 统 中 的 每 个 事务 对 应 一 
个 唯一 的 固定 时 间 戳 。 事 务 的 时 间 戳 决定 了 事务 的 可 串 行 化 顺序 。 这 样 ， 如 果 事 务 T, 的 时 间 惟 小 于 
事务 T, 的 时 间 戳 ， 则 该 机 制 保证 产生 的 调度 等 价 于 事务 T, 出 现在 事务 7 之 前 的 一 个 串 行 调度 。 该 
机 制 通过 回 滚 违反 该 次 序 的 事务 来 保证 这 一 点 。 

在 大 部 分 事务 是 只 读 事务 的 情形 下 ， 冲 突 频 度 较 低 ， 这 种 情况 下 有 效 性 检查 机 制 是 一 个 适当 的 并 发 
控制 机 制 。 系 统 中 的 每 个 事务 对 应 一 个 唯一 的 固定 时 间 戳 。 串 行 性 次 序 是 由 事务 的 时 间 戳 决定 的 。 
在 该 机 制 中 ， 事 务 不 会 延迟 。 不 过 ， 事 务 要 完成 必须 通过 有 效 性 检查 。 如 果 事 务 未 通过 有 效 性 检查 ， 
则 该 事务 回 滚 到 初始 状态 。 

多 版 本 并 发 控制 机 制 基于 在 每 个 事务 写 数据 项 时 为 该 数据 项 创建 一 个 新 版 本 。 读 操作 发 出 时 ， 系 统 
选择 其 中 的 一 个 版 本 进行 读 取 。 利 用 时 间 惟 ， 并 发 控制 机 制 保证 按 确保 可 串 行 性 的 方式 选取 要 读 取 
的 版 本 。 读 操作 总 能 成 功 。 

O 在 多 版 本 时 间 戳 排序 中 ， 写 操作 可 能 引起 事务 的 回 滚 。 

口 在 多 版 本 两 阶段 封锁 中 ， 写 操作 可 能 导致 封锁 等 待 或 死 锁 。 

快照 隔离 是 一 种 基于 有 效 性 检验 的 多 版 本 并 发 控制 协议 ， 与 多 版 本 两 阶段 封锁 协议 不 同 ， 它 不 需要 
将 事务 声明 为 只 读 或 更 新 的 。 快 照 隔 离 不 保证 可 串 行 化， 但 是 许多 数据 库 系统 仍然 支持 它 。 

仅 当 要 删除 元 组 的 事务 在 该 元 组 上 具有 排他 锁 时 ，delete 操作 才能 够 进行 。 在 数据 库 中 插入 新 元 组 的 
事务 在 该 元 组 上 被 授予 排他 锁 。 

插 和 人 操作 可 能 导致 幻象 现象 ， 这 时 插入 操作 与 查询 发 生 逻 辑 冲 突 ， 尽 管 两 个 事务 可 能 没有 存 取 共 同 
的 元 组 。 如 果 封 锁 仅 加 在 事务 访问 的 元 组 上 ， 这 种 冲突 就 检测 不 到 。 关 系 中 用 于 查找 元 组 的 数据 需 
要 加 锁 ， 索 引 封 锁 技术 要 求 对 某 些 索引 结 点 加 锁 来 解决 这 个 问题 。 所 加 的 这 些 锁 保证 所 有 事务 在 实 
际 的 数据 项 上 发 生 冲 突 ， 而 不 是 在 幻象 上 。 

弱 级 别 的 一 致 性 用 于 一 些 应 用 中 ， 在 这 些 应 用 中 ， 查 询 结果 的 一 致 性 不 是 至 关 重 要 的 ， 而 使 用 可 串 
行 性 会 使 查询 对 事务 的 处 理 起 反作用 。 二 级 一 致 性 是 这 种 弱 级 别 的 一 致 性 之 一 ， 游 标 稳定 性 是 二 级 
一 致 性 的 一 个 特例 ， 而 且 已 广泛 应 用 。 

跨越 用 户 交互 的 事务 并 发 控制 是 一 个 有 挑战 性 的 任务 。 应 用 程序 通常 实现 一 种 基于 采用 元 组 中 存储 
的 版 本 号 来 验证 写 操作 的 机 制 。 这 种 机 制 提 供 了 弱 可 串 行 化 水 平 ， 而 且 可 以 实现 在 应 用 层 ， 而 无 需 
修改 数据 库 。 

可 以 为 特殊 的 数据 结构 开发 特殊 的 并 发 控制 技术 。 通 常 ， 特 殊 的 技术 用 到 B' 树 上 ， 以 允许 较 大 的 并 
发 性 。 这 些 技术 允许 对 B * 树 进行 非 可 串 行 化 访问 ， 但 它们 保证 B 树 结构 是 正确 的 ， 并 保证 对 数据 
库 本 身 的 存 取 是 可 串 行 化 的 。 
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实践 习题 
证 明 两 阶段 封锁 协议 保证 冲突 可 串 行 化 ， 并 且 事 务 可 以 根据 其 封锁 点 串 行 化 。 


15.1 
15.2 


15.3 
15.4 


考虑 下 面 两 个 事务 : 





O 顺序 加 锁 

O 抢占 锁 

O wait-die 机 制 

O wound-wait 机 制 
口 基于 超时 的 机 制 
死 锁 检 测 

口 等 待 图 
死 锁 恢复 

口 全 部 回 滚 

口 部 分 回 滚 

多 粒度 

口 显 式 锁 

O Rast Bi 

o 意向 锁 

意向 型 锁 

O 共享 型 意向 (IS) 
口 排他 型 意向 (IX) 
口 共享 排他 型 意向 (SIX) 
多 粒度 封锁 协议 
基于 时 间 惟 的 协议 
Ff fia] FBX 

O 系统 时 钟 

O 逻辑 计数 器 

O W-timestamp( Q) 
O R-timestamp( Q) 
时 间 戳 排序 协议 
口 Thomas 写 规则 
基于 有 效 性 检查 的 协议 
口 读 阶 段 




















Togs read (A); 
read( B) ; 


if A =0 then B:= B +1; 


write( B) ; 


Tis: read( B) ; 
read (A) ; 


if B =0 then 4:= A +1; 


write( A). 
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O 有 效 性 检查 阶段 
O 写 阶 段 

口 有 效 性 测试 
多 版 本 并 发 控制 
多 版 本 时 间 戳 排序 
多 版 本 两 阶段 封锁 
口 只 读 事 务 

O 更 新 事务 
快照 隔离 

口 更 新 丢失 

O 先 提交 者 获胜 
口 先 更 新 者 获胜 
写 偏 余 

口 select for update 
插入 和 删除 操作 
幻象 现象 

索引 封锁 协议 
谓词 锁 

弱 一 致 性 级 别 

口 三 级 一 致 性 

口 游标 稳定 性 





























不 做 读 有 效 性 验证 的 乐观 


并 发 控制 

对 话 
索引 中 的 并 发 

O 蟹 行 协议 

口 B-link 树 

B-link 树 封锁 协议 
下 一 码 封锁 























给 事务 Ta 7 ;增加 加 锁 、 解 锁 指令 ,使 它们 遵从 两 阶段 封锁 协议 。 这 两 个 事务 会 引起 死 锁 吗 ? 
强 两 阶段 封锁 协议 带 来 什么 好 处 ? 它 与 其 他 形式 的 两 阶段 封锁 协议 相 比 有 何 异 同 ? 
考虑 一 个 按 有 根 树 方式 组 织 的 数据 库 。 假 设 我 们 在 每 对 结 点 之 间 搬 和 人 一 个 虚 结 点 。 证 明 ， 如 果 我 们 在 
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由 此 构成 的 新 树 上 遵从 树 形 协议 ， 我 们 可 以 得 到 的 并 发 度 比 在 原始 树 上 遵从 树 形 协议 的 更 高 。 
用 例子 证 明 : 存在 在 树 形 封锁 协议 下 可 行 ， 而 在 两 阶段 封锁 协议 下 不 可 行 的 调度 ， 反 之 亦 然 。 
考虑 以 下 对 树 形 封锁 协议 的 扩展 ， 它 既 允 许 使 用 共享 锁 又 允许 使 用 排他 锁 : 
。 事务 可 以 是 只 读 事务 ， 在 这 种 情况 下 它 只 申请 共享 锁 ; 也 可 以 是 更 新 事务 ， 此 时 只 申请 排他 锁 。 
。 每 个 事务 必须 遵从 树 形 协议 规则 。 只 读 事 务 可 以 首先 封锁 任何 数据 项 ， 而 更 新 事务 必须 首先 封锁 
根 结 点 。 
证 明 该 协议 保证 可 串 行 性 并 能 避免 死 锁 。 
考虑 以 下 基于 图 的 封锁 协议 ， 它 只 允许 加 排他 锁 ， 并 且 在 带 根 有 向 无 环 数据 图 上 运作 : 
。 事务 首先 可 以 封锁 任何 结 点 。 
。 要 封锁 任何 其 他 的 结 点 ， 事 务必 须 在 该 结 点 的 大 部 分 父 结 点 上 持 有 锁 。 
证 明 该 协议 保证 可 串 行 性 并 能 避免 死 锁 。 
考虑 以 下 基于 图 的 封锁 协议 ， 它 只 允许 加 排他 锁 ， 并 且 在 带 根 有 向 无 环 数据 图 上 运作 : 
。 事务 首先 可 以 封锁 任何 结 点 。 
。 要 封锁 任何 其 他 的 结 点 ， 事 务必 须 已 经 访问 该 结 点 的 所 有 父 结 点 ， 并 且 必 须 在 该 结 点 的 一 个 父 结 
点 上 持 有 锁 。 
证 明 该 协议 保证 可 串 行 性 并 能 避免 死 锁 。 
在 持久 化 程序 设计 语言 中 封锁 不 是 显 式 进 行 的。 访问 对 象 ( 或 相应 页 ) 时 必须 加 锁 。 大 部 分 现代 操作 
系统 允许 用 户 对 页 面 设置 访问 保护 (不 许 访问 、 读 、 写 ) ， 并 且 违 反 存 取保 护 的 内 存 访 问 将 导致 违反 
保护 错误 ( 如， 参见 UNIX 的 mprotect 命令 ) 。 说 明 访 问 保护 机 制 在 持久 化 程序 设计 语言 中 如 何 用 于 页 
级 封锁 。 
考虑 除 read 与 write 操作 之 外 还 包含 原子 操作 increment 的 一 个 数据 库 系统 。 令 了 是 数据 项 开 的 值 。 
操作 : 
increment(X) by C 
在 一 个 原子 步骤 中 将 X 的 值 设 为 V+C。 如 果 事 务 不 执行 read(X) ， 则 事务 不 能 获知 艺 的 值 。 图 
15-23 表 示 三 种 锁 类 型 的 锁 相 容 阵 : 共享 型 、 排 他 型 和 增 量 型 。 
a. 证 明 : 如 果 所 有 事务 按 相 应 的 类 型 封锁 它们 所 访问 的 数据 项 ， 则 两 阶段 封锁 保证 可 串 行 性 。 
b. GEAR: 包含 增 量 型 锁 可 以 增加 并 发 度 。( 提示 : 在 所 举 的 银行 例子 中 ,考虑 支票 的 票据 交换 事务 ) 。 
在 时 间 惟 排序 中 ，W-timestamp(Q@) 表示 成 功 执行 write ( Q) 的 所 有 


5 
事务 的 最 大 时 间 截 。 现 在 ， 假 设 我 们 将 之 定义 为 最 近 成 功 执行 write 
(Q) 的 事务 的 时 间 惟 。 这 种 措辞 上 的 变化 会 带 来 什么 不 同 ? 解释 你 
me. 





采用 多 粒度 封锁 机 制 比 采用 单 封锁 粒度 的 等 价 系统 需要 更 多 或 更 少 
的 锁 。 针 对 每 种 情况 各 举 一 例 ， 并 比较 所 允许 的 相对 并 发 量 。 A Sane 
考虑 15.5 节 基 于 有 效 性 检查 的 并 发 控制 机 制 。 证 明 : 车 选择 

Validation( T,) 而 不 是 Start( 7 ) 作为 事务 T, 的 时 间 截 ， 则 如 果 事务 间 发 生 冲 突 的 次 数 确实 很 低 ， 我 们 
可 望 有 较 好 的 响应 时 间 。 

对 于 下 面 的 每 个 协议 ,说 明 促使 你 使 用 某 个 协议 的 实际 应 用 原因 以 及 不 使 用 的 原因 : 

。 两 阶段 封锁 。 

。 具 有 多 粒度 封锁 的 两 阶段 封锁 。 

。 树 形 协议 。 

。 时 间 截 排序。 

。 有 效 性 检查 。 

。 多 版 本 时 间 蕉 排序 。 

。 多 版 本 两 阶段 封锁 。 

解释 为 什么 使 用 下 述 事务 执行 技术 会 比 仅仅 使 用 严格 两 阶段 封锁 能 够 得 到 更 好 的 性 能 : 跟 基于 有 效 
性 检查 技术 中 一 样 ， 首 先 执行 事务 而 无 须 获 得 任何 锁 ， 也 不 向 数据 库 执行 任何 写 操作 。 但 跟 有 效 性 
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检查 技术 中 不 一 样 的 是 它 既 不 检查 有 效 性 也 不 在 数据 库 上 执行 写 操作 ， 而 是 采用 严格 两 阶段 封锁 重 

新 运行 事务 。( 提示 : 考虑 磁盘 IO 等 待 。) 

考虑 时 惟 排 序 协议 ， 以 及 两 个 事务 ， 一 个 执行 写 两 个 数据 项 p 和 9， 另 一 个 执行 读 这 两 个 数据 项 。 

试 给 出 一 个 调度 ， 使 得 第 一 个 事务 写 操作 的 时 间 戳 测试 失败 ， 引 起 该 事务 重启 ， 并 依次 引起 另 一 个 

事务 的 级 联 中 止 。 并 说 明 是 怎样 导致 这 两 个 事务 都 狐 死 的 。( 两 个 或 多 个 进程 执行 ， 但 它们 都 由 于 

与 其 他 进程 的 交互 作用 而 无 法 完成 它们 的 任务 ， 这 种 情形 叫做 活 锁 (livelock) 。) 

设计 一 个 基于 时 间 戳 的 能 避免 幻象 现象 的 协议 。 

假设 我 们 采用 15. 1. 5 节 中 的 树 形 协议 来 管理 对 B 树 的 并 发 访问 ， 由 于 在 影响 到 根 结 点 的 插入 中 也 

可 能 发 生 分 裂 ， 因 此 看 来 插入 操作 在 整个 操作 完成 之 前 都 不 能 释放 锁 。 在 什么 情况 下 有 可 能 提前 释 

放 锁 呢 ? 

快照 隔离 采用 有 效 性 检验 步骤， 当 事 务 7 写 数据 项 之 前 ， 检 查 7 是 否 有 其 他 并 发 事务 已 经 写 过 该 数 

据 项 。 

a 一 种 简单 的 实现 方式 对 于 每 个 事务 采用 一 个 开始 时 间 惟 和 一 个 提交 时 间 戳 ， 另 外 还 有 一 个 更 新 集 
合 来 记录 事务 更 新 的 数据 项 。 解 释 如 何 利 用 事务 时 间 惟 和 更 新 集合 来 实现 先 提交 者 获胜 机 制 中 的 
检验 。 你 可 以 假设 检验 和 其 他 提交 过 程 是 串 行 执行 的 ， 即 一 次 只 有 一 个 事务 。 

b. 解释 如 何 修改 上 述 机 制 ， 不 用 更 新 集合 ， 而 为 每 个 数据 项 分 配 一 个 写 时 间 戳 ,来 实现 先 提交 者 获 
胜 机 制 下 有 效 性 检验 步 又 作为 提交 过 程 的 一 部 分 。 同 样 ， 你 可 以 假设 检验 和 其 他 提交 过 程 是 串 行 
执行 的 。 

c 先 提 交 者 获胜 机 制 可 以 采用 上 述 时 间 戳 来 实现 ， 除 了 当 获 得 排他 锁 时 立刻 执行 有 效 性 检验 ， 而 不 
是 在 提交 时 执行 。 

i. 解释 如 何 给 数据 项 分 配 写 时 间 戳 来 实现 先 提交 者 获胜 机 制 。 
i, 说 明 由 于 锁 机 制 ， 如 果 提 交 时 重复 有 效 性 检验 ， 结 果 不 会 发 生变 化 。 
ii 解释 在 这 种 情况 下 ， 为 什么 没有 必要 串 行 地 执行 有 效 性 检验 和 其 他 提交 过 程 。 


严格 两 阶段 封锁 协议 带 来 什么 好 处 ?会 产生 哪些 准 端 ? 

大 部 分 数据 库 系 统 实 现 采 用 严格 两 阶段 封锁 协议 。 说 明 该 协议 流行 的 三 点 理由 。 

考虑 树 形 协 议 的 一 个 变种 ， 它 称 为 森林 协议 。 数 据 库 按 有 根 树 的 森林 的 方式 组 织 。 每 个 事务 7, 必须 
遵从 以 下 规则 : 

。 每 棵 树 上 的 首次 封锁 可 以 在 任何 数据 项 上 进行 。 

© 树 上 的 第 二 次 以 及 此 后 的 封锁 申请 仅 当 被 申请 结 点 的 父 结 点 上 有 锁 时 才能 发 出 。 

。 数据 项 解锁 可 在 任何 时 候 进 行 。 

。 事务 7, 释放 数据 项 后 不 能 再 次 封锁 该 数据 项 。 

证 明 森 林 协 议 不 保证 可 串 行 性 。 

在 什么 条 件 下 避免 死 锁 比 允 许 死 锁 发 生 然 后 检测 的 方式 代价 更 小 ? 

如 果 通 过 死 锁 避免 机 制 避免 了 死 锁 后 ， 饿 死 仍 有 可 能 吗 ? 解释 你 的 答案 。 

在 多 粒度 封锁 中 ， 隐 式 封锁 与 显 式 封锁 有 什么 不 同 ? 

RE SX 锁 在 多 粒度 封锁 中 很 有 用 ， 但 排他 共享 意向 (XIS ) 锁 则 无 用 。 为 什么 ? 

多 粒度 协议 中 的 规则 指出 ， 仅 当 事 务 T, 当前 对 O 的 父 结 点 持 有 区 或 IS gint, T, 对 结 点 Q 可 加 S 或 
IS Bi, ER SIX AS Sith IX ALIS 锁 更 强 ， 为 什么 协议 不 允许 当 父 结 点 持 有 SIX 或 S 锁 时 对 该 结 点 
加 S 或 IS 锁 ? 

当 一 个 事务 在 时 间 戳 排序 协议 下 回 滚 ， 它 被 赋予 新 时 间 戳 。 为 什么 它 不 能 简单 地 保持 原 有 时 间 惟 ? 
证 明 : 存在 满足 两 阶段 封锁 协议 却 不 满足 时 间 惟 协议 的 调度 ， 反 之 亦 然 。 

在 时 间 戳 协议 的 一 个 修改 版 中 ,我 们 要 求 测试 提交 位 以 判定 read 请 求 是 否 必须 等 待 。 解 释 提 交 位 如 
何 防止 级 联 中 止 。 为 什么 该 测试 对 write 请 求 是 不 必要 的 。 

如 练习 15. 19 讨论 的 ， 快 照 隔离 可 以 通过 时 间 惟 有 效 性 检验 的 形式 来 实现 。 然 而 ， 与 保证 可 串 行 化 
的 多 版 本 时 间 戳 排序 机 制 不 同 ， 快 照 隔离 不 保证 可 串 行 化。 解释 导致 这 种 差异 结果 的 两 种 协议 之 间 
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关键 的 区 别 。 

15.32 列 出 练习 15. 19 描述 的 基于 时 间 惟 实现 的 先 提交 者 获胜 版 本 的 快照 隔离 与 15. 9. 3 节 描 述 的 不 做 读 有 
效 性 检验 的 乐观 并 发 控制 的 主要 相似 点 和 区 别 。 

15.33 ”解释 幻象 现象 。 为 什么 尽管 采用 两 阶段 封锁 协议 ， 该 现象 仍 可 能 导致 不 正确 的 并 发 执行 ? 

15.34 解释 使 用 二 级 一 致 性 的 原因 ， 这 种 方法 有 什么 缺点 ? 

15.35 ”请 给 出 码 值 封锁 调度 的 例子 ， 说 明 如 果 查 找 、 插 入 、 删 除 操作 中 的 任何 一 个 不 对 下 一 码 值 进行 封锁 ， 
都 可 能 出 现 未 发 现 的 幻象 。 

15.36 ”许多 事务 更 新 一 个 公共 数据 项 (例如 ， 一 个 支行 的 现金 余额 ) 和 若干 科 有 数据 项 (例如 ， 多 个 个 人 账 
户 余额 ) 。 解 释 如 何 通过 对 事务 操作 进行 排序 来 提高 并 发 度 ( 和 吞吐 量 ) 。 

15.37 ”考虑 下 面 这 个 封锁 协议 : 所 有 数据 项 都 被 编号 ， 并 且 当 解锁 一 个 数据 项 时 ， 只 有 标号 更 大 的 数据 项 
才 可 以 加 锁 。 锁 可 以 在 任何 时 候 释 放 。 只 能 使 用 排他 锁 。 用 例子 说 明 这 个 协议 不 能 保证 可 串 行 化 ， 


文献 注解 


Gray 和 Reuter[ 1993] 在 其 教科 书 中 全 面 讨论 了 事务 处 理 的 概念 ， 包 括 并 发 控制 的 概念 和 实现 细节 ， 
Bernstein 和 Newcomer[ 1997] 在 其 教科 书 中 讨论 了 事务 处 理 的 多 个 方面 ， 包 括 并 发 控制 。 

两 阶段 封锁 协议 由 Eswaran 等 [1976] 引 入 。 树 形 协议 来 自 Silberschatz 与 Kedem[ 1980] 。 其 他 的 工作 在 
更 一 般 的 图 上 的 非 两 阶段 封锁 协议 由 Yannakakis 等 [1979 ] 、Kedem 与 Sileberschatz[ 1983], ， 以 及 Buchley 与 
Silberschatz[ 1985 ] 提出 。kovth[ 1983 ] 探讨 了 由 基本 的 共享 和 排他 锁 方 式 可 以 得 到 的 多 种 封锁 方式 。 

实践 习题 15. 4 来 自 Buckley 与 Silberschatz[ 1984], SC#R> M115. 6 来 自 Kedem 与 Silberschatz[ 1983 ] 。 实 
践 习题 15.7 来 自 Kedem 与 Silberschatz[ 1979 ] 。 实 践 习 题 15.8 来 自 Yannakakis 等 [ 1979 ] 。 实 践 习 题 15. 10 
来 自 Korth[ 1983 ] 。 

多 粒度 数据 项 封锁 协议 来 自 Gray [1975], Gray 等 [1976 ] 给 出 了 详细 的 描述 。Kedem 和 Silberschatz 
[1983 ] 对 任意 封锁 方式 (允许 更 多 的 语义 而 不 仅仅 是 读 和 写 ) 的 多 粒度 封锁 做 了 规范 化 。 这 种 方法 包括 称 为 
更 新 型 锁 的 一 类 锁 ， 以 处 理 锁 转换 。Carey[ 1983 ] 将 多 粒度 的 想法 扩展 到 基于 时 间 戳 的 并 发 控制 。 为 保证 不 
产生 死 锁 而 产生 的 一 种 扩展 协议 由 Korth[ 1982 ] 给 出 。 

基于 时 间 戳 的 并 发 控制 机 制 来 自 Reed[ 1983], Buckley 与 Silberschatz[ 1983 ] 给 出 了 一 种 不 须 回 滚 且 保证 
可 串 行 化 的 时 间 心 算法 。 有 效 性 检查 的 并 发 控制 机 制 来 自 Kung 与 Robison[ 1981 ] 。 

多 版 本 时 间 戳 排序 由 Reed[ 1983 ] 引 入 。Silberscatz[ 1982] 中 给 出 了 一 种 多 版 本 树 封锁 协议 。 

二 级 一 致 性 在 Gray 等 [1975] 中 介绍 ，SQL 中 的 一 致 性 (或 隔离 性 ) 的 级 别 在 Berenson 等 [ 1995 ] 中 做 了 
解释 和 评论 。 许 多 商业 数据 库 系 统 使 用 与 加 锁 相 结合 的 基于 版 本 的 方法 。PostgreSQL、Oracle、 和 SQL Server 
全 部 支持 在 15. 6. 2 节 中 提 到 的 快照 隔离 协议 。 细 节 请 分 别 参考 第 27、28 和 30 章 。 

需要 注意 的 是 ， 在 PostgreSQL (版 本 8. 1.4) 和 Oracle (版 本 10g) 中 将 隔离 级 别 设 置 为 串 行 化 的 结果 是 采 
用 快照 隔离 ， 并 不 保证 可 串 行 性 。Fekete 等 [2005 ] 介绍 如 何 通过 重 写 事 务 引 入 冲突 ， 使 得 在 快照 隔离 下 保 
证 可 串 行 化 执行 。 这 些 冲 罕 保 证 在 快照 隔离 下 事务 不 能 并 发 执行 。Jorwekar 等 [ 2007] 介绍 了 一 种 方法 ， 给 定 
一 个 运行 在 快照 隔离 下 的 (参数 化 ) 事 务 集合 ， 该 方法 可 以 检验 这 些 事务 是 否 存在 非 串 行 化 的 风险 。 

Bayer 与 Schkolnick[ 1977 ] 和 Johnson 与 Shasha[ 1993 ] 对 BY 树 中 的 并 发 作 了 研究 。15. 10 节 所 给 技术 基于 
Kung 与 Lehman[ 1980] ， 以 及 Lehman 与 Yao[ 1981], ARIES 系统 中 采用 的 码 值 封锁 技术 为 B' 树 访问 提供 了 
极 高 的 并 发 性 ， 在 Mohan[ 1990a] 、Mohan 和 Narang[ 1992 ] 中 描述 。Ellis[ 1987 ] 给 出 了 一 个 用 于 线性 散 列 的 
并 发 控制 技术 。 
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恢复 系统 


计算 机 系统 与 其 他 任何 设备 一 样 易 发 生 故 障 。 故 障 的 原因 多 种 多 样 ， 包 括 磁盘 故障 、 电 源 故 障 、 
软件 错误 、 机 房 失火 ， 甚 至 人 为 破坏 。 一 旦 有 任何 故障 发 生 ， 就 可 能 会 丢失 信息 。 因 此 ， 数 据 库 系 统 
必须 预先 采取 措施 ， 以 保证 即使 发 生 故 障 ， 也 可 以 保持 第 14 章 所 讲 的 事务 的 原子 性 和 持久 性 。 恢 复 机 
fil] ( recovery scheme) 是 数据 库 系统 必 不 可 少 的 组 成 部 分 ， 它 负责 将 数据 库 恢复 到 故障 发 生前 的 一 致 的 状 
态 。 恢 复 机 制 还 必须 提供 高 可 用 性 ( high availability) ， 即 : 它 必须 将 数据 库 崩溃 后 不 能 使 用 的 时 间 缩 减 
到 最 短 。 


16.1 故障 分 类 


系统 可 能 发 生 的 故障 有 很 多 种 ， 每 种 故障 需要 不 同 的 方法 来 处 理 。 在 本 章 中 ,我 们 将 只 考虑 如 下 
类 型 的 故障 。 
。 事务 故障 (transaction failure)。 有 两 种 错误 可 能 造成 事务 执行 失败 : 
口 逻辑 错误 ( logical error) 。 事 务 由 于 某 些 内 部 条 件 而 无 法 继续 正常 执行 ， 这 样 的 内 部 条 件 如 非 
法 输入 、 找 不 到 数据 、 溢 出 或 超出 资源 限制 。 
D 系统 错误 ( system error) 。 系 统 进 入 一 种 不 良 状 态 ( 如 死 锁 ) ， 结 果 事 务 无 法 继续 正常 执行 。 但 
该 事务 可 以 在 以 后 的 某 个 时 间 重 新 执行 。 
© 系统 崩溃 (system crash) 。 硬 件 故障 ， 或 者 是 数据 库 软 件 或 操作 系统 的 漏洞 ， 导 致 易 失 性 存储 器 
内 容 的 丢失 ， 并 使 得 事务 处 理 停止 。 而 非 易 失 性 存储 器 仍 完 好 无 损 。 
硬件 错误 和 软件 漏洞 致使 系统 终止 ， 而 不 破坏 非 易 失 性 存储 器 内 容 的 假设 称 为 故障 - 停止 
假设 (fail-stop assumption)。 设 计 和 良好 的 系统 在 硬件 和 软件 层 有 大 量 的 内 部 检查 ,一旦 有 错误 发 
生 就 会 将 系统 停止 。 因 此 ， 故 障 -停止 假设 是 合理 的 。 
© 磁盘 故障 (disk failure) 。 在 数据 传送 操作 过 程 中 由 于 磁头 损坏 或 故障 造成 磁盘 块 上 的 内 容 丢 失 。 
其 他 磁盘 上 的 数据 拷贝 ， 或 三 级 介质 (如 DVD 或 磁带 ) 上 的 归档 备份 可 用 于 从 这 种 故障 中 恢复 。 
要 确定 系统 如 何 从 故障 中 恢复 ， 我 们 首先 需要 确定 用 于 存储 数据 的 设备 的 故障 方式 。 其 次 ， 我 们 
必须 考虑 这 些 故 障 方式 对 数据 库 内 容 有 什么 影响 。 然 后 我 们 可 以 提出 在 故障 发 生 后 仍 保证 数据 库 一 致 
性 以 及 事务 的 原子 性 的 算法 。 这 些 算 法 称 为 恢复 算法 ， 由 两 部 分 组 成 : 
L. 在 正常 事务 处 理 时 采取 措施 ， 保 证 有 足够 的 信息 可 用 于 故障 恢复 。 
2. 故障 发 生 后 采取 措施 ， 将 数据 库 内 容 恢复 到 某 个 保证 数据 库 一 致 性 、 事 务 原 子 性 及 持久 性 的 
状态 。 


16.2 存储 器 


正如 我 们 在 第 10 章 中 所 看 到 的 ， 数 据 库 中 的 各 种 数据 项 可 在 多 种 不 同 存储 介质 上 存储 并 访问 。 在 
14. 3 节 中 ， 我 们 看 到 存储 介质 可 以 按照 它们 相对 的 速度 、 容 量 和 顺应 故障 的 能 力 来 划分 。 我 们 把 存储 
器 分 为 以 下 三 类 : 

© 易 失 性 存储 器 ( volatile storage) 

© 非 易 失 性 存储 器 ( nonvolatile storage) 

© 稳定 存储 器 ( stable storage) 
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稳定 存储 器 ， 或 更 准确 地 说 是 接近 稳定 的 存储 器 ， 在 恢复 算法 中 起 到 至 关 重 要 的 作用 
16.2.1 稳定 存储 器 的 实现 
要 实现 稳定 存储 器 ， 我 们 需要 在 多 个 非 易 失 性 存储 介质 (通常 是 磁盘 ) 上 以 独立 的 故障 模式 复制 所 


需 信息 ， 并 且 以 受 控 的 方式 更 新 信息 ， 以 保证 数据 传送 过 程 中 发 生 的 故障 不 会 破坏 所 需 信息 。 
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前 面 (第 10 章 ) 讲 到 RAID 系统 保证 了 单个 磁盘 的 故障 (即使 发 生 在 数据 传送 过 程 中 ) 不 会 导致 数据 
丢失 。 最 简单 并 且 最 快 的 RAD 形式 是 磁盘 镜像 ， 即 在 不 同 的 磁盘 上 为 每 个 磁盘 块 保 存 两 个 拷贝 。 
RAID 的 其 他 形式 代价 低 一 些 ， 但 性 能 也 差 一 些 。 

但 是 ，RAID 系统 不 能 防止 由 于 灾难 (如 火灾 或 洪水 ) 而 导致 的 数据 丢失 。 许多 系统 通过 将 归档 备 
份 存储 在 磁带 上 并 转移 到 其 他 地 方 来 防止 这 种 灾难 。 但 是 ， 由 于 磁带 不 能 被 连续 不 断 地 移 至 其 他 地 方 ， 
最 后 一 次 磁带 被 移 至 其 他 地 方 以 后 所 做 的 更 新 可 能 会 在 这 样 的 灾难 中 丢失 。 更 安全 的 系统 远程 为 稳定 
存储 器 的 每 一 个 块 保存 一 份 拷贝 ， 除 在 本 地 磁盘 系统 进行 块 存储 外 ， 还 通过 计算 机 网 络 写 到 远程 去 。 
由 于 在 往 本 地 存储 器 输出 块 的 同时 也 要 输出 到 远程 系统 ， 一 旦 输出 操作 完成 ， 即 使 发 生火 灾 或 洪水 这 
样 的 灾难 ， 输 出 结果 也 不 会 丢失 。 我 们 在 16. 9 节 学 习 这 种 远程 备份 系统 。 

本 节 剩 余 的 部 分 将 讨论 如 何在 数据 传送 过 程 中 保护 存储 介质 不 受 故障 损害 。 在 内 存 和 磁盘 存储 器 
间 进 行 块 传送 有 以 下 几 种 可 能 结果 : 

© 成 功 完成 (successful completion) 。 传 送 的 信息 安全 地 到 达 目 的 地 。 

© 部 分 失败 (partial failure) 。 传 送 过 程 中 发 生 故 障 ， 目 标 块 有 不 正确 信息 。 

© 完全 失败 (total failure) 。 传 送 过 程 中 故障 发 生得 足够 早 ， 目 标 块 仍 完 好 无 缺 。 

我 们 要 求 ， 如 果 数 据 传 送 故 障 ( data-transfer failure) 发 生 ， 系 统 能 检测 到 并 且 调 用 恢复 过 程 将 块 
恢复 成 为 一 致 的 状态 。 为 达到 这 个 要 求 ， 系 统 必 须 为 每 个 逻辑 数据 库 块 维护 两 个 物理 块 ; 若是 镜像 
磁盘 ， 则 两 个 块 在 同一 个 地 点 ; 车 是 远程 备份 ， 则 一 个 块 在 本 地 ， 男 一 个 在 远程 节点 。 输 出 操作 的 
执行 如 下 : 

1. 将 信息 写 入 第 一 个 物理 块 。 

2. 当 第 一 次 写成 功 完成 时 ， 将 相同 信息 写 和 第 二 个 物理 块 。 

3. 只 有 第 二 次 写成 功 完成 时 ， 输 出 才 算 完成 。 

如 果 在 对 块 进行 写 的 过 程 中 系统 发 生 故 障 ， 有 可 能 一 个 块 的 两 个 拷贝 互相 不 一 致 。 在 恢复 过 程 中 ， 
对 于 每 一 个 块 ， 系 统 需要 检查 它 的 两 个 拷贝 。 如 果 它 们 相同 并 且 没 有 检测 到 错误 存在 ， 则 不 需要 采取 
进一步 动作 。( 前 面 讲 到 ， 磁 盘 块 中 的 某 些 错误 ， 如 部 分 写 块 ， 可 由 存储 在 每 个 块 中 的 校 验 和 检测 
到 。) 如 果 系 统 检测 到 一 个 块 中 有 错误 ， 则 可 以 用 另 一 个 块 的 内 容 蔡 换 这 一 块 的 内 容 。 如 果 两 个 块 都 没 
有 检测 出 错误 ， 但 它们 的 内 容 不 一 致 ， 则 我 们 用 第 二 块 的 值 替换 第 一 块 的 内 容 ， 或 者 用 第 一 块 的 值 替 
换 第 二 块 的 内 容 。 不 管用 哪个 方法 ， 恢 复 过 程 都 保证 ， 对 稳定 存储 器 的 写 要 么 完全 成 功 ( 即 更 新 所 有 拷 
贝 ) ， 要 么 没有 任何 改变 。 

在 恢复 过 程 中 要 求 比 较 每 一 对 相应 块 的 开销 太 大 。 通 过 使 用 少量 非 易 失 性 RAM， 跟 踪 正 在 进行 的 
对 块 的 写 操作 ， 我 们 可 以 大 大 降低 开销 。 在 恢复 时 ， 只 须 比 较 正 在 写 的 块 。 

将 块 写 到 远程 节点 的 协议 类 似 于 将 块 写 到 镜像 磁盘 系统 的 协议 ， 我 们 在 第 10 章 讨论 过 了 ， 特 别 是 
实践 练习 10.3 中 。 

我 们 可 以 将 这 个 过 程 很 容易 地 推广 为 允许 为 稳定 存储 器 的 每 一 个 块 使 用 任意 多 的 拷贝 。 尽 管 使 用 
大 量 拷贝 比 使 用 两 个 拷贝 发 生 故障 的 可 能 性 要 低 ， 但 通常 只 用 两 个 拷贝 模拟 稳定 存储 器 是 合理 的 。 
16.2.2 数据 访问 

正如 第 10 章 中 所 看 到 的 ， 数 据 库 系统 常 驻 于 非 易 失 性 存储 器 (通常 为 磁盘 ) ， 在 任何 时 间 都 只 有 数 
据 库 的 部 分 内 容 在 主 存 中 。s 数据 库 分 成 称 为 块 (block ) 的 定 长 存储 单位 。 块 是 磁盘 数据 传送 的 单位 ， 





O ”有 一 类 特殊 的 数据 库 系 统 ， 称 作 主 存 数 据 库 系 统 ， 它 的 整个 数据 库 可 以 一 次 全 部 载 人 内 存 。26. 4 节 讨 论 这 样 的 
系统 。 
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可 能 包含 多 个 数据 项 。 我 们 假设 没有 数据 项 跨 两 个 或 多 个 块 。 这 个 假设 对 于 大 多 数 数据 处 理应 用 ， 例 
如 银行 或 大 学 ， 都 是 正确 的 。 
事务 由 磁盘 向 主 存 输入 信息 ， 然 后 再 将 信息 输出 回 磁 
盘 。 输 入 和 输出 操作 以 块 为 单位 完成 。 位 于 磁盘 上 的 块 称 
为 物理 块 (physical block) ， 临 时 位 于 主 存 的 块 称 为 缓冲 块 pet 
(buffer block) 。 内 存 中 用 于 临时 存放 块 的 区 域 称 为 磁盘 缓 “| ”一 一 LA] 
冲 区 (disk buffer) 。 | output(B) 
磁盘 和 主 存 间 的 块 移动 是 由 下 面 两 个 操作 引发 的 ， B "Ls] 
1. input(B) 传 送 物理 块 B 至 主 存 。 
2. output(B) 传 送 缓冲 块 B 至 磁盘 ， 并 替换 磁盘 上 相 | 磁盘 
应 的 物理 块 。 主 存储 器 
这 一 机 制 如 图 16-1 所 示 。 图 16-1 块 存储 操作 
在 概念 上 ， 每 个 事务 7, 有 一 个 私有 工作 区 ， 用 于 保 
FT, 所 访问 及 更 新 的 所 有 数据 项 的 拷贝 。 该 工作 区 在 事务 初始 化 时 由 系统 创建 ;在 事务 提交 或 中 止 时 
由 系统 删除 。 事务 7, 的 工作 区 中 保存 的 每 一 个 数据 项 X 记 为 *, 。 事 务 T 通过 在 其 工作 区 和 系统 缓冲 区 
之 间 传 送 数据 ， 与 数据 库 系 统 进行 交互 。 我 们 使 用 下 面 两 个 操作 来 传送 数据 : 
L read(X) 将 数据 项 的 值 赋予 局 部 变量 x, 。 该 操作 执行 如 下 : 
a Æ XER B, 不 在 主 存 中 ， 则 发 指令 执行 input( B,) 。 
b 将 缓冲 块 中 六 的 值 赋予 x, 。 
2. write (X) 将 局 部 变量 x, 的 值 赋予 缓冲 块 中 的 数据 项 Y。 该 操作 执行 如 下 : 
a Æ XER B, 不 在 主 存 中 ， 则 发 指令 执行 input( B, ) 。 
b. 将 x 的 值 赋予 缓冲 块 B, PI X, 
注意 这 两 个 操作 都 可 能 需要 将 块 从 磁盘 传送 到 主 存 。 但 是 ， 它 们 都 没有 特别 指明 需要 将 块 从 主 存 
传送 到 磁盘 。 
缓冲 块 最 终 写 到 磁盘 ， 要 么 是 因为 缓冲 区 管理 器 出 于 其 他 用 途 需 要 内 存 空间 ， 要 么 是 因为 数据 库 
系统 希望 将 B 的 变化 反映 到 磁盘 上 。 如 果 数据 库 系统 发 指令 执行 output( B) ， 则 我 们 称 数据 库 系统 对 组 
冲 块 B 进行 强制 输出 (force-output) 。 
当 事 务 第 一 次 需要 访问 数据 项 X 时 ， 它 必须 执行 read (X) 。 该 事务 然后 对 下 的 所 有 更 新 都 作用 于 
x; 。 在 一 个 事务 执行 中 的 任何 时 间 点 ,事务 都 可 以 执行 write(X) ， 以 在 数据 库 中 反映 的 变化 ， 在 对 
X 进行 最 后 的 写 之 后 ， 当 然 必须 做 write() 。 
对 XX 所 在 的 缓冲 块 B, 的 output( By ) 操 作 不 需要 在 write() 执 行 后 立即 执行 ， 因 为 块 B, 可 能 包含 
其 他 仍 在 被 访问 的 数据 项 。 因 此 ， 可 能 一 段 时 间 以 后 才 真 正 执行 输出 。 注 意 ， 如 果 在 write(X) 操作 执 
行 后 但 在 output( By ) 操 作 执行 前 系统 崩溃 ，X 的 新 值 并 未 写 和 磁盘， 于 是 就 丢失 了 碟 的 新 值 。 正 如 我 
们 很 快 就 会 看 到 的 ， 数 据 库 系统 执行 额外 的 动作 来 保证 ， 即 使 发 生 了 系统 崩溃 ， 由 提交 的 事务 所 做 的 
更 新 也 不 会 丢失 。 


16.3 ”恢复 与 原子 性 


再 来 考虑 简化 的 银行 系统 和 事务 7, ， 它 将 SO 从 账户 4 转 到 账户 ，4 和 B 的 初始 值 分 别 为 $1000 
和 $2000, (RITE T, 执行 过 程 中 ， 在 output( Bi ) 之 后 ，output( Be) 之 前 ， 发 生 了 系统 崩溃 ， 其 中 B, 和 
Bs 表示 4 和 B 所 在 的 缓冲 块 。 由 于 内 存 的 内 容 丢 失 ， 因 此 我 们 无 法 知道 事务 的 结局 。 

当 系 统 重新 启动 时 ，4 的 值 会 是 $950, M B 的 值 是 $2000， 这 显然 和 事务 T, 的 原子 性 需求 不 一 
致 。 遗 憾 的 是 ， 没 有 办 法 通过 检查 数据 库 状 态 来 找 出 在 系统 月 演 发 生前 哪些 块 已 经 输出 ， 哪 些 块 还 
没有 。 有 可 能 事务 已 经 完成 了 ， 对 稳定 存储 器 中 的 数据 库 初 始 状态 4 和 8B 的 值 分 别 为 $1000 和 $1950 
进行 了 更 新 ; 也 可 能 事务 没有 对 稳定 存储 器 产生 任何 影响 , 4 和 B 的 值 初始 就 是 $950 和 $2000; 或 
者 更 新 后 的 8B 已 经 输出 了 ， 而 更 新 后 的 4 还 没有 输出 ， 或 更 新 后 的 4 已 经 输出 了 ， 而 更 新 后 的 B 还 
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没有 输出 。 

我 们 的 目标 是 要 么 执行 T, 对 数据 库 的 所 有 修改 ,要么 都 不 执行 。 但是， 车 了 执行 多 处 数据 库 修 
改 ， 就 可 能 需要 多 个 输出 操作 ， 并 且 故 障 可 能 发 生 于 某 些 修改 完成 后 而 全 部 修改 完成 前 。 

为 达到 保持 原子 性 的 目标 ， 我 们 必须 在 修改 数据 库 本 身 之 前 ， 首 先 向 稳定 存储 器 输出 信息 ， 描 述 
要 做 的 修改 。 我 们 将 看 到 ， 这 种 信息 能 帮助 我 们 确保 已 提交 事务 所 做 的 所 有 修改 都 反映 到 数据 库 中 (或 
者 在 故障 后 的 恢复 过 程 中 反映 到 数据 库 中 ) 。 这 种 信息 还 能 帮助 我 们 确保 中 止 事务 所 做 的 任何 修改 都 
不 会 持久 存在 于 数据 库 中 。 

16. 3.1 日 志 记 录 

使 用 最 为 广泛 的 记录 数据 库 修 改 的 结构 就 是 日 志 (log) 。 日 志 是 日 志 记录 (log record) 的 序列 ， 它 记 
录 数 据 库 中 的 所 有 更 新 活动 。 

726 志 记 录 有 几 种 。 更 新 日 志 记 录 (update log record) 描述 一 次 数据 库 写 操作 ， 它 具有 如 下 几 个 字段 : 

e 事务 标识 (transaction identifier) ， 是 执行 write 操作 的 事务 的 唯一 标识 。 

。 数据 项 标识 ( data-item identifier) ， 是 所 写 数据 项 的 唯一 标识 。 通 常 是 数据 项 在 磁盘 上 的 位 置 ， 

包括 数据 项 所 驻 留 的 块 的 块 标识 和 块 内 偏 移 量 。 

© 旧 值 (old value) ， 是 数据 项 的 写 前 值 。 

© 新 值 (new value) ， 是 数据 项 的 写 后 值 。 

我 们 将 一 个 更 新 日 志 记 录 表 示 为 < 也 , X , V， , V, > ， 表 明 事 务 7 对 数据 项 XX 执行 了 一 个 写 操作 ， 
写 操作 前 X 的 值 是 V ， 写 操作 后 WEE V, 。 其 他 专门 的 日 志 记录 用 于 记录 事务 处 理 过 程 中 的 重要 
事件 ， 如 事务 的 开始 以 及 事务 的 提交 或 中 目 。 如 下 是 一 些 日 志 记录 类 型 : 

e < 了 7 start > 。 事 务 7 开始 。 

e < Tcommit > 。 事 务 7 提交。 

e < T, abort > 。 事 务 7 中 止 。 

后 面 将 介绍 几 种 其 他 的 日 志 记 录 类 型 。 

Be sie En he 必须 在 数据 库 修 改 前 建立 该 次 写 操作 的 日 志 记录 并 把 它 加 到 日 志 中 。 

志 记 录 已 存在 ， 就 可 以 根据 需要 将 修改 输出 到 数据 库 中 。 并 且 ， 我 们 有 能 力 搬 销 已 经 输出 到 数据 
hex 这 是 利用 日 志 记 录 中 的 旧 值 字 段 来 做 的 。 

为 了 从 系统 故障 和 磁盘 故障 中 恢复 时 能 使 用 日 志 记 录 ， 日 志 必 须 存 放 在 稳定 存储 器 中 。 现 在 我 们 
假设 每 一 个 日 志 记录 创建 后 立即 写 人 稳定 存储 器 中 的 日 志 的 尾部 ， 在 16. 5 节 中 我 们 将 看 到 什么 时 候 可 
以 放宽 这 个 要 求 ， 以 减少 写 日 志 带 来 的 开销 。 由 于 日 志 包 含 所 有 的 数据 库 活动 的 完整 记录 ， 因 此 日 志 
中 存储 的 数据 量 会 变 得 非常 大 ， 在 16. 3.6 节 我 们 将 看 到 什么 时 候 可 以 安全 删除 日 志 信 息 。 


影子 拷贝 和 影子 页 面 

在 影子 找 贝 (shadow-copy) 模 式 下 ， 想 要 更 新 数据 库 的 事务 应 首先 创建 数据 库 的 一 个 完整 拷贝 。 
所 有 的 更 新 在 数据 库 的 这 个 新 拷贝 上 进行 ， 而 不 去 动 那个 原来 的 拷贝 ， 影 子 拷贝 (shadow copy) 。 如 
果 在 任何 一 个 点 上 事务 需要 中 止 ， 系 统 仅仅 删除 这 个 新 拷贝 。 数 据 库 的 旧 找 贝 没有 受到 影响 。 数 据 
库 的 当前 找 贝 由 一 个 指针 来 标识 ， 称 作 数 据 库 指针 ， 它 存放 在 磁盘 上 。 

如 果 事务 部 分 提交 ( 即 ， 执 行 它 的 最 后 一 条 语句 ) ， 那 么 它 如 下 进行 提交 : 首先 ， 要 求 操作 系统 
确保 数据 库 的 新 拷贝 的 所 有 页 面 都 写 到 磁盘 上 。 (为 此 目的 ，UNIX 系统 使 用 fsyne 命令 。) 在 操作 系 
统 将 所 有 页 面 都 写 到 磁盘 上 之 后 ， 数 据 库 系 统 更 新 数据 库 指针 ， 让 它 指 向 数据 库 的 新 社 贝 ; 然后 新 
拷贝 变 成 数据 库 的 当前 拷贝 。 然 后 删除 掉 数 据 库 的 旧 挝 贝 。 在 更 新 后 的 数据 库 指针 写 到 磁盘 上 这 一 
时 间 点 ， 我 们 说 该 事务 已 经 提交 了 。 
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影子 拷贝 的 实现 实际 上 依赖 于 对 数据 库 指针 的 写 是 原子 的 ; 即 ， 或 者 它 的 所 有 字 节 全 部 写 出 ， 
或 者 没有 任何 字 节 写 出 。 磁 盘 系 统 提 供 对 整个 块 的 原子 更 新 ， 或 至 少 是 对 一 个 磁 枪 扇 区 的 。 换 句 话 
说 ， 磁 盘 系 统 保证 它 会 原子 地 更 新 数据 库 指 针 ， 只 要 我 们 确保 数据 库 指 针 完 全 处 于 单个 诊 区 中 ， 而 
这 是 我 们 通过 将 数据 库 指 针 存 放 在 块 的 开头 所 能 够 保证 的 。 

影子 拷贝 模式 普遍 用 于 正文 编辑 器 (保存 文件 等 价 于 事务 提交 ， 不 保存 文件 就 退出 等 价 于 事务 中 
止 ) 。 影 子 拷贝 可 以 用 于 小 的 数据 库 ， 但 拷贝 一 个 大 型 数据 库 会 是 极其 昂贵 的 。 影 子 拷 贝 的 一 个 变 
种 ， 称 作 影 子 页 面 (shadow-paging) ， 它 采用 如 下 方式 来 减少 拷贝 工作 量 : 此 种 模式 使 用 一 个 包含 指 
向 所 有 页 面 的 指针 的 页 表 ; 页 表 自 身 和 所 有 更 新 的 页 面 被 拷贝 到 一 个 新 的 位 置 。 事 务 没有 更 新 的 任 
何 页 面 都 不 拷贝 ， 而 新 的 页 表 只 存储 一 个 指向 原来 页 面 的 指针 。 当 提交 事务 时 ， 它 原子 地 更 新 指向 
页 表 ( 页 表 的 作用 和 数据 库 指针 相同 ) 的 指针 ， 以 指向 新 的 拷贝 。 

遗憾 的 是 ， 影 子 页 面 对 于 并 发 事务 不 能 很 好 地 工作 ， 在 数据 库 中 它 没有 广泛 使 用 。 


16.3.2 ”数据 库 修 改 

正如 我 们 前 面 已 经 注意 到 的 ， 事 务 在 对 数据 库 进 行 修改 前 创建 了 一 个 日 志 记录 。 日 志 记 录 使 得 系 
统 在 事务 必须 中 止 的 情况 下 能 够 对 事务 所 做 的 修改 进行 撤销 ; 并 且 在 事务 已 经 提交 但 在 修改 已 存放 到 
磁盘 上 的 数据 库 中 之 前 系统 崩溃 的 情况 下 能 够 对 事务 所 做 的 修改 进行 重 做 。 为 了 使 我 们 能 够 理解 恢复 
过 程 中 日 志 记 录 的 作用 ， 我 们 需要 考虑 事务 在 进行 数据 项 修改 中 所 采取 的 步骤 ; 

1. 事务 在 主 存 中 自己 私有 的 部 分 执行 某 些 计算 。 

2. 事务 修改 主 存 的 磁盘 缓冲 区 中 包含 该 数据 项 的 数据 块 。 

3. 数据 库 系 统 执行 output 操作 ， 将 数据 块 写 到 磁盘 中 。 

如 果 一 个 事务 执行 了 对 磁盘 缓冲 区 或 磁盘 自身 的 更 新 ， 我 们 说 这 个 事务 修改 了 数据 库 ; 而 对 事务 
在 主 存 中 自己 私有 的 部 分 进行 的 更 新 不 算数 据 库 修改 。 如 果 一 个 事务 直到 它 提交 时 都 没有 修改 数据 库 ， 
我 们 就 说 它 采 用 了 延迟 修改 ( deferred-modification ) 技术 。 如 果 数 据 库 修改 在 事务 仍然 活路 时 发 生 ， 我 
们 就 说 它 采用 了 立即 修改 (immediate-modification ) 技术 。 延 迟 修 改 所 付出 的 开销 是 ， 事 务 需要 创建 更 新 
过 的 所 有 的 数据 项 的 本 地 拷贝 ; 而且 如 果 一 个 事务 读 它 更 新 过 的 数据 项 ， 它 必须 从 自己 的 本 地 拷贝 
中 读 。 

本 章 描述 的 恢复 算法 支持 立即 修改 。 正 如 所 描述 的 ， 即 使 对 于 延迟 修改 ， 它 们 也 能 正确 工作 ， 但 
是 当 与 延迟 修改 一 起 使 用 时 可 以 进行 优化 ， 以 减少 开销 ; 我 们 将 细节 留 作 练习 。 

恢复 算法 必须 考虑 多 种 因素 ， 包 括 : 

© 有 可 能 一 个 事务 已 经 提交 了 ， 虽 然 它 所 做 的 某 些 数据 库 修 改 还 仅仅 存在 于 主 存 的 磁盘 缓冲 区 

中 ， 而 不 在 磁盘 上 的 数据 库 中 。 
© 有 可 能 处 于 活动 状态 的 一 个 事务 已 经 修改 了 数据 库 ， 而 作为 后 来 发 生 的 故障 的 结果 ， 这 个 事务 
需要 中 止 。 

由 于 所 有 的 数据 库 修 改 之 前 必须 建立 日 志 记 录 ， 因 此 系统 有 数据 项 修改 前 的 旧 值 和 要 写 给 数据 项 
的 新 值 可 以 用 。 这 就 使 得 系统 能 执行 适当 的 undo 和 redo 操作 。 

© undo 使 用 一 个 日 志 记录 ， 将 该 日 志 记录 中 指明 的 数据 项 设置 为 旧 值 。 

© redo 使 用 一 个 日 志 记 录 ， 将 该 日 志 记录 中 指明 的 数据 项 设置 为 新 值 - 
16.3.3 并 发 控制 和 恢复 

如 果 并 发 控制 模式 允许 一 个 事务 T 修改 过 的 数据 项 在 T, 提交 前 进一步 地 由 另 一 个 事务 T, 修 
改 ， 那 么 通过 将 头 重 置 为 它 的 旧 值 (7, 更 新 之 前 的 值 ) 来 撤销 7, 的 影响 同时 也 会 撤销 T 的 影响 。 为 
避免 这 样 的 情形 发 生 ， 恢 复 算法 通常 要 求 如 果 一 个 数据 项 被 一 个 事务 修改 了 ， 那 么 在 该 事务 提交 或 中 
止 前 不 允许 其 他 事务 修改 该 数据 项 。 
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这 一 要 求 可 以 通过 对 更 新 的 数据 项 获取 排他 锁 ， 并 且 持 有 该 锁 直 至 事务 提交 来 保证 ; 换 句 话说 ， 


通过 使 用 严格 两 阶段 封锁 。 快 照 隔离 性 和 基于 有 效 性 验证 的 并 发 控制 技术 在 有 效 性 验证 时 ， 在 修改 数 
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据 项 之 前 ， 也 要 获取 数据 项 上 的 排他 锁 ， 直 至 事务 提交 ; 其 结果 是 ， 即 使 通过 这 些 并 发 控制 协议 ， 上 
述 要 求 也 能 得 到 满足 。 

后 面 在 16.7 节 讨 论 ， 在 一 定 的 情况 下 可 以 如 何 放松 上 述 要 求 。 

在 采用 快照 隔离 性 或 有 效 性 验证 进行 并 发 控制 时 ， 事 务 所 做 的 数据 库 更 新 (从 概念 上 ) 是 延迟 到 
事务 部 分 提交 时 ; 延迟 修改 技术 与 这 些 并 发 控制 模式 自然 吻合 。 然 而 ， 值 得 注意 的 是 ， 快 照 隔离 性 
的 某 些 实现 采用 了 立即 修改 技术 ， 而 根据 需要 提供 了 一 个 逻辑 快照 ， 当 事务 需要 读 被 并 发 的 事务 更 
新 的 一 个 数据 项 时 ， 就 生成 该 数据 项 (已 经 更 新 ) 的 一 个 拷贝 ， 在 这 个 拷贝 上， 并 发 事务 所 做 的 更 新 
回 滚 。 类 似 地 ， 数 据 库 的 立即 修改 与 两 阶段 封锁 自然 吻合 ， 但 延迟 修改 也 可 以 和 两 阶段 封锁 一 起 
使 用 。 

16.3.4 事务 提交 

当 一 个 事务 的 commit 日 志 记 录 一 一 这 是 该 事务 的 最 后 一 个 日 志 记 录 输出 到 稳定 存储 器 后 ， 我 
们 就 说 这 个 事务 提交 (commit) T; 这 时 所 有 更 早 的 日 志 记录 都 已 经 输出 到 稳定 存储 器 中 。 于 是 ， 在 日 
志 中 就 有 足够 的 信息 来 保证 ， 即 使 发 生 系统 崩 泪 ， 事 务 所 做 的 更 新 也 可 以 重 做 。 如 果 系 统 崩 溃 发 生 在 
日 志 记 录 <T, commit > 输出 到 稳定 存储 器 之 前 ， 事 务 7 将 回 深 。 这 样 ， 包 含 commit 日 志 记 录 的 块 的 
输出 是 单个 原子 动作 ， 它 导致 一 个 事务 的 提交 。 © 

对 于 大 多 数 基于 日 志 的 恢复 技术 ， 包 括 本 章 描述 的 技术 ， 不 是 在 一 个 事务 提交 时 必须 将 包含 该 事 
务 修改 的 数据 项 的 块 输出 到 稳定 存储 器 中 ， 可 以 在 以 后 的 某 个 时 间 再 输出 。16. 5. 2 节 进 一 步 讨 论 这 个 
问题 。 

16. 3.5 使 用 日 志 来 重 做 和 撤销 事务 

我 们 现在 提供 一 个 关于 如 何 使 用 日 志 来 从 系统 崩 演 中 进行 恢复 以 及 在 正常 操作 中 对 事务 进行 回 深 
的 概览 。 但 是 ， 我们 将 故障 恢复 和 回 滚 过 程 的 细节 推迟 到 16. 4 节 。 

考虑 简化 的 银行 系统 。 令 7, 是 一 个 事务 ， 它 将 50 美元 从 账户 A 转 到 账户 B。 
















T, : read( A); 
A;= A-S50; 
write( A); 
read(B) ; 
B:= B+50; 
write( B). 
AT, 是 一 个 事务 ， 它 从 账户 C 中 取出 100 美元 。 a 
T, : read( C); <Ty, A, 1000, 950> 
C:= C-100; <To, B, 2000, 2050> 
write( C). <To commit> 


<T, start> 
<T,, C, 700, 600> 
<T; commit> 


日 志 包含 与 这 两 个 事务 相关 信息 的 部 分 如 图 16-2 所 示 。 

图 16-3 显示 了 一 个 可 能 的 顺序 ， 在 这 个 顺序 中 ， 作 为 T A T, 的 执行 结 
果 ， 对 于 数据 库 系 统 和 日 志 的 实际 的 输出 都 发 生 了 。“ 图 16-2 系统 日 志 中 与 

使 用 日 志 ， 系 统 可 以 对 付 任何 故障 ， 只 要 它 不 导致 非 易 失 性 存储 器 中 信 T 和 7, 相应 的 部 分 
息 的 丢失 。 恢 复 系统 使 用 两 个 恢复 过 程 ， 它 们 都 利用 日 志 来 找到 每 个 事务 7 
更 新 过 的 数据 项 的 集合 ， 以 及 它们 各 自 的 旧 值 和 新 值 。 

e redo(T;) 将 事务 7, 更 新 过 的 所 有 数据 项 的 值 都 设置 成 新 值 。 








名 ”一 个 块 的 输出 可 以 通过 对 付 数据 传输 故障 的 技术 而 做 成 原子 的 ， 正 如 16. 2. 1 节 所 描述 的 。 
O ”请 注意 ， 如 果 使 用 延迟 修改 技术 ， 就 不 能 得 到 这 个 顺序 ， 因 为 在 T 提交 之 前 数据 库 不 会 修改 ， 对 于 九 也 一 样 。 
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通过 redo 来 执行 更 新 的 顺序 是 非常 重要 的 ; 当 从 系统 崩溃 中 恢复 时 ， 如 果 对 一 个 特定 数据 项 的 多 
个 更 新 的 执行 顺序 不 同 于 它们 原来 的 执行 顺序 ， 那 么 该 数据 项 的 最 HA 
终 状 态 将 是 一 个 错误 的 值 。 大 多 数 的 恢复 算法 ， 包 括 16. 4 节 描 述 的 <T, start> 
算法 ， 都 没有 把 每 个 事务 的 重 做 分 别 执行 ， 而 是 对 日 志 进 行 一 次 扫 <To, A, 1000, 950> 
描 ， 在 扫描 过 程 中 每 遇 到 一 个 redo 日 志 记 录 就 执行 redo 动作 。 这 种 | “TB 2000, 2050> 
方法 能 确保 保持 更 新 的 顺序 ， 并 且 效 率 更 高 ， 因 为 仅 需要 整体 读 一 
id A :， 而 不 是 对 每 个 事务 读 一 id AGE. 
e undo(T,) 将 事务 T, 更 新 过 的 所 有 数据 项 的 值 都 恢复 成 旧 值 。 
在 16. 4 节 中 描述 的 恢复 机 制 中 : 
口 undo 操作 不 仅 将 数据 项 恢复 成 它 的 旧 值 ， 而 且 作为 撤销 过 <T, commit> 
plc 还 写 日 志 记 录 来 记 下 所 执行 的 更 新 。 这 些 图 16-3 4 7, #7, 相应 的 
志 记 录 是 特殊 的 redo-only 日 志 记 录 ， 因 为 它们 不 需要 系统 日 志和 数据 库 状态 
pareconeeieantrs 
与 重 做 过 程 一 样 ， 执 行 更 新 的 顺序 是 非常 重要 的 ; 我 们 还 是 将 细节 推迟 到 16. 4 节 中 。 
口 当 对 于 事务 7, 的 undo 操作 完成 后 ， 它 写 一 个 <7, abort > 日 志 记 录 ， 表明 撤 销 完成 了 。 
正如 我 们 将 在 16. 4 节 中 看 到 的 ， 对 于 每 一 个 事务 ，uedo( 7,) 只 执行 一 次 ， 如 果 在 正常 的 处 
理 中 该 事务 回 深 , 或 者 在 系统 月 溃 后 的 恢复 中 既 没有 发 现 事务 T, 的 commit 记录 ， 也 没有 发 
MBS T, 的 abort 记录 。 其 结果 是 ， 在 日 志 中 每 一 个 事务 最 终 或 者 有 一 条 commit 记录 ， 或 
者 有 一 条 abort 记录 。 
发 生 系统 前 溃 之 后 ， 系 统 查阅 日 志 以 确定 为 保证 原子 性 需要 对 哪些 事务 进行 重 做 ， 对 哪些 事务 进 
e 如 果 日 志 包括 <T start > 记录 ， 但 既 不 包括 <T, commit > ， 也 不 包括 <T, abort > 记录 ， 则 需要 
对 事务 T, 进行 撤销 。 
。 如 果 日 志 包 括 <T start >it R, UK <T, commit > 或 <7 abort > 记录 ， 需 要 对 事务 7, 进行 重 
做 。 如 果 日 志 包 括 <7, abort > 记录 还 要 进行 重 做 ， 看 来 比较 奇怪 。 要 明白 这 是 为 什么 ， 请 注 
意 如 果 在 日 志 中 有 <T, abort > 记录 ， 日 志 中 也 会 有 undo 操作 所 写 的 那些 redo-only 日 志 记 录 。 
于 是 ， 这 种 情况 下 最 终结 果 将 是 对 T, 所 做 的 修改 进行 撤销 。 这 一 轻微 的 元 余 简化 了 恢复 算法 ， 
并 使 得 整个 恢复 过 程 变 得 更 快 。 
作为 一 个 描述 ， 让 我 们 回 到 银行 的 例子 ， 有 事务 TAT, 按照 7 RE T 后面 的 顺序 执行 。 假 定 
在 事务 完成 之 前 系统 骨 溃 。 我 们 将 要 考虑 三 种 情况 。 在 图 16-4 中 显示 了 各 种 情况 下 的 日 志 。 
首先 ， 我 们 假定 崩溃 恰好 发 生 在 事务 T, 的 
write( B) 
步骤 的 日 志 记录 已 经 写 到 稳定 存储 器 之 后 ( 见 图 16-4a) 。 当 系统 重新 启动 时 ， 它 在 日 志 中 找到 记 
录 <T, start > ， 但 是 没有 相应 的 < Ti commit > 或 < Ti abort > iz, KH, 事务 T 必须 撤销 ， 于 是 执 
行 undo( 7,)。 其 结果 是 ，( 磁 盘 上 ) 账 户 A 和 账户 B 的 值 分 别 恢复 成 $1000 和 $2000. 
其 次 ， 我 们 假定 前 溃 恰 好 发 生 在 事务 T, 的 
write( C) 
步骤 的 日 志 记 录 已 经 写 到 稳定 存储 器 之 后 ( 见 图 16-4b) 。 当 系统 重新 启动 时 ， 需 要 采取 两 个 恢复 动作 。 
AA <T, start > 记录 出 现在 日 志 中 ,但 是 没有 <T, commit > 或 < 7, abort > 记录， 所 以 必须 执行 undo 
(了 ) 。 因 为 日 志 中 既 包括 < Tu start > 记录 ， 又 包括 <T, commit > 记录 ， 所 以 必须 执行 redo( 7,)。 在 
整个 恢复 过 程 结束 时 ， 账 户 A、B、 和 C 的 值 分 别 为 $950、$2050 和 $700. 
最 后 ,我们 假定 衣 溃 恰好 发 生 在 事务 T, 的 日 志 记 录 : 
<T commit > 
已 经 写 到 稳定 存储 器 之 后 ( 见 图 16-4c) 。 当 系统 重新 启动 时 ， 因 为 < Tu start > 记录 和 <T, commit > 记 
录 都 在 日 志 中 ， 并且 <T, start > 记录 和 <T, commit > 记录 也 都 在 日 志 中 ， 所 以 和 和 也 都 必须 重 做 。 












A=950 
B = 2050 
<To commit> 
<T, start> 
<T,, C, 700, 600> 
C=600 











[731 | 
733 | 
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在 系统 执行 redo(T,) 和 redo(7, ) 过 程 后 ， 账 户 A、B 和 C 的 值 分 别 为 $950 、$2050 和 $600. 


<T start> <Ty Start> <T start> 

<Ty, A, 1000, 950> <Ty, A, 1000, 950> <Ty, A, 1000, 950> 

<To, B, 2000, 2050> <Ty, B, 2000, 2050> <Ty, B, 2000, 2050> 
<T) commit> <Tu commit> 
<T start> <T, start> 
<T,, C, 700, 600> <T,, C, 700, 600> 

<T, commit> 
a) b) c) 


图 16-4 在 三 个 不 同时 间 显 示 的 同一 个 日 志 


16. 3.6 检查 点 

当 系 统 故 障 发 生 时 ， 我 们 必须 检查 日 志 ， 决 定 哪 些 事 务 需 要 重 做 ,哪些 需要 撤销 。 原 则 上 ， 我 们 
需要 搜索 整个 日 志 来 确定 该 信息 。 这 样 做 有 两 个 主要 的 困难 ; 

1. 搜索 过 程 太 耗 时 。 

2. 根据 我 们 的 算法 ， 大 多 数 需要 重 做 的 事务 已 把 其 更 新 写 人 数据 库 中 。 尽 管 对 它们 重 做 不 会 造成 
不 良 后果 ， 但 会 使 恢复 过 程 变 得 更 长 。 

为 降低 这 种 开销 ， 引 入 检查 点 。 

下 面 描述 一 个 简单 的 检查 点 ， 它 (a) 在 执行 检查 点 操作 的 过 程 中 不 允许 执行 任何 更 新 ，(b) 在 执行 
检查 点 的 过 程 中 将 所 有 更 新 过 的 缓冲 块 都 输出 到 磁盘 。 后 面 会 讨论 如 何 通过 放松 这 两 条 要 求 来 修改 检 
查 点 和 恢复 过 程 ， 以 提供 更 高 的 灵活 性 。 

检查 点 的 执行 过 程 如 下 : 

1. 将 当前 位 于 主 存 的 所 有 日 志 记 录 输 出 到 稳定 存储 器 。 

2. 将 所 有 修改 的 缓冲 块 输出 到 磁盘 。 

3. 将 一 个 日 志 记 录 < checkpoint L > 输出 到 稳定 存储 器 ， 其 中 工 是 执行 检查 点 时 正 活跃 的 事务 的 
列表 。 

在 检查 点 执行 过 程 中 ， 不 允许 事务 执行 任何 更 新 动作 ， 如 往 缓 冲 块 中 写 入 或 写 日 志 记 录 。16. 5.2 

会 讨论 如 何 强制 满足 这 个 要 求 。 

在 日 志 中 加 入 < checkpoint L> 记录 使 得 系统 提高 恢复 过 程 的 效率 。 考 虑 在 检查 点 前 完成 的 事务 
T, 。 对 于 这 样 的 事务 ，< T, commit > 记录 (或 < 7, abort > 记录 ) 在 日 志 中 出 现在 < checkpoint > 记录 之 
Aio T; 所 做 的 任何 数据 库 修 改 都 必然 已 在 检查 点 前 或 作为 检查 点 本 身 的 一 部 分 写 人 数据 库 。 因 此 ， 在 
恢复 时 就 不 必 再 对 T, 执行 redo 操作 了 。 

734 在 系统 崩溃 发 生 之 后 ， 系 统 检 查 日 志 以 找到 最 后 一 条 < checkpoint L> 记录 (这 可 以 通过 从 尾 端 开 
始 反 回 搜 索 日 志 来 进行 ， 直 至 遇 到 第 一 条 < checkpoint L > 记录 ) 。 

只 需要 对 工 中 的 事务 ， 以 及 < checkpoint L > 记录 写 到 日 志 中 之 后 才 开 始 执行 的 事务 进行 undo 或 
redo 操作 。 让 我 们 把 这 个 事务 集合 记 为 T。 

e 对 了 中 所 有 事务 7T, ， 若 日 志 中 既 没 有 < T, commit > 记录 ， 也 没有 < T, abort > 记录 ， 则 执行 

undo( T, )o 

e 对 了 中 所 有 事务 T, ， 若 日 志 中 有 < T, commit > 记录 或 < T, abort > 记录 ， 则 执行 redo( T, ) 

请 注意 ， 要 找 出 事务 集合 7， 和 确定 7 中 的 每 个 事务 是 否 有 commit 或 abort 记录 出 现在 日 志 中 ,我 
们 只 需要 检查 日 志 中 从 最 后 一 条 checkpoint 日 志 记 录 开 始 的 部 分 。 

作为 一 个 例子 ， 考 虑 事务 集合 | 7 ,T ,… Tol 。 假 设 最 近 的 检查 点 发 生 在 事务 To 和 Te 执行 的 过 
程 中 ， 而 Ts 和 下 标 小 于 67 的 所 以 事务 在 检查 点 之 前 都 已 完成 。 于 是 ,在 恢复 机 制 中 只 需要 考虑 事务 
Tos Tos ts Tioo。。 其 中 已 完成 ( 即 已 提交 或 已 终止 ) 的 需要 重 做 ; 否则 就 是 未 完成 的 ， 需要 撤销 。 . 

考虑 检查 点 日 志 记 录 中 的 事务 集合 L。 对 于 工 中 的 每 一 个 事务 7,， 如 果 它 没有 提交 ， 那 么 为 了 对 
该 事务 进行 撤销 ， 可 能 需要 该 事务 发 生 在 检查 点 日 志 记 录 之 前 的 所 有 日 志 记 录 。 无 论 如 何 , 一 旦 检查 
点 完成 了 ， 我 们 就 不 再 需要 位 于 最 先 出 现 的 日 志 记录 < T, start > (这 儿 的 7 是 L 中 的 任何 事务 ) 之 前 的 
所 有 日 志 记录 了 。 当 数据 库 系 统 需要 回收 这 些 记 录 占 用 的 空间 时 ， 就 可 以 清 掉 这 些 日 志 记录 。 
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在 检查 点 过 程 中 不 允许 事务 对 缓冲 块 或 日 志 进 行 任何 更 新 ， 这 一 要 求 会 引起 相当 的 麻烦 ， 因 为 这 
样 一 来 在 检查 点 进行 的 过 程 中 事务 处 理 就 必须 停顿 下 来 。 模 糊 检查 点 ( fuzzy checkpoint ) 是 这 样 的 检查 
点 ， 它 即使 在 缓冲 块 正在 写 出 时 也 允许 事务 执行 更 新 。16. 5. 4 节 对 模糊 检查 点 模式 进行 描述 。 然 后 
16. 8 节 再 描述 一 个 检查 点 模式 ， 它 不 仅 是 模糊 的 ， 而 且 甚至 不 要 求 在 检查 点 时 刻 将 所 有 修改 过 的 缓冲 
块 输出 到 磁盘 中 。 


16.4 恢复 算法 


到 目前 为 止 ， 在 对 故障 恢复 的 讨论 中 ， 我 们 确定 了 需要 对 哪些 事务 进行 重 做 和 需要 对 哪些 事务 进 
行 撤销 ， 但 是 我 们 没有 给 出 进行 这 些 动作 的 详细 算法 。 现 在 我 们 来 给 出 使 用 日 志 记录 从 事务 故障 中 恢 
复 的 完整 恢复 算法 ， 以 及 将 最 近 的 检查 点 和 日 志 记 录 结 合 起 来 以 从 系统 崩溃 中 进行 恢复 的 算法 。 
本 节 描 述 的 恢复 算法 要 求 未 提交 的 事务 更 新 过 的 数据 项 不 能 被 任何 其 他 事务 修改 ， 直 至 更 新 它 的 
事务 或 者 提交 或 者 中 止 。 这 一 限制 在 16. 3. 3 节 曾 经 讨论 过 。 
16. 4.1 事务 回 滚 
首先 考虑 正常 操作 时 ( 即 不 是 从 系统 崩溃 中 恢复 时 ) 的 事务 回 滚 。 事 务 Ti 的 回 滚 如 下 执行 。 
1. 从 后 往 前 扫描 日 志 ， 对 于 所 发 现 的 Ti 的 每 一 个 形 如 <7T,, X, V, V, > 的 日 志 记 录 : 
a. (AV, 被 写 到 数据 项 已 中， 并 且 
b. 往日 志 中 写 一 个 特殊 的 只 读 日 志 记 录 <T, X, V>, RPV, 是 在 本 次 回 滚 中 数据 项 蕊 恢 
复 成 的 值 。 有 时 这 种 日 志 记 录 称 作 补偿 日 志 记 录 (compensation log record)。 这 样 的 日 志 记 录 
不 需要 undo 信息 ， 因 为 我 们 绝 不 会 需要 撤销 这 样 的 undo 操作 。 后 面 会 解释 如 何 使 用 这 些 日 
志 记 录 。 
2. 一 旦 发 现 了 <7,，start > 日 志 记 录 ， 就 停止 从 后 往 前 的 扫描 ， 并 往日 志 中 写 一 个 < Ti，abort > 
日 志 记 录 。 
请 注意 ， 现 在 事务 所 做 的 或 者 我 们 为 事务 做 的 每 一 个 更 新 动作 ， 包 括 将 数据 项 恢复 成 其 日 值 的 动 
作 ， 都 记录 到 日 志 中 了 。 在 16. 4. 2 节 中 我 们 将 看 到 为 什么 这 是 个 好 办 法 。 
16.4.2 系统 崩溃 后 的 恢复 
崩溃 发 生 后 当 数 据 库 系统 重启 时 ,恢复 动作 分 两 阶段 进行 : 
1. i] 系统 通过 从 最 后 一 个 检查 点 开始 正 向 地 扫描 日 志 来 重 放 所 有 事务 的 更 新 。 重 放 的 
志 记 录 包 括 在 系统 谣 溃 之 前 已 回 滚 的 事务 的 日 志 记 录 ， 以 及 在 系统 崩溃 发 生 时 还 没有 提交 的 
le ro STR. XT OBR EAS ARAN ASEM, AMAR. ORR ARSC 
成 事务 或 者 在 检查 点 时 是 活跃 的 ， 因 此 会 出 现在 检查 点 记录 的 事务 列表 中 ， 或 者 是 在 检查 点 之 
后 开始 的 ; 而 且 ， 这 样 的 未 完成 事务 在 日 志 中 既 没 有 < Ti，abort > 记录 ， 也 没有 <Ti, commit 
> 记录 。 
扫描 日 志 的 过 程 中 所 采取 的 具体 步骤 如 下 : 
a. 将 要 回 滚 的 事务 的 列表 undo-list 初始 设 定 为 < checkpoint L > 日 志 记 录 中 的 上 列表 。 
b. 一 旦 遇 到 形 为 < 7， X;, Vi. V, > 的 正常 日 志 记录 或 形 为 < 了 ， X;, V > AY redo-only H tid 
录 ， 就 重 做 这 个 操作 ; 也 就 是 说 ， 将 值 V SARE Y,. 
c. 一 旦 发 现形 为 <7,，start > 的 日 志 记 录 ， 就 把 了 加 到 undo-list 中 。 
d. 一 旦 发 现形 为 <7T,，abort > 或 <7 ，commit > 的 日 志 记 录 ， 就 把 了 从 undo-list 中 去 掉 。 
在 redo 阶段 的 末尾 ，undo-list 包括 在 系统 崩溃 之 前 尚未 完成 的 所 有 事务 ， 即 ， 既 没有 提交 也 没有 
完成 回 滚 的 那些 事务 。 
2. 在 撤销 阶段 ， 系 统 回 深 undo-list 中 的 所 有 事务 。 它 通过 从 尾 端 开始 反 向 扫描 日志 来 执行 回 滚 。 
a. 一 旦 发 现 属于 undo-list 中 的 事务 的 日 志 记 录 ， 就 执行 undo 操作 ， 就 像 在 一 个 失败 事务 的 回 
滚 过 程 中 发 现 了 该 日 志 记 录 一 样 。 
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b. 当 系统 发 现 undo-list 中 事务 T, AY <T, start > 日 志 记 录 ， 它 就 往日 志 中 写 一 个 <7,，abort > 
HRR, J EHHE T, JA undo-list 中 去 掉 。 
c 一 旦 undo-list 变 为 空 表 ， 即 系统 已 经 找到 了 开始 时 位 于 undo-list 中 的 所 有 事务 的 <T, start > 
日 志 记 录 ， 则 撤销 阶段 结束 。 
当 恢 复 过 程 的 撤销 阶段 结束 之 后 ， 就 可 以 重新 开始 正常 的 事务 处 理 了 。 
请 注意 ， 在 重 做 阶段 从 最 近 的 检查 点 记录 开始 重 放 每 一 个 日 志 记 录 。 换 名 话说 ， 重 启动 恢复 的 这 
个 阶段 重复 检查 点 之 后 执行 并 且 其 日 志 志 记录 已 经 到 达 稳定 存储 器 中 的 日 志 的 所 有 更 新 动作 。 这 些 动作 
包括 未 完成 事务 的 动作 和 为 回 滚 失 败 的 事务 所 执行 的 动作 。 这 些 动作 按照 它们 原先 执行 的 次 序 重复 ; 
因此 ， 这 一 过 程 称 作 重复 历史 (repeating history ) 。 虽 然 这 看 起 来 是 浪费 ， 但 即使 对 失败 事务 也 重复 ， 
这 样 的 做 法 简化 了 恢复 过 程 。 
图 16-5 显示 了 在 正常 操作 中 由 日 志 记录 下 的 动作 ， 以 及 在 故障 恢复 中 执行 的 动作 的 一 个 例子 。 在 
图 16-1 中 显示 的 日 志 中 ， 在 系统 崩溃 之 前 ， 事 务 7 BEX, 事务 7 已 完全 回 深 。 请 注意 在 7 的 回 滚 
中 如 何 恢 复数 据 项 B 的 值 。 还 请 注意 检查 点 记录 ， 它 的 活跃 事务 列表 包含 7, 和 也 。 


日 志 开始 为 undo list 中 
较 老 <T, start> 所 有 事务 找到 
<To, B, 2000, 2050> star 旬 志 记 录 

<T start> 







<checkpoint {To, T}> (在 正常 操作 中 ) 
<T;, C, 700, 600> 始 回 滚 


Ty 





<T, commit> 
HE <T; start> z 
(haar <Ts, A, 500, 400> 7, 回 滚 完成 
的 结束 点 T, B, 人 | 
To abort> EN 
恢复 过 程 ABUT ATER | undo list T, 重 做 阶段 


中 加 入 的 <T,, A, 500> 


日 志 记 录 <T abort> 在 撤销 阶段 
am a 


16-5 ”记录 在 日 志 中 的 动作 和 恢复 中 的 动作 的 例子 


当 从 崩溃 中 恢复 时 ， 在 重 做 阶段 ， 系 统 对 最 后 一 个 检查 点 记录 之 后 的 所 有 操作 执行 redo。 在 这 个 
阶段 中 ，undo-list 初始 时 包含 T, AT; 4 T, 的 commit H BEREAN, T, 先 被 从 表 中 去 掉 ， 而 当 
T, 的 start H BERERA, T, 被 加 到 表 中 。 当 事 务 T, 的 abort 日 志 记 录 被 发 现时 ，7, 被 从 undo- 
list PAI, HÆJ T, 在 undo-list 中 。 撤 销 阶 段 从 尾 端 开始 反 向 扫描 日 志 ， 当 发 现 T, EY A 的 日 志 记 录 
时 ,将 4 恢复 成 旧 值 ， 并 往日 志 中 写 一 个 redo-only 日 志 记 录 。 当 发 现 T, FRH ARERI, WA T, 
添加 一 条 abort 记录 。 由 于 undo-list 不 再 包含 任何 事务 了 ， 因 此 撤销 阶段 终止 ,恢复 完成 。 


16.5 缓冲 区 管理 


ERTH, 我们 考虑 几 个 微妙 的 细节 ， 它 们 对 实现 保证 数据 一 致 性 且 只 增加 少量 与 数据 库 交 互 的 
开销 的 故障 恢复 机 制 非常 重要 。 
16.5.1 日 志 记录 缓冲 

迄今 为 止 ， 我 们 假设 每 个 日 志 记 录 在 创建 时 都 输出 到 稳定 存储 器 。j ee it 
开销 。 其 原因 是 : 通常 向 稳定 存储 器 的 输出 是 以 块 为 单位 进行 的 。 在 大 多 数 情况 下 ， 志 记 录 比 
一 个 块 要 小 得 多 ， 因 此 ， 每 个 日 志 记 录 的 输出 转化 成 在 物理 上 大 得 多 的 输出 。 另 外 ， Me pat 
所 看 到 的 ， 向 稳定 存储 器 输出 一 块 在 物理 层 上 可 能 涉及 几 个 输出 操作 。 

将 一 个 块 输出 到 稳定 存储 器 的 开销 非常 高 ， 因 此 最 好 是 一 次 输出 多 个 日 志 记 录 。 为 了 达到 这 个 目 
的 ， 我们 将 日 志 记 录 写 到 主 存 的 日 志 缓 冲 区 中 ， 日 志 记 录 在 输出 至 稳定 存储 器 以 前 临时 保存 在 那儿 。 
可 以 集中 多 个 日 志 记 录 在 日 志 缓 冲 区 中 ， 然 后 再 用 一 次 输出 操作 输出 到 稳定 存储 器 中 。 稳 定 存储 器 中 








第 16 章 恢复 系统 413 


的 日 志 记 录 顺 序 必须 与 写 人 日 志 缓冲 区 的 顺序 完全 一 样 。 

由 于 使 用 了 日 志 缓冲 区 ， 日 志 记录 在 输出 到 稳定 存储 器 前 可 能 有 一 段 时 间 只 存在 于 主 存 ( 易 失 人 性 
存储 器 ) 中 。 由 于 系统 发 生 裔 溃 时 这 种 日 志 记 录 会 丢失 ， 我 们 必须 对 恢复 技术 增加 一 些 要求 以 保证 事务 
的 原子 性 : 

。 在 日 志 记 录 < Ti commit > 输出 到 稳定 存储 器 后 ， 事 务 Ti 进入 提交 状态 。 

。 在 日 志 记 录 < Ti commit > 输出 到 稳定 存储 器 前 ， 与 事务 Ti 有 关 的 所 有 日 志 记 录 必 须 已 经 输出 

到 稳定 存储 器 。 
。 在 主 存 中 的 数据 块 输出 到 数据 库 ( 非 易 失 性 存储 器 ) 前 ， 所 有 与 该 数据 块 中 数据 有 关 的 日 志 记 录 
必须 已 经 输出 到 稳定 存储 器 。 
这 一 条 规则 称 为 先 写 日 志 ( Write-Ahead Logging, WAL) 规则 。( 严 格 地 说 ， 双 AL 规则 只 
求 日 志 中 的 undo 信息 已 经 输出 到 稳定 存储 器 中 ， 而 redo 信息 允许 以 后 再 写 。 这 一 区 别 与 undo 
信息 和 redo 信息 分 别 存储 在 不 同 的 日 志 记 录 中 的 系统 是 相关 的 。) 

这 三 条 规则 表明 ， 在 某 些 情况 下 某 些 日 志 记 录 必 须 已 经 输出 到 稳定 存储 器 中 。 而 提前 输出 日 志 

录 不 会 造成 任何 问题 。 因 此 ， 当 系统 发 现 需 要 将 一 个 日 志 记录 输出 到 稳定 存储 器 时 ， eo 
够 的 日 志 记录 可 以 填 满 整个 日 志 记录 块 ， 就 将 其 整个 输出 。 如 果 没 有 足够 的 日 志 记 录 填 人 该 块 ， 那 么 
就 将 主 存 中 的 所 有 日 志 记 录 填 人 一 个 部 分 填充 的 块 ， 并 输出 到 稳定 存储 器 。 

将 缓冲 的 日 志 写 到 磁盘 有 时 称 为 强制 日 志 (l]og force) 。 

16. 5.2 数据库 缓冲 

16. 2. 2 节 描 述 了 两 层 存储 层次 结构 的 使 用 。 系 统 将 数据 库存 储 在 非 易 失 性 存储 器 ( 磁盘 ) 中 ， 并 且 
在 需要 时 将 数据 块 调 人 主 存 。 由 于 主 存 通 常 比 整个 数据 库 小 得 多 ， 因 此 可 能 在 需要 将 块 B, 调和 内存 的 
时 候 覆 盖 主 存 中 的 块 B o WR B 已 经 修改 过 ， 那 么 B 必须 在 输入 B 前 就 输出 。 与 10. 8. 1 节 讨 论 的 
一 样 ， 这 个 存储 层次 结构 类 似 于 操作 系统 中 标准 的 虚拟 内 存 概 念 。 

人 们 可 能 期 望 事务 在 提交 时 强制 地 将 修改 过 的 所 有 的 块 都 输出 到 磁盘 。 这 样 的 策略 称 作 强制 
(force) 策略 。 另 一 种 方法 是 非 强制 (no-force) 策略， 即使 一 个 事务 修改 了 某 些 还 没有 写 回 到 磁盘 的 块 ， 
也 允许 它 提交 。 本 章 描述 的 所 有 恢复 算法 即使 在 非 强 制 策略 的 情况 下 也 能 正确 工作 。 非 强制 策略 使 得 
事务 能 更 快速 地 提交 ; 而 且 它 使 得 在 一 个 块 输出 到 稳定 存储 器 之 前 可 以 将 多 个 更 新 积聚 在 一 起 ， 这 可 
以 大 大 减 小 频繁 更 新 的 块 的 输出 操作 的 数目 。 其 结果 是 ， 大 多 数 系统 所 采用 的 标准 的 方法 是 非 强制 
策略 。 

类 似 地 ， 人 们 可 能 期 望 一 个 仍然 活跃 的 事务 修改 过 的 块 都 不 应 该 写 出 到 磁盘 。 这 一 策略 称 作 非 窃 
取 (no-steal) 策略 。 另 一 种 方法 是 窃取 (steal) 策略 ， 人 允许 系统 将 修改 过 的 块 写 到 磁盘 ， 即 使 做 这 些 修改 
的 事务 还 没有 全 部 提交 。 只 要 遵守 先 写 日 志 规则 ， 本 章 研 究 的 所 有 的 恢复 算法 都 能 正确 工作 ， 即 使 采 
用 窃取 策略 。 而 且 ， 非 窃取 策略 不 适合 于 执行 大 量 更 新 的 事务 ， 因 为 缓冲 区 可 能 被 已 更 新 过 但 不 能 逐 
出 到 磁盘 的 页 面 占 满 ， 进 而 使 得 事务 不 能 进展 下 去 。 其 结果 是 ， 大 多 数 系统 所 采用 的 标准 方法 是 窃取 
策略 。 

为 阐明 先 写 日 志 要 求 的 必要 性 ， 我们 考虑 银行 例子 中 的 事务 T AT, 。 假 设 日 志 的 状态 是 

< T, start > 
<T,, A, 1000, 950 > 

并 假设 事务 T, 发 指令 执行 read(B)。 假设 B 所 在 的 块 不 在 主 存 中 ， 并 且 主 存 已 满 。 假 设 选择 4 所 
在 的 块 输出 到 磁盘 上 。 如 果 将 该 块 输出 到 磁盘 上 后 系统 崩 演 ， 数 据 库 中 账户 A4、B 和 5C 的 值 分 别 就 是 
$950. $2000 和 和 00， 这 是 不 一 致 的 数据 库 状 态 。 但 是 ， 由 于 有 WAL 要 求 ， 因 此 日 志 记 录 

T, , A, 1000, 950 > 


必须 在 输出 4 所 在 块 之 前 输出 到 稳定 存储 器 中 。 系 统 可 以 在 恢复 时 使 用 该 日 志 记 录 将 数据 库 恢复 
到 一 致 状态 。 
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当 要 将 块 B, 输出 到 磁盘 时 ， 所 有 与 块 B, 中 的 数据 相关 的 日 志 记录 必须 在 块 B, 输出 之 前 先 输出 到 
稳定 存储 器 中 。 重 要 的 是 ， 在 块 B, 正在 输出 时 ， 不 能 有 往 块 B, 中 的 写 正 在 进行 ， 因 为 这 样 的 写 会 违 
反 先 写 日 志 规则 。 我 们 可 以 通过 使 用 特殊 的 封锁 方法 来 保证 没有 正在 进行 的 写 : 

© 在 事务 对 一 个 数据 项 执行 写 操作 之 前 ， 它 要 获得 数据 项 所 在 的 块 的 排他 锁 。 当 更 新 执行 完 后 立 

即 释放 该 锁 。 

o 当 一 个 块 要 输出 时 ， 采取 以 下 动作 序列 : 
获取 该 块 上 的 排他 锁 ， 以 确保 没有 任何 事务 正在 对 该 块 执行 写 操作 。 

D 将 日 志 记 录 输 出 到 稳定 存储 器 ， 直 至 与 块 B, 相关 的 所 有 日 志 记 录 都 输出 了 
将 块 B, 输出 到 磁盘 。 
一 旦 块 输出 完成 ， 就 释放 锁 。 

缓冲 块 上 的 锁 与 用 于 事务 并 发 控制 的 锁 无 关 ， 按 照 非 两 阶段 的 方式 释放 这 样 的 锁 对 于 事务 可 串 行 
性 没有 任何 影响 。 这 样 的 锁 以 及 其 他 类 似 的 短期 持 有 的 锁 ， 通 常 称 作 门 锁 (latch ) 。 

缓冲 块 上 的 锁 还 可 以 用 来 保证 在 检查 点 进行 的 过 程 中 缓冲 块 不 更 新 ， 而 且 没 有 新 的 日 志 记录 产生 。 
可 以 通过 要 求 在 检查 点 操作 开始 执行 之 前 必须 获得 在 所 有 的 缓冲 块 上 的 排他 锁 以 及 对 日 志 的 排他 锁 来 
实施 这 一 限制 。 一 旦 检查 点 操作 完成 就 可 以 释放 这 些 锁 。 

数据 库 系 统 通常 有 一 个 不 断 地 在 缓冲 块 间 循 环 ， 将 修改 过 的 缓冲 块 输出 到 磁盘 的 过 程 。 在 输出 缓 
冲 块 时 当然 必须 遵循 上 述 的 封锁 协议 。 作 为 不 断 地 输出 修改 过 的 缓冲 块 的 结果 ， 缓 冲 区 中 脏 块 ( 即 缓冲 
区 中 修改 过 ， 但 还 没有 输出 的 块 ) 的 数目 极 大 地 减 小 了 。 于 是 ， 在 检查 点 过 程 中 需要 输出 的 块 的 数目 减 
小 了 ; 而 且 ， 当 需要 从 缓冲 区 中 逐 出 一 个 块 时 ， 很 可 能 就 有 不 脏 的 块 可 以 被 逐 出 ， 使 得 输入 马上 可 以 
进行 ， 而 不 必 等 待 输出 的 完成 。 

16.5.3 操作 系统 在 缓冲 区 管理 中 的 作用 

我 们 可 以 用 下 面 两 种 方法 之 一 来 管理 数据 库 缓冲 区 : 

1. 数据 库 系统 保留 部 分 主 存 作为 缓冲 区 ， 并 对 它 进行 管理 ， 而 不 是 让 操作 系统 来 管理 。 数 据 库 系 
统 按照 16. 5. 2 节 讨 论 的 那些 要 求 管理 数据 块 的 传送 。 

这 种 方法 的 缺点 是 限制 了 主 存 使 用 的 灵活 性 。 缓 冲 区 必须 足够 小 ， 使 其 他 应 用 有 足够 的 主 存 满足 

要 。 但是， 即使 其 他 应 用 并 未 运行 ,数据库 系统 也 不 能 利用 所 有 可 用 内 存 。 同 样 地 ， 非 数据 库 应 用 
也 不 能 使 用 为 数据 库 缓 冲 区 保留 的 那 部 分 主 存 ， 即 使 数据 库 缓 冲 区 的 一 些 页 并 未 使 用 。 

2. 数据 库 系 统 在 操作 系统 提供 的 虚拟 内 存 中 实现 其 缓冲 区 。 因 为 操作 系统 知道 系统 中 的 所 有 进程 
的 内 存 需 求 ， 所 以 最 好 由 它 决定 哪个 缓冲 块 在 什么 时 候 必须 强制 输出 到 磁盘 中 。 但 是 ， 为 保证 16.5. 1 
节 讲 到 的 先 写 日 志 要 求 ， 不 应 由 操作 系统 自己 写 数据 库 缓冲 页 ， 而 应 由 数据 库 系统 强制 输出 缓冲 块 。 
数据 库 系 统 在 将 相关 日 志 记录 写 人 稳定 存储 器 后 ， 强 制 输 出 缓冲 块 至 数据 库 中 。 

遗憾 的 是 ， 几 乎 所 有 当前 的 操作 系统 都 完全 控制 虚拟 内 存 。 操 作 系 统 保 留 磁盘 空间 以 存储 当前 不 
在 主 存 的 那些 虚拟 内 存 页 ， 这 些 空间 称 为 交换 区 (swap space) 。 如 果 操 作 系统 决定 输出 一 个 块 Bv， 该 
块 就 输出 到 磁盘 交换 区 中 ， 并 且 没 有 办 法 让 数据 库 系统 控制 缓冲 块 的 输出 。 

因此 ， 如 果 数 据 库 缓冲 区 在 虚拟 内 存 中 ， 数 据 库 文件 和 虚拟 内 存 中 的 缓冲 区 之 间 的 数据 传送 必须 
由 数据 库 系 统管 理 ， 它 可 以 实现 前 面 提 到 的 先 写 日 志 的 要 求 。 

这 种 方法 可 能 导致 额外 的 数据 到 磁盘 的 输出 。 如 果 块 By 由 操作 系统 输出， 则 那个 块 不 是 输出 到 数 
据 库 中 ， 而 是 输出 到 为 操作 系统 的 虚拟 内 存 准 备 的 交换 区 中 。 当 数据 库 系统 需要 输出 Be, ERAT 
能 需要 先 从 它 的 交换 区 输入 B;。 因 此 ， 这 里 可 能 不 止 一 次 B, 输出 ， 而 可 能 需要 两 次 B 输出 (一 次 是 
由 操作 系统 进行 ， 一 次 是 由 数据 库 系统 进行 ) 和 一 次 B 输入 。 

尽管 两 种 方法 都 有 一 些 缺 点 ， 但 总 要 选择 其 一 ， 除 非 操作 系统 设计 成 支持 数据 库 日 志 的 要 求 。 
16.5.4 ”模糊 检查 点 

16. 3. 6 节 描 述 的 检查 点 技术 要 求 对 数据 库 的 所 有 更 新 在 检查 点 进行 过 程 中 暂缓 执行 。 若 缓冲 区 中 
页 的 数量 很 大 ， 则 完成 一 个 检查 点 的 时 间 会 很 长 ， 这 会 导致 事务 处 理 中 不 可 接受 的 中 断 。 
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为 避免 这 种 中 断 ， 可 以 修改 检查 点 技术 ,使 之 允许 在 checkpoint 记录 写 和 日志 后 ， 但 在 修改 过 的 
缓冲 块 写 到 磁盘 前 开始 做 更 新 。 这 样 产 生 的 检查 点 称 为 模糊 检查 点 ( fuzzy checkpoint) 。 

由 于 只 有 在 写 人 checkpoint 记录 之 后 页 面 才 输出 到 磁盘 ， 因 此 系统 有 可 能 在 所 有 页 面 写 完 之 前 出 
省 。 这 样 ， 磁 盘 上 的 检查 点 可 能 是 不 完全 的 。 一 种 处 理 不 完全 检查 点 的 方法 是 : 将 最 后 一 个 完全 检查 
点 记录 在 日 志 中 的 位 置 存在 磁盘 上 固定 的 位 置 last_checkpoint 上 。 系 统 在 写 入 checkpoint 记录 时 不 更 新 
该 信息 ， 而 是 在 写 checkpoint 记录 前 ,创建 所 有 修改 过 的 缓冲 块 的 列表 ， 只 有 在 该 列表 中 的 所 有 缓冲 
块 都 输出 到 磁盘 上 以 后 ，last_checkpoint 信息 才 会 更 新 。 

即使 使 用 模糊 检查 点 ， 正 在 输出 到 磁盘 的 缓冲 块 也 不 能 更 新 ， 虽然 其 他 缓冲 块 可 以 并 发 地 更 新 。 
必须 遵守 先 写 日 志 协 议 , 使 得 与 一 个 块 有 关 的 (undo) 日 志 记 录 在 该 块 输出 前 已 写 到 稳定 存储 器 中 。 


16.6 非 易 失 性 存储 器 数据 丢失 的 故障 


到 目前 为 止 , 我 们 只 考虑 了 一 种 情况 ， 就 是 故障 导致 了 易 失 性 存储 器 中 的 信息 丢失 ， 而 非 易 失 性 存 
储 器 中 的 内 容 完整 无 损 的 情况 。 尽 管 导 致 非 易 失 性 存储 器 中 内 容 丢 失 的 故障 极 少 ， 我 们 仍然 需要 准备 好 
对 这 种 类 型 的 故障 加 以 处 理 。 本 节 只 讨论 磁盘 存储 器 。 这 些 讨论 也 适用 于 其 他 类 型 的 非 易 失 性 存储 器 。 

基本 的 方法 是 周期 性 地 将 整个 数据 库 的 内 容 转 储 (dump ) 到 稳定 存储 器 中 ， 比 如 一 天 一 次 。 例 如 ， 
我 们 可 以 将 数据 库 转 储 到 一 盘 或 多 盘 磁带 。 如 果 发 生 了 一 个 导致 物理 数据 库 块 丢失 的 故障 ， 系 统 就 可 
以 用 最 近 的 一 次 转 储 将 数据 库 复 原 到 前 面 的 一 致 状态 。 一 旦 复原 完成 ， 系 统 再 利用 日 志 将 数据 库 系 统 
恢复 到 最 近 的 一 致 状态 。 

数据 库 转 储 的 一 种 方法 要 求 在 转 储 过 程 中 不 能 有 事务 处 于 活跃 状态 ， 并 且 必 须 执行 一 个 类 似 于 检 
查 点 的 过 程 : 

1. 将 当前 位 于 主 存 的 所 有 日 志 记 录 输 出 到 稳定 存储 器 中 。 

2. 将 所 有 缓冲 块 输出 到 磁盘 中 。 

3. 将 数据 库 的 内 容 拷贝 到 稳定 存储 器 中 。 

4. 将 日 志 记录 < dump > 输出 到 稳定 存储 器 中 。 

第 1、2 和 4 步 对 应 于 16. 3.6 节 中 检查 点 的 那 三 个 步 又 。 

为 从 非 易 失 性 存储 器 数据 丢失 中 恢复 ， 系 统 利用 最 近 一 次 转 储 将 数据 库 复原 到 磁盘 中 。 然 后 ， 根 
据 日 志 ， 重 做 最 近 一 次 转 储 后 所 做 的 所 有 动作 。 注 意 ， 这 里 不 必 执 行 任 何 undo 操作 。 

在 非 易 失 性 存储 器 部 分 故障 的 情况 ， 例 如 单个 块 或 少数 块 故障 ， 只 需要 对 那些 块 进行 复原 ， 并 只 
对 那些 块 进行 重 做 。 

数据 库 内 容 的 转 储 也 称 为 归档 转 储 (archival dump) ， 因 为 我 们 可 以 将 转 储 归档 ， 以 后 可 以 用 它们 
来 查看 数据 库 的 旧 状 态 。 数 据 库 转 储 和 缓冲 区 的 检查 点 机 制 很 类 似 。 

大 多 数 的 数据 库 系统 还 支持 SQL 转 储 (SQL dump), ÈH SQL DDL 语句 和 SQL insert 语句 写 到 文件 
中 ， 这 些 语 句 可 以 重 执行 ， 以 重新 创建 数据 库 。 当 将 数据 移植 到 数据 库 的 另 一 个 实例 中 或 数据 库 软件 
的 另 一 个 版 本 中 时 ， 这 样 的 转 储 非常 有 用 ， 因 为 在 另外 的 数据 库 实 例 或 数据 库 软 件 版 本 中 ， 物 理 位 置 
或 布局 可 能 是 不 同 的 。 

这 里 描述 的 简单 转 储 过 程 开销 较 大 ， 原 因 有 以 下 两 个 。 首 先 ， 整 个 数据 库 都 必须 拷贝 到 稳定 存储 
器 中 ， 这 导致 大 量 的 数据 传送 。 其 次 ， 由 于 在 转 储 过 程 中 要 中 止 事 务 处 理 ， 这 样 就 浪费 了 CPU 周期 。 
模糊 转 储 ( fuzzy dump) 机制 对 此 作 了 改进 ， 它 允许 转 储 过 程 中 事务 仍 是 活跃 的。 这 类 似 于 模糊 检查 点 机 
制 ; 详细 描述 可 参见 文献 注解 。 


16.7 锁 的 提前 释放 和 逻辑 undo 操作 


在 事务 处 理 中 使 用 到 的 任何 索引 ， 例 如 B 树 ， 都 可 以 当 作 一 般 的 数据 来 对 待 ， 但 是 为 了 提高 并 发 
度 ， 我 们 可 以 采用 15. 10 节 描 述 的 BO 树 并 发 控制 算法 ， 人 允许 按 非 两 阶段 的 方式 提前 释放 锁 。 作 为 提前 
释放 锁 的 结果 ， 有 可 能 一 个 B 树 结 点 的 值 被 一 个 事务 7 更 新 过 ,插入 项 (V，R, ) ， 然 后 又 被 另 一 个 
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BST, 更新， 在 同一 个 结 点 中 插入 项 (V,, R), HEET, 完成 执行 之 前 就 移动 项 (VY, R,)。“ 在 这 一 
点 上 ， 我 们 不 能 通过 用 T, 执行 插入 前 的 旧 值 代替 结 点 的 内 容 来 撤销 事务 7, ， 因 为 这 也 会 撤销 事务 7 
所 执行 的 插入 ; 事务 T, 可 能 仍然 会 提交 (或 者 可 能 已 经 提交 了 )。 在 这 个 例子 中 ， 对 插入 (VY, Ri ) 的 影 
响 进 行 撤销 的 唯一 办 法 是 执行 一 个 对 应 的 删除 操作 。 

本 节 其 余部 分 讨论 如 何 扩充 16. 4 节 讲 的 恢复 算法 ， 来 支持 锁 的 提前 释放 。 
16. 7. 1 逻辑 操作 

插入 和 删除 操作 是 一 类 操作 的 例子 ， 它 们 需要 逻辑 undo 操作 ， 因 为 它们 提前 释放 锁 ; 我 们 把 这 样 
的 操作 称 作 逻辑 操作 (1logical operation) 。 这 类 提前 的 锁 释 放 不 仅 对 索引 很 重要 ， 而 且 对 于 其 他 频繁 存 取 
和 更 新 的 系统 数据 结构 上 的 操作 也 很 重要 ; 这 样 的 例子 包括 追踪 包含 一 个 关系 中 诸 记 录 的 块 、 一 个 块 
中 的 空闲 空间 、 一 个 数据 库 中 的 空闲 块 的 数据 结构 。 如 果 在 这 样 的 数据 结构 上 执行 操作 后 不 提前 释放 
Bi, 事务 就 趋向 于 是 顺序 执行 的 ， 影 响 系 统 性 能 。 

冲突 可 串 行 化 理论 向 操作 做 了 扩展 ， 基 于 什么 操作 与 什么 其 他 操作 有 冲突 。 例 如 ， 如 果 B 树 的 两 
个 插入 操作 插入 不 同 的 键 值 ， 则 它们 互相 不 冲突 ， 即 使 它们 都 更 新 相同 的 索引 页 中 互相 重症 的 区 域 。 
但 是 ， 如 果 使 用 相同 的 键 值 ， 则 插入 和 删除 操作 与 其 他 的 插入 和 删除 操作 冲突 ， 也 与 读 操 作 冲 突 。 关 
于 这 一 话题 ， 请 阅读 文献 注解 以 获取 更 多 的 信息 。 

操作 在 执行 时 需要 获得 低级 别 的 锁 ， 操 作 完成 就 释放 锁 ; 然而 相应 的 事务 必须 按 两 阶段 方式 保持 
高 级 别 的 锁 ， 以 防止 并 发 事务 执行 冲突 动作 。 例 如 ， 当 在 一 个 B 树 页 面 上 执行 插入 操作 时 ， 就 获得 在 
该 页 面 上 的 一 个 短 时 间 的 锁 ， 从 而 允许 该 页 中 的 项 在 插入 过 程 中 在 页 内 移动 ; 一 旦 页 面 更 新 完成 ， 就 
释放 这 个 短 时 间 的 锁 。 这 样 的 提前 释放 锁 使 得 第 二 次 插入 可 以 在 同一 页 面 上 执行 。 但 是 ， 每 个 事务 必 
须 获 得 在 插入 或 删除 的 键 值 上 的 锁 ， 并 按 两 阶段 方式 持 有 锁 ， 以 防止 并 发 的 事务 在 相同 的 键 值 上 执行 
冲突 的 读 、 插 和 人、 或 删除 操作 。 

一 旦 释放 了 低级 别 的 锁 ， 就 不 能 用 更 新 的 数据 项 的 旧 值 来 对 操作 进行 撤销 ， 而 必须 通过 执行 一 个 
补偿 操作 来 撤销 ; 这 样 的 操作 称 作 逻辑 undo 操作 (logical undo operation) 。 重 要 的 是 ， 在 操作 中 获得 的 
低级 别 的 锁 要 足以 执行 后 来 对 操作 的 逻辑 undo ， 理 由 在 16.7.4 节 中 讲 。 

16.7.2 逻辑 undo 日 志 记 录 

要 允许 操作 的 逻辑 undo， 在 执行 修改 索引 的 操作 之 前 ， 事务 创建 一 个 <7,,0,, operation-begin > H 
志 记 录 ， 其 中 0, 是 该 操作 实例 的 唯一 标识 。” 当 系 统 执行 这 个 操作 时 ， 它 为 这 个 操作 所 做 的 所 有 更 新 
按 正常 方式 创建 更 新 日 志 记 录 。 于 是 ， 对 于 该 操作 所 做 的 所 有 更 新 ， 通 常 的 旧 值 和 新 值 信息 照常 写 出 ; 
在 该 操作 完成 之 前 事务 需要 回 深 的 情况 下 ,需要 旧 值 信息 。 当 操作 结束 时 ， 它 写 一 个 形 如 < 7,, 0,， 
operation-end, U > 的 operation-end 日 志 记 录 ， 其 中 U 表示 undo 信息 。 

例如 ， 如 果 操 作 往 B' 树 中 插入 一 个 项 ， 则 undo 信息 U 会 指出 要 执行 删除 操作 ， 并 指明 是 哪 一 棵 
B' 树 ， 以 及 从 树 中 删除 哪个 项 。 记 关于 操作 的 这 类 信息 的 日 志 称 作 逻辑 日 志 ( logical logging) 。 与 此 相 
反 ， 记 关于 旧 值 和 新 值 信息 的 日 志 称 作物 理 日 志 ( physical logging) ， 对 应 的 日 志 记 录 称 作物 理 日 志 记录 
( physical logging record ) 。 

请 注意 ， 在 上 述 机 制 中 ， 逻 辑 日 志 仅 用 于 撤销 ， 不 用 于 重 做 ;redo 操作 全 部 使 用 物理 日 志 记 录 来 

执行 。 这 是 因为 系统 故障 之 后 数据 库 状 态 可 能 反映 一 个 操作 的 某 些 更 新 ， 而 不 反映 其 他 操作 的 更 新 ， 
这 依赖 于 在 故障 之 前 哪些 缓冲 块 已 写 到 磁盘 。 像 B 树 这 样 的 数据 结构 会 处 于 不 一 致 的 状态 ， 逻 辑 redo 
AE undo 操作 都 不 能 在 不 一 致 状态 的 数据 结构 上 执行 。 要 执行 逻辑 redo 或 undo， 磁 盘 上 的 数据 库 状 
态 必须 是 操作 一 致 (operation consistent) 的 ， 即 不 应 该 有 任何 操作 的 部 分 影响 。 然 而 ， 正 如 我 们 将 要 看 
到 的 ， 在 逻辑 undo 操作 执行 之 前 ， 恢 复 机 制 的 重 做 阶段 的 物理 redo 处 理 以 及 使 用 物理 日 志 记录 的 undo 





CO 请 回忆 ， 一 个 项 包括 一 个 键 值 和 一 个 记录 标识 ,或 者 在 B* 树 文件 结构 树叶 层次 的 情况 下 包括 一 个 键 值 和 一 个 
记录 。 
©  operation-begin 日 志 记录 在 日 志 中 的 位 置 可 以 用 作 唯 一 标识 。 
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处 理 确 保 被 一 个 逻辑 undo 操作 存 取 的 数据 库 中 的 部 分 处 于 一 个 操作 一 致 的 状态 。 

如 果 一 个 操作 在 一 行 上 执行 多 次 与 执行 一 次 结果 相同 ， 则 称 该 操作 是 井 等 的 (idempoent) , 4E B* ff 
中 插入 一 个 项 这 样 的 操作 可 能 不 是 寺 等 的 ， 因 此 恢复 算法 必须 保证 已 经 执行 过 的 操作 不 会 再 执行 。 与 此 
相反 ， 物 理 日 志 记 录 是 震 等 的 ， 因 为 无 论 所 记录 的 更 新 执行 一 次 或 多 次 ， 对 应 的 数据 项 都 会 是 同样 的 值 。 
16.7.3 有 逻辑 undo 的 事务 回 滚 

当 回 滚 事务 7 时 ， 从 后 往 前 扫描 日 志 ， 对 事务 7 的 日 志 记录 做 如 下 处 理 : 

1. 在 扫描 中 遇 到 的 物理 日 志 记 录像 以 前 描述 的 那样 处 理 ， 除 了 下 面 马上 要 简短 描述 的 需 跳 过 的 那 
些 记录 。 使 用 由 操作 产生 的 物理 日 志 记录 对 不 完全 的 逻辑 操作 进行 撤销 。 

2. 由 operation-end 标记 的 已 完成 的 逻辑 操作 的 回 滚 与 此 不 同 。 一 旦 系统 发 现 一 个 < 了 工 ， 0,， 
operation-end, U > 日志 记录 ， 就 做 以 下 特殊 动作 : 

a. 它 通 过 使 用 日 志 记 录 中 的 undo 信息 U 来 回 深 该 操作 。 在 对 操作 的 回 滚 中 ， 它 将 所 执行 的 更 新 
记 和 日志 ， 就 像 操作 首次 执行 时 进行 的 更 新 一 样 。 

在 操作 回 滚 的 最 后 ， 数 据 库 系统 不 产生 <T,, O,, operation-end, U> 日 志 记录 ， 而 是 产生 <T,, 0,， 
operation-abort > 日 志 记 录 。 

b. 随 着 对 日 志 的 反 向 扫描 的 继续 进行 ， 系统 跳 过 事务 T 的 所 有 日 志 记 录 ， 直 至 过 到 < 
operation-begin > 日 志 记 录 。 

请 注意 ， 系 统 在 回 滚 中 将 所 执行 的 更 新 的 物理 und 信息 记 和 人 日志， 而 不 是 使 用 一 个 只 读 的 补偿 

志 记 录 。 这 是 因为 在 逻辑 undo 进行 的 过 程 中 可 能 发 生 系 统 骨 溃 ， 当 恢复 时 系统 必须 完成 还 辑 [746 | 
要 做 到 这 一 点 ， 重 启 恢复 将 使 用 物理 undo 信息 撤销 早先 的 undo 的 部 分 影响 ， 然 后 再 重新 执行 
逻辑 undo, 

还 请 注意 ， 在 回 滚 中 当 遇 到 operation-end 日 志 记 录 时 跳 过 物理 日 志 记 录 能 保证 ,一旦 操作 完成 ， 
物理 日 志 记录 中 的 旧 值 就 不 会 用 来 进行 回 滚 

3. 如 果 系 统 遇 到 一 个 <7,, 0; jobat EAN 日 志 记 录 ， 它 就 跳 过 前 面 所 有 的 记录 (包括 0, 的 
operation-end 记录 ) ， 直 至 它 找到 <T,, O,, operation-begin > 日 志 记 录 。 

仅 在 要 回 深 的 事务 事先 已 经 部 分 回 滚 的 情况 下 才 会 遇 到 operation-abort 日 志 记 录 。 回 忆 一 下 ， 逮 
辑 操作 可 能 不 是 宕 等 的 ， 因 此 逻辑 undo 操作 不 能 多 次 执行 。 在 前 面 的 回 滚 过 程 中 发 生前 溃 ， 事 务 已 经 
部 分 回 滚 的 情况 下 ， 前 面 的 旦 志 记 录 必 须 跳 过 ， 以 防止 同一 操作 的 多 次 回 滚 。 

4. 与 前 面 一 样 ， 当 遇 到 < T, stat > 日 志 记 录 时 ， 事 务 回 滚 就 完成 了 ， 系 统 往日 志 中 添加 一 个 
<T,, abort > 日 志 记录 。 

如 果 在 一 一 个 逻辑 操作 进行 的 过 程 中 发 生 故 障 ， 则 当 事 务 回 滚 时 不 会 找到 该 操作 的 operation-end 日 
志 记 录 。 但 是 ， 对 于 该 操作 所 执行 的 每 一 个 更 新 ， 在 日 志 中 都 有 其 undo 信息 ， 是 以 物理 日 志 记 录 中 的 
旧 值 的 形式 出 现 的 。 物 理 日 志 记 录 将 用 来 回 滚 未 完成 的 操作 。 

现在 假设 当 系 统 崩 演 发 生 时 一 个 undo 操作 正在 进行 中 ， 如 果 崩 演 发 生 时 一 个 事务 正在 回 深 ， 就 可 
能 发 生 这 样 的 事情 。 于 是 就 会 发 现在 undo 操作 中 所 写 的 物理 日 志 记 录 ， 使 用 这 些 物 理 日 志 记录 就 能 撤 
销 此 部 分 的 undo 操作 自身 。 继 续 进 行 日 志 的 反 向 扫描 ， 会 遇 到 原来 操作 的 operation-end 日 志 记 录 ， 于 
是 会 再 次 执行 undo 操作 。 使 用 物理 日 志 记录 回 滚 早 先 的 undo 操作 的 部 分 影响 使 数据 库 进 入 一 个 一 致 
状态 ， 从 而 使 得 逻辑 undo 操作 可 以 再 次 执行 。 

图 16-6 显示 了 由 两 个 事务 产生 的 日 志 的 例子 ， 这 些 事务 对 一 个 数据 项 的 值 进行 增加 或 减少 。 事 务 
To 在 操作 O, 完成 后 对 数据 项 C 上 锁 的 提前 释放 使 得 事务 7, 能 够 用 0, 更 新 该 数据 项 ， 甚 至 不 用 等 到 事 
FT 完成 ,但 这 就 使 逻辑 undo 成 为 必要 。 逮 辑 undo 需要 对 数据 项 增加 或 减少 一 个 值 ， 而 不 是 恢复 数 
据 项 的 旧 值 。 

图 16-6 中 的 注释 说 明 ， 在 操作 完成 之 前 ， 回 滚 可 以 执行 物理 undo; 在 操作 完成 并 释放 低级 别 锁 之 
后 ， 回 滚 必 须 通过 减少 或 增加 一 个 值 来 执行 ， 而 不 是 恢复 旧 值 。 在 图 16-6 中 的 例子 中 ，7 通过 往 C 中 
增加 100 来 回 滚 操作 O,; 与 此 相反 ， 对 于 数据 项 B( 它 没有 涉及 锁 的 提前 释放 )， 进 行 了 物理 的 undo。 
HEE, T 对 C 执行 了 一 个 更 新 并 提交 了 ， 它 的 更 新 0, 在 0; 的 撤销 之 前 执行 ， 往 C 中 增加 了 200, 


O, ’ 
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这 个 更 新 保持 下 来 ， 尽 管 0, 撤销 了 。 











如 果 事 务 T, 在 操作 O， 
完成 之 前 中 止 , 则 对 C 的 
更 新 的 undo 将 是 物理 的 











日 志 开始 
<T, start> 
<T B, 2000, 2050> 
<T,, O,, operation-begin> 
<T,, C, 700, 600> 
<T, O;, operation-end, (C, +100)> 
<T, start> 


MST 完成 了 对 C 的 操作 O， 
释放 了 低级 别 的 锁 ; 再 也 不 能 
做 物理 undo 了 , 逻辑 undo 将 往 
C 中 加 100 


















了 可 以 更 新 C, 因为 7 已 经 





<T,, Oz, operation-begin> 释放 了 在 C 上 低级 别 的 锁 
THE <T,, C, 600, 400> 
中 止 <T,, Os, operation-end, (C, +200)> 一 。 了 释放 在 C 上 低级 别 的 锁 











<T, , C, 400, 500> __ | “0 的 逻辑 undo 往 C 中 加 100 | 
<T,, O,, operation-abort> 


<T,, B, 2000> 0 的 undo 完 成 | 


<To abort> 
<T,, commit> 


图 16-6 ”有 逻辑 undo 操作 的 事务 回 滚 


图 16-7 显示 了 一 个 使 用 逻辑 undo 日 志 从 系统 崩溃 中 恢复 的 例子 。 在 这 个 例子 中 ， 在 检查 点 时 ， 
事务 T, 是 活路 的， 正在 执行 操作 0,。 在 重 做 阶段 ，0, 在 检查 点 日 志 记 录 之 后 的 动作 重 做 。 当 系统 崩溃 
Nt, T, 正在 执行 操作 0; ， 但 是 操作 是 不 完全 的 。 在 重 做 阶段 结束 时 ，undo-list 包含 7 A T, 在 撤销 阶 
段 ， 使 用 物理 日 志 记 录 中 的 旧 值 对 操作 O, 进行 撤销 ,将 C 置 成 400; 使 用 redo-only 日 志 记录 将 这 一 操作 
记 到 日 志 中 。 然 后 遇 到 7, 的 start 记录 ， 导 致 将 <7,, abort > 记 到 日 志 中 ， 并 将 T, 从 undo-list 中 去 掉 。 














日 志 开 始 为 undo list 中 
<T, start> 所 有 事务 找到 
<T», B, 2000, 2050> star 昌 志 记录 
<T, commit> 
<T start> 


<T,, B, 2050, 2100> 

<T,, O,, operation-begin> 

<checkpoint {T}> redo 阶段 
<T, C, 700, 400> 

<T,, O,, operation-end, (C, +300)> 

<T; start> 

崩溃 时 <T,, Os, operation-begin> 


<T,, C, 400, 300> 
结束 点 PS undo list: T T; undo 阶段 


<T, C, 400> 对 C 的 更 新 是 操作 0 的 一 部 分 ， 
<T; abort> 由 于 0, 没 有 完成 , 在 恢复 时 要 物理 | 


恢复 过 程 <T,, C, 400, 700> (tundo 

中 加 入 的 <T, O4 operation-abort> 

Sii als B, 2050= 0 的 逻辑 undo 往 C 中 加 300 
<T abort> 4 ieee 


¥ 
图 16-7 #24 undo 操作 的 故障 恢复 动作 


扫描 中 遇 到 的 下 一 个 日 志 记 录 是 0, 的 operation-end 记录 ; 通过 给 C 的 值 增加 300 来 执行 这 个 操作 
的 逻辑 undo，( 这 件 事 是 物理 地 记 了 日 志 的 ) ， 然 后 增加 一 个 0, 的 operation- abort 日 志 记录 。 跳 过 作为 
O, 的 一 部 分 的 物理 日 志 记 录 ， 直 至 遇 到 O, 的 operation-begin 日 志 记 录 。 在 这 个 例子 中 ， ee 
的 其 他 日 志 记 录 ， 但 一 般 说 来 ， 在 我 们 到 达 operation- begin 日 志 记 录 之 前 可 能 遇 到 其 他 事务 的 日 志 
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录 ; 当然 这 样 的 日 志 记录 不 应 该 跳 过 (除非 它们 是 相应 事务 已 完成 操作 的 一 部 分 ， 并 且 算 法 跳 过 这 些 记 
K)o BP) O, 的 operation- begin 日 志 记录 之 后 ， 又 遇 到 T, 的 一 个 物理 日 志 记 录 ， 对 它 物 理 地 回 滚 。 
最 后 遇 到 7, 的 start 日 志 记 录 ; 这 导致 往日 志 中 添加 一 个 <7,,abort > 日 志 记 录 ， 并 且 T, 被 从 undo- 
list 中 删 掉 。 这 时 候 undo-list 为 空 ， 撤 销 阶段 完成 了 。 
16.7.4 逻辑 undo 中 的 并 发 问题 

正如 前 面 已 经 提 到 过 的 ， 操 作 中 获取 的 低级 别 的 锁 要 足以 支持 后 来 对 该 操作 的 逻辑 undo 的 执行 ， 
这 一 点 很 重要 ; 否则 在 正常 处 理 中 的 并 发 操作 可 能 导致 撤销 阶段 中 的 问题 。 例 如 ， 假 设 事务 T, 的 操作 
O, 的 逻辑 undo 与 并 发 执行 的 事务 T, 的 操作 O, 会 在 数据 项 层次 上 冲突 ，0, 没完 成 时 O, 完成 了 。 还 假 
设 系统 崩溃 时 两 个 事务 都 没 提交 。0, 的 物理 更 新 日 志 记 录 可 能 出 现在 0, 的 operation-end 记录 之 前 或 
之 后 ， 在 恢复 过 程 中 0, 的 逻辑 undo 中 所 做 的 更 新 可 能 会 完全 地 或 部 分 地 被 0, 的 物理 undo 中 写 的 旧 
值 所 覆盖 。 如 果 O, 已 获得 了 O, 逻辑 undo 所 需 的 所 有 低级 别 锁 ， 上 述 问 题 就 不 会 发 生 ， 因 为 这 样 的 
话 ， 就 不 会 有 此 类 并 发 执行 的 0, To 

如 果 原 来 的 操作 和 它 的 逻辑 undo 操作 都 访问 同一 个 页 面 (这 样 的 操作 称 作 物理 逻辑 操作 ， 在 16. 8 
节 讨 论 ) ， 则 上 述 封锁 要 求 容 易 满 足 。 否 则 ， 在 决定 需要 获得 什么 样 的 低级 别 锁 时 ， 要 考虑 具体 操作 的 
细节 。 例 如 ，B ` 树 上 的 更 新 操作 可 以 获得 一 个 在 根 结 点 上 的 短 时 间 锁 ， 以 确保 操作 的 串 行 执行 。 关 于 
采用 逻辑 undo 日 志 的 B 树 并 发 控制 和 恢复 ， 请 参看 文献 注解 。 在 文献 注解 中 还 可 以 看 到 一 个 另外 的 
方法 ， 称 作 多 级 恢复 ， 该 方法 放松 对 锁 的 要 求 。 


16.8 ARIES 


ARIES 恢复 方法 是 恢复 方法 的 技术 发 展 水 平 的 最 佳 例 子 。16. 4 节 讨 论 的 恢复 技术 和 16. 7 节 描 述 的 
逻辑 undo 日 志 技术 是 模仿 ARIES 设计 的 , 但 为 了 突出 关键 概念 和 便于 理解 ， 它 已 大 大 简化 。 不 同 的 
Æ, ARIES 使 用 了 一 些 减 少 恢复 时 间 ， 以 及 减少 检查 点 开销 的 技术 。 特 别 地 ，ARIES 能 够 避免 重 做 许 
多 已 重 做 过 的 日 志 中 记录 的 操作 ， 并 减少 日 志 信 息 量 。 其 代价 是 大 大 增加 了 复杂 度 ， 但 物 有 所 值 。 

与 我 们 先前 给 出 的 恢复 算法 的 主要 区 别 是 ，ARIES: 

1. 使 用 一 个 日 志 顺 序号 (Log Sequence Number, LSN ) 来 标识 日 志 记 录 ， 并 将 LSN 存储 在 数据 库 页 
中 ， 来 标识 哪些 操作 已 经 在 一 个 数据 库 页 上 实施 过 了 。 

2. 支持 物理 逻辑 redo( physiological redo) 操作 ， 它 是 物理 的 ， 因 为 受 影响 的 页 从 物理 上 标识 出 来 ， 
但 在 页 内 它 可 能 是 逻辑 的 。 

例如 ， 如 果 采 用 分 槽 的 页 结构 ( 见 10. 5.2 节 ) ， 从 页 中 删除 一 条 记录 会 导致 该 页 中 的 许多 记录 被 调 
整 。 采 用 物理 redo 日 志 ， 必 须 为 该 页 中 受 调整 影响 的 每 个 字 节 记录 日 志 ， 而 采用 物理 逻辑 日 志 ， 可 以 
记录 下 删除 操作 ， 其 结果 是 日 志 记 录 会 小 得 多 。 重 做 该 删除 操作 将 删除 那 条 记录 并 根据 需要 调整 其 他 
记录 。 

3. 使 用 脏 页 表 ( dirty page table ) 来 最 大 限度 地 减少 恢复 时 不 必要 的 重 做 。 正 如 前 面 所 说 过 的 ， 脏 页 
是 那些 在 内 存 中 已 更 新 ， 而 磁盘 上 的 版 本 还 未 更 新 的 页 

4. 使 用 模糊 检查 点 机 制 ， 只 记录 脏 页 信息 和 相关 的 信息 ， 甚 至 不 要 求 将 脏 页 写 到 磁盘 。 它 不 是 在 
检查 点 时 将 脏 页 写 人 磁盘 ， 而 是 连续 地 在 后 台 刷 新 脏 页 面 。 

本 节 剩 下 部 分 将 给 出 ARIES 概览 ，ARIES 的 完全 描述 请 参见 文献 注解 。 

16.8.1 数据 结构 

ARIES 中 每 个 日 志 记 录 都 有 一 个 唯一 标识 该 记录 的 日 志 顺 序号 (LSN)， 该 标号 概念 上 只 是 一 个 侦 
辑 标识 ， 日 志 中 记录 产生 得 越 晚 ， 其 标号 数字 越 大 。 实 际 上 ，LSN 是 以 一 种 可 以 用 来 定位 磁盘 上 的 日 
志 记 录 的 方式 产生 的 。 典 型 地 ，ARIES 将 一 个 日 志 分 为 多 个 日 志文 件 ， 其 中 每 个 文件 有 一 个 文件 号 。 
当 一 个 日 志文 件 增长 到 某 个 限度 ，ARIES 将 后 面 的 日 志 记录 添加 到 一 个 新 的 日 志文 件 中 ; 该 新 日 志文 
件 的 文件 号 比 前 个 记录 一 文件 的 大 1。 这 样 LSN 由 一 个 文件 号 以 及 在 该 文件 中 的 偏 移 量 组 成 。 

每 一 页 也 维护 一 个 叫 页 日 志 顺 序号 (PageLSN ) 的 标识 ， 每 当 一 个 更 新 操作 (无 论 物理 的 还 是 物理 逻 
辑 的 ) 发 生 在 某 页 上 时 ， 该 操作 将 其 日 志 记 录 的 LSN 存储 在 该 页 的 PageLSN 域 中 。 在 恢复 的 撤销 阶段 ， 





749 | 


[750 | 
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LSN 值 小 于 或 等 于 该 页 的 PageLSN 值 的 日 志 记录 将 不 在 该 页 上 执行 ， 因 为 它 的 动作 已 经 反映 在 该 页 上 
了 。 稍 后 我 们 会 讲 到 ， 通 过 结合 将 记录 PageLSN 作为 检查 点 过 程 的 一 部 分 的 机 制 ，ARIES 甚至 能 够 避 
免 读 其 日 志 记 录 的 操作 已 经 在 磁盘 上 反映 的 许多 页 。 这 样 ， 恢 复 时 间 大 量 减 少 了 。 

要 在 物理 逻辑 redo 操作 时 保证 填 等 性 ，PageLSN 是 必 不 可 少 的， 因为 对 一 已 实施 物理 逻辑 redo 操 
作 的 页 重新 实施 会 造成 对 页 的 错误 更 改 。 

在 更 新 正在 执行 时 ， 页 不 应 往 磁盘 上 写 ， 因 为 在 磁盘 上 页 的 部 分 更 新 状态 下 ， 物 理 逻 辑 操作 不 能 
重 做 。 因 此 ，ARIES 在 缓冲 页 上 加 站 锁 以 阻止 它们 在 正 更 新 时 被 写 往 磁盘 。 只 有 在 更 新 完成 ， 以 及 更 
新 的 日 志 记录 已 写 人 日 志 之 后 ， 才 释放 该 缓冲 页 门 锁 。 

每 个 日 志 记 录 也 包含 同一 事务 的 前 一 日 志 记录 的 LSN， 该 值 存放 在 PrevLSN 字段 中 ， 它 使 得 一 个 
事务 的 日 志 记 录 能 够 由 后 往 前 提取 ， 而 不 必 读 整个 日 志 。 在 事务 回 滚 过程 中 会 产生 一 些 特殊 的 redo- 
only 日 志 记 录 ， 在 ARIES 中 称 为 补偿 日 志 记录 (Compensation Log Record，CLR) ， 它 和 我 们 前 面 讲 的 恢 
复 机 制 中 的 redo-only 日 志 记录 的 作用 相同 。 而 且 CLR 还 起 到 该 机 制 中 operation-abort 日 志 记 录 的 作用 。 
CLR 有 一 个 额外 的 字段 ， 叫 做 UndoNextLSN ， 记 录 当 事务 被 回 滚 时 ， 日 志 中 下 一 个 需要 undo 的 日 志 的 
LSN。 该 字段 和 我 们 早先 讲 的 恢复 机 制 中 的 operation- abort 日 志 记 录 中 的 操作 标识 作用 相同 ， 它 有 助 于 
跳 过 那些 已 经 回 滚 的 日 志 记 录 。 

脏 页 表 ( DirtyPageTable) 包含 一 个 在 数据 库 缓 冲 区 中 已 更 新 的 页 的 列表 ， 它 为 每 一 页 保存 其 
PageLSN 和 一 个 称 为 RecLSN 的 字段 ， 其 中 RecLSN 用 于 标识 已 经 实施 于 该 页 的 磁盘 上 的 版 本 的 日 志 记 
录 。 当 一 页 插入 到 脏 页 表 ( 当 它 首 次 在 缓冲 池 中 修改 ) 时 ，RecLSN 的 值 被 设置 成 日 志 的 当前 末尾 。 只 
要 页 被 写 人 磁盘 ， 就 从 脏 页 表 中 移 除 该 页 。 

检查 点 日 志 记录 (checkpoint log record) 包 含 脏 页 表 和 活动 事务 的 列表 。 检 查 点 日 志 记录 也 为 每 个 事 
务 记录 其 LastLSN， 即 该 事务 所 写 的 最 后 一 个 日 志 记录 的 LSN。 磁 盘 上 一 个 固定 的 位 置 记录 最 后 一 个 
(完整 的 ) 检 查 点 日 志 记录 的 LSN。 

16-8 描述 了 ARTES 中 使 用 的 一 些 数据 结构 。 图 16-8 中 显示 的 日 志 记录 前 面 加 上 了 其 LSN 作为 
前 级 ; 在 实际 实现 中 ， 这 可 能 并 不 显 式 地 存储 ， 而 是 通过 在 日 志 中 的 位 置 就 能 推断 出 来 。 日 志 记 录 中 
的 数据 项 标识 分 两 部 分 显示 ， 例 如 4894. 1; 第 一 部 分 标明 页 码 ， 第 二 部 分 标明 页 中 的 一 条 记录 (假定 
采用 分 槽 的 页 结构 ) 。 请 注意 对 日 志 的 显示 是 最 新 的 记录 在 顶部， 磁盘 上 较 老 的 日 志 记录 在 图 16-8 中 
较 低 的 位 置 显示 。 












































PagelD| PageLSN |RecLSN 
7567 2345 4894 | 7567 | 7564 
| 7200 7565 7565 
48947 992377 脏 页 表 
| 7565] 
7567: <Ti4s,4894.1, 40, 60> | 
72001 7566: <T,ss commit> | 
数据 库 缓冲 区 日 志 缓冲 区 (没有 显示 PrevLSN 和 
UndoNextLSN 字 段 ) 
稳定 的 数据 稳定 的 日 志 


7565: <Tisa,7200.2, 60, 80> 


7564: <T1ss,4894.1, 20, 40> 
7563: <T'ss begin> 


Page 4894 Page 7200 





Page 9923 





图 16-8 ARIES 中 使 用 的 数据 结构 
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每 个 页 面 (无 论 在 缓冲 区 中 还 是 在 磁盘 中 ) 有 一 个 PageLSN 字段 。 你 可 以 验证 ， 最 后 一 个 日 志 记 录 
是 对 页 面 4894 进行 更 新 ， 它 的 LSN 是 7567。 通 过 将 缓冲 区 中 页 面 的 PageLSN 与 稳定 存储 器 中 对 应 页 面 
的 PageLSN 进行 比较 ,你 可 以 看 到 脏 页 表 包 含 了 关于 缓冲 区 中 自从 从 稳定 存储 器 中 取 来 后 已 修改 过 的 
所 有 页 面 的 条 目 。 脏 页 表 中 的 RecLSN 条 目 反 映 当 页 面 被 加 到 脏 页 表 中 时 日 志 末端 的 LSN， 它 应 该 大 于 
或 等 于 稳定 存储 器 中 该 页 的 PageLSN。 

16.8.2 恢复 算法 
ARIES 从 系统 崩溃 中 恢复 的 过 程 经 历 三 个 阶段 。 
© 分 析 阶 段 (analysis pass) : 这 一 阶段 决定 哪些 事务 要 撤销 ， 哪 些 页 在 崩溃 时 是 脏 的 ， 以 及 重 做 阶 
段 应 从 哪个 LSN 开始 。 

e redo 阶段 (redo pass): 这 一 阶段 从 分 析 阶 段 决定 的 位 置 开 始 ， 执 行 重 做 ， 重复 历史 ,将 数据 库 

et 

e undo 阶段 (undo pass): 这 一 阶段 回 滚 在 发 生 遂 溃 时 那些 不 完全 的 事务 。 

16. 8.2.1 分 析 阶 段 

分 析 阶 段 找到 最 后 的 完整 检查 点 日 志 记录 ， 并 从 该 记录 读 和 人 脏 页 表 。 它 然后 将 RedoLSN 设置 为 脏 
页 表 中 页 的 RecLSN 的 最 小 值 ， 如 果 没 有 脏 页 ， 它 就 将 RedoLSN 设置 为 检查 点 日 志 记 录 的 LSN。 重 做 
阶段 从 RedoLSN 开始 扫描 日 志 ， 该 点 之 前 的 日 志 记录 已 经 反映 到 磁盘 上 的 数据 库 页 中 ,分 析 阶 段 将 要 
撤销 的 事务 列表 undo-list 初始 设置 为 检查 点 日 志 记 录 中 的 事务 列表 ， 分 析 阶 段 也 为 undo-list 中 的 每 一 
个 事务 从 检查 点 日 志 记 录 中 读 取 其 最 后 一 个 日 志 记 录 的 LSN。 

分 析 阶 段 从 检查 点 继续 正 向 扫描 ， 只 要 找到 一 个 不 在 undo-list 中 的 事务 的 日 志 记 录 ， 就 把 该 事务 
添加 到 undo-list 中 。 只 要 找到 一 个 事务 的 end 日 志 记 录 ， 就 把 该 事务 从 undo-list 中 删除 - ankles 
束 时 ， 所 有 留 在 undo-list 中 的 事务 将 在 后 面 的 撤销 阶段 中 回 滚 。 分 析 阶 段 也 记录 undo-list 中 每 一 个 事 
务 的 最 后 一 个 记录 ， 它 在 撤销 阶段 中 有 用 。 

一 旦 分 析 阶 自发 现 一 个 在 页 上 更 新 的 日 志 记 录 ， 它 还 更 新 脏 页 表 。 如 果 该 页 不 在 脏 页 表 中 ,分析 
阶段 就 将 它 添加 进 脏 页 表 ， 并 设置 该 页 的 RecLSN 为 该 日 志 记 录 的 LSN, 

16.8.2.2 重 做 阶段 

重 做 阶段 通过 重演 所 有 没有 在 磁盘 页 中 反映 的 动作 来 重复 历史 。 重 做 阶段 从 RedoLSN 开始 正 向 扫 
描 日 志 ， 只 要 它 找到 一 个 更 新 日 志 记 录 ， 它 就 执行 如 下 动作 : 

I. WSOC TEBE Ae 或 者 该 更 新 日 志 记录 的 LSN 小 于 脏 页 表 中 该 页 的 RecLSN， 重 做 阶段 
就 跳 过 该 日 志 记 录 。 

2. 否则 重 做 阶段 就 从 磁盘 调 出 该 页 ， 如 果 其 PageLSN 小 于 该 日 志 记录 的 LSN， 就 重 做 该 日 志 记录 。 

注意 如 果 上 述 两 个 测试 中 的 任何 一 个 是 否定 的 ,那么 该 日 志 记录 的 作用 已 经 反映 到 页 面 中 ; 否则 

志 记 录 的 作用 就 还 没有 反映 到 页 面 中 。 由 于 ARIES 允许 非 寡 等 性 的 物理 逻辑 日 志 记录 ， 因 此 如 果 一 

日 志 记 录 的 影响 已 经 反映 到 页 面 中 ， 该 日 志 记 录 就 不 应 该 重 做 。 如 果 第 一 个 测试 是 否定 的 ， 那 么 其 
sl i neice pageL SN. 

16.8.2.3 撤销 阶段 和 事务 回 滚 

撤销 阶段 比较 直截了当 。 它 对 日 志 进 行 一 遍 反 向 扫描 ， 对 undo-list 中 的 所 有 事务 进行 撤销 。 撤 销 
阶段 仅 检 查 undo-list 中 事务 的 日 志 志 记录 ; AER LSN 来 找到 undo-list 中 每 个 日 
志 的 最 后 一 个 日 志 记录 。 

每 当 找到 一 个 更 新 日 志 记 录 ， 就 用 它 来 执行 一 个 undo( 无 论 是 在 正常 处 理 过 程 的 事务 回 滚 中 ， 

是 在 重启 动 的 撤销 阶段 中 ) 。 撤 销 阶段 产生 一 个 包含 undo 执行 动作 (必须 是 物理 逻辑 的 ) 的 CLR, yi 
该 CLR 的 UndoNextLSN 设置 为 该 更 新 日 志 记 录 的 PrevLSN 值 。 

如 果 遇 到 一 个 CLR， 则 它 的 UndoNextLSN 值 指明 了 该 事务 需要 undo 的 下 一 个 日 志 记 录 的 LSN; 该 
事务 的 在 其 后 面 的 日 志 记录 已 经 回 滚 了 。 除 CLR 之 外 的 那些 日 志 记录 ， WE 字段 指明 该 事务 需要 
undo 的 下 一 个 日 志 记 录 的 LSN。 在 撤销 阶段 中 的 每 一 站 中 ， 要 执行 的 下 一 志 记 录 是 undo-list 中 所 
有 事务 的 下 一 个 日 志 记录 LSN 中 最 大 的 一 个 。 
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图 16-9 描述 了 ARIES 基于 一 个 样 例 日 志 所 执行 的 恢复 动作 。 假 设 磁盘 上 最 后 一 个 完整 的 检查 点 指 

针 指 向 LSN 为 7568 的 检查 点 日 志 记录 。 在 图 16-9 中 用 箭头 指示 日 志 记录 中 的 PrevLSN 值 ， 用 虚线 箭 

头 指 示 那 个 LSN 为 7565 的 补偿 日 志 记 录 中 的 UndoNextLSN 值 。 分 析 阶 段 从 LSN 7568 开始 ， 当 分 析 阶 

段 完 成 时 ，RedoLSN 为 7564。 于 是 ， 重 做 阶段 必须 从 LSN 为 7564 的 日 志 记录 开始 。 请 注意 ， 该 LSN 

小 于 检查 点 日 志 记 录 的 LSN， 因 为 ARIES 检查 点 算法 不 将 修改 过 的 页 面 刷 新 到 稳定 存储 器 。 在 分 析 阶 

ee eii 日 志 记 录 中 的 页 面 4894 和 7200， 以 及 页 面 2390， 它 是 被 LSN 为 7570 的 
志 记 录 修 改过 的 。 在 本 例 中 分 析 阶 段 结 束 时 ， 需 要 撤销 的 事务 列表 仅 包括 Tus。 


较 新 PrevLSN 
A 崩溃 时 日 志 的 结束 点 指针 
| 7571: <T146 commit> 
7570: <T146, 2390.4, 50, mm 
[7569:<Trasbegin> | 
7568: checkpoint 


PagelD| PageLSN | RecLSN 
4894 7567 7564 
7200 7565 7565 He 





































7567: <T145,4894.1, 40, 60> 








7566: <T143 commit> 





7565: <T143,7200.2, 60> 
7564: <T145,4894.1, 20, 40> 
7563: <T145 begin> 

BEE | 7562: <T143,7200.2, 60, 80> 





重 做 阶段 


J [UndoNextLSN 
a 


图 16-9 ARIES 中 的 恢复 动作 
上 述 例子 的 重 做 阶段 从 LSN 7564 开始 ， 对 其 页 面 出 现在 脏 页 表 中 的 日 志 记录 进行 重 做 。 撤 销 阶段 
























仅 需要 对 事务 ?is 进行 撤销 ， 因 此 从 它 的 LastLSN 值 7567 开始 ， 反 向 扫描 ， 直 至 在 LSN 7563 处 遇 到 < 


Tas Start > 记录 。 


16.8.3 ”其 他 特性 


ARIES 提供 的 其 他 关键 特性 包括 以 下 几 方 面 。 

© BANE AE (nested top action) : ARIES 允许 对 即使 事务 回 滚 也 不 应 该 撤销 的 那些 操作 记 日 
志 ; 例如 ， 如 果 一 个 事务 分 配 一 个 页 面 给 一 个 关系 ,那么 即使 该 事务 回 滚 ， 此 页 面 分 配 也 不 能 
撤销 ， 因 为 其 他 事务 可 能 已 经 存储 记录 在 这 个 页 面 上 了 。 这 样 的 不 应 该 回 滚 的 操作 称 作 艇 套 的 
顶层 动作 。 这 样 的 操作 可 以 模拟 为 其 undo 动作 什么 都 不 做 的 操作 。 在 ARIES 中 ， 这 样 的 操作 
通过 创建 一 个 虚拟 的 CLR 来 实现 ,设置 其 UndoNextLSN, ， 使 得 事务 回 滚 跳 过 由 此 操作 产生 的 日 
志 记 录 。 

© 恢复 的 独立 性 (recovery independence); 有 些 页 能 够 独立 于 其 他 页 进行 恢复 ， 以 便 它 们 甚至 能 够 
在 别 的 页 正在 恢复 时 使 用 。 如 果 一 张 磁盘 的 某 些 页 出 错 ， 它 们 无 须 停 止 其 他 页 上 的 事务 处 理 就 
能 恢复 。 

© 保存 点 (savepoint) : 事务 能 够 记录 保存 点 ， 并 能 部 分 回 滚 到 一 个 保存 点 。 这 对 于 死 锁 处 理 特别 
有 用 ， 因 为 事务 能 够 回 滚 到 某 个 点 来 允许 释放 必要 的 锁 ， 然 后 从 那个 点 重新 开始 。 

程序 员 还 可 以 使 用 保存 点 来 部 分 地 撤销 一 个 事务 ， 然 后 继续 执行 ;对 于 处 理 在 事务 执行 中 

发 现 的 某 些 类 型 的 错误 ， 这 个 方法 会 是 很 有 用 的 。 
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© 细 粒 度 的 封锁 (fine-grained locking) : ARIES 恢复 算法 可 以 和 人 允许 在 索引 中 元 组 级 封锁 而 不 是 页 
级 封锁 的 索引 并 发 控制 算法 一 起 使 用 。 这 大 大 地 提高 了 并 发 性 。 
© 恢复 最 优化 (recovery optimization); 脏 页 表 能 用 于 在 重 做 时 预先 提取 页 ， 而 不 是 只 在 系统 找到 
一 个 要 应 用 到 页 的 日 志 记 录 时 才 提 取 该 页 。 重 做 也 可 能 是 不 按 顺 序 的 ， 当 页 正在 被 从 磁盘 提取 
时 ， 重 做 可 以 推迟 ， 在 页 被 取出 来 后 ， 重 做 再 执行 。 同 时 ， 其 他 日 志 记录 能 够 继续 处 理 。 
总 之 ，ARIES 算法 代表 恢复 算法 的 最 新 技术 发 展 水 平 ， 它 综合 运用 了 为 提高 并 发 度 、 减 少 日 志 开 
销 和 缩短 恢复 时 间 所 设计 的 各 种 优化 技术 。 


16.9 远程 备份 系统 


传统 的 事务 处 理 系统 是 集中 式 或 客户 /服务 器 模式 的 系统 。 这 样 的 系统 易 受 自然 灾难 (如 火灾 、 

水 和 地 震 ) 的 攻击 。 tet ti EE 
必须 提供 高 可 用 性 (high availability); 即 系统 不 能 使 用 的 时 间 必 须 非常 地 短 。 

我 们 可 以 这 样 来 获得 高 可 用 性 ， 在 一 个 站 点 执行 事务 处 理 ， 称 为 主 站 点 (primary site) ， 使 用 一 个 
远程 备份 (remote backup) 站 点 ， 这 里 有 主 站 点 所 有 数据 的 备份 。 远程 备份 站 点 有 时 也 叫 辅助 站 点 
(secondary site) ， 随 着 更 新 在 主 站 点 上 执行 ， 远程 站 点 必须 保持 与 主 站 点 同步 。 我 们 通过 发 送 主 站 点 
的 所 有 日 志 记录 到 远程 备份 站 点 来 达到 同步 。 远 程 备 份 站 点 必须 物理 地 与 主 站 点 分 离 一 一 例如 ， 我 们 
可 以 将 它 放 在 一 个 不 同 的 州 ， 这 样 发 生 在 主 站 点 的 灾难 不 会 破坏 远程 备份 站 点 。 图 16- 10 显示 了 远程 
备份 系统 的 体系 结构 。 








日 志 记录 


图 16-10 远程 备份 系统 的 体系 结构 


当主 站 点 发 生 故 障 ， 远 程 备 份 站 点 就 接管 处 理 。 但 它 首先 使 用 源 于 主 站 点 的 (也 许 已 过 时 的 ) 数 据 
拷贝 ， 以 及 收 到 的 来 自主 站 点 的 日 志 记 录 执 行 恢复 。 事 实 上 ， ee ee 
点 要 恢复 时 需 执 行 的 恢复 动作 。 对 于 标准 的 恢复 算法 稍 加 修改 ， 就 可 用 于 远程 备份 站 点 的 恢复 。 一 
恢复 执行 完成 ， 远 程 备份 站 点 就 开始 处 理事 务 。 

即使 主 站 点 的 数据 全 部 丢失 ， 系 统 也 能 恢复 ， 因 此 ， 相 对 于 单 站 点 系统 而 言 ， 系 统 的 可 用 性 大 大 
地 提高 了 。 

在 设计 一 个 远程 备份 系统 时 有 几 个 问题 必须 考虑 。 

o 故障 检测 ( detection of failure) 。 对 于 远程 备份 系统 而 言 ， 检 测 什 么 时 候 主 站 点 发 生 故障 是 很 重 

要 的 。 通 信 线 路 故障 会 使 远程 备份 站 点 误 以 为 主 站 点 已 发 生 故 障 。 为 避免 这 个 问题 ， 我 们 在 主 
站 点 和 备份 站 点 之 间 维 持 几 条 具有 独立 故障 模式 的 通信 线路 ， 例 如， 可 以 使 用 几 种 互相 独立 的 
网 络 连接 ， 或 许 包括 通过 电话 线路 的 调制 解 调 器 连接 。 这 些 连 接 可 能 由 那些 能 通过 电话 系统 进 
行 通信 的 操作 人 员 的 手工 干预 来 提供 支持 。 
© 控制 权 的 移交 (transfer of control) 。 当 主 站 点 发 生 故 障 时 ， 备 份 站 点 就 接管 处 理 并 成 为 新 的 主 站 
点 。 当 原来 的 主 站 点 恢复 后 ， 它 可 以 作为 远程 备份 站 点 工作 ， 抑 或 再 次 接管 并 作为 主 站 点 。 在 
任意 情况 下 ， 原 主 站 点 都 必须 收 到 一 份 在 它 故障 期 间 备份 站 点 上 所 执行 更 新 的 日 志 。 
移交 控制 权 最 简单 的 办 法 是 原 主 站 点 从 原 备 份 站 点 收 到 redo 日 志 ， 并 将 它们 应 用 到 本 地 以 
赶 上 更 新 。 然 后 原 主 站 点 就 可 以 作为 远程 备份 站 点 工作 ， AST EN , 原 备 份 站 点 可 
以 假装 发 生 故障 ， 导 致 原 主 站 点 重新 接管 。 
e 恢复 时 间 (time to recovery) 。 如 果 远 程 备份 站 点 上 的 日 志 增 长 到 很 大 ， 恢复 就 会 花 很 长 时 间 。 远 
程 备份 站 点 可 以 周期 性 地 处 理 它 收 到 的 redo 日 志 ， 并 执行 一 个 检查 点 ， 从 而 日 志 中 早期 的 部 分 
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可 以 删除 。 这 样 ， 远 程 备份 站 点 接管 的 延迟 显著 缩短 。 

采用 热 备 份 (hot-spare) 配 置 可 使 备份 站 点 几乎 能 在 一 瞬间 接管 ， 在 该 配置 中 ， 远 程 备 份 站 
点 不 断 地 处 理 到 达 的 redo 日 志 记录 ， 在 本 地 进行 更 新 。 一 旦 检测 到 主 站 点 发 生 故障 ， 备 份 站 点 
就 通过 回 滚 未 完成 的 事务 来 完成 恢复 ; 然后 就 做 好 处 理 新 事务 的 准备 。 
© 提交 时 间 (time to commit) 。 为 保证 已 提交 事务 的 更 新 是 持久 的 ， 只 有 在 其 日 志 记录 到 达 备 份 站 

点 之 后 才能 宣称 该 事务 已 提交 。 该 延迟 会 导致 等 待 事务 提交 的 时 间 变 长 ， 因 此 某 些 系统 允许 较 
低 程度 的 持久 性 。 持 久 性 的 程度 可 以 按 如 下 分 类 : 
一 方 保 险 (one-safe) 。 事 务 的 提交 日 志 记录 一 写 人 主 站 点 的 稳定 存储 器 ， 事 务 就 提交 。 

这 种 机 制 的 问题 是 ， 当 备份 站 点 接管 处 理 时 ， 已 提交 事务 的 更 新 可 能 还 没有 在 备份 站 点 
PUT, RE, ， 该 更 新 好 像 丢 失 了 。 当 主 站 点 恢复 后 ， 丢 失 的 更 新 不 能 直接 并 人 ， 因 为 它 可 能 
与 后 来 在 备份 站 点 上 执行 的 更 新 相 冲 突 。 因 此 ， 可 能 需要 人 工 干 预 来 使 数据 库 回 到 一 致 
状态 。 

两 方 强 保险 (two-very-safe) 。 事 务 的 提交 日 志 记录 一 写 入 主 站 点 和 备份 站 点 的 稳定 存储 器 ， 
事务 就 提交 。 

这 种 机 制 的 问题 是 ， 如 果 主 站 点 或 备份 站 点 其 中 的 一 个 停工 ， 事 务 处 理 就 无 法 进行 。 因 
此 ,虽然 丢失 数据 的 可 能 性 很 小 ， 但 其 可 用 性 实际 上 比 单 站 点 的 情况 还 低 。 

两 方 保险 (two-safe) 。 如 果 主 站 点 和 备份 站 点 都 是 活路 的， 该 机 制 与 两 方 强 保险 机 制 相同 。 
如 果 只 有 主 站 点 是 活跃 的 ， 事 务 的 提交 日 志 记 录 一 写 人 主 站 点 的 稳定 存储 器 事务 ， 就 允许 它 
提交 。 

这 一 机 制 提供 了 比 两 方 强 保险 机 制 更 好 的 可 用 性 ， 同 时 避免 了 一 方 保险 机 制 面临 的 事务 
丢失 问题 。 它 导致 比 一 方 保险 机 制 较 慢 的 提交 ,但 总 的 来 说 利多 于 次 。 

一 些 商用 共享 磁盘 系统 提供 一 定 级 别 的 容错 ， 成 为 集中 式 系 统 和 远程 备份 系统 的 折 中 。 在 这 些 商 
758 | 用 系统 中 ，CPU 故障 不 会 导致 系统 故障 ， 而 是 由 其 他 CPU 接管 并 执行 恢复 。 恢 复 动 作 包括 回 滚 正在 故 

障 CPU 上 执行 的 事务 以 及 恢复 这 些 事务 所 持 有 的 锁 。 由 于 数据 在 共享 磁盘 上 ， 因 此 不 需要 日 志 记 录 的 

传送 。 但 我 们 应 该 保护 数据 ， 防 止 磁盘 故障 造成 的 丢失 ,例如 ， 使 用 RAID 磁盘 组 织 。 

另 一 种 达到 高 可 用 人 性 的 可 选 方法 是 使 用 分 布 式 数据 库 ， 将 数据 复制 到 不 止 一 个 站 点 。 此 时 事务 更 

新 任何 一 个 数据 项 ， 都 要 求 更 新 其 所 有 副本 。 第 19 章 将 讨论 分 布 式 数据 库 ， 包 括 复制 。 


16.10 ”总 结 


计算 机 系统 与 其 他 机 械 或 电子 设备 一 样 容易 发 生 故 障 。 造 成 故障 的 原因 有 很 多 ,包括 磁盘 故障 、 电 
源 故 障 和 软件 错误 。 这 些 情况 造成 了 数据 库 系 统 信息 的 丢失 。 









































© 除 系统 故障 外 ， 事 务 也 可 能 因 各 种 原因 造成 失败 ， 例 如 破坏 了 完整 性 约束 或 发 生死 锁 。 
。 数据 库 系统 的 一 个 重要 组 成 部 分 就 是 恢复 机 制 ， 它 负责 检测 故障 以 及 将 数据 库 恢 复 至 故障 发 生前 的 
某 一 状态 。 


计算 机 中 的 各 种 存储 器 类 型 有 易 失 性 存储 器 、 非 易 失 性 存储 器 和 稳定 存储 器 。 易 失 性 存储 器 ( 如 
RAM) 中 的 数据 在 计算 机 发 生 故障 时 会 丢失 。 非 易 失 性 存储 器 ( 如 磁盘 ) 中 的 数据 在 计算 机 发 生 故 障 
时 一 般 不 丢失 ， 只 是 偶尔 由 于 某 些 故障 如 磁盘 故障 才 会 丢失 。 稳 定 存储 器 中 的 数据 从 不 丢失 。 

必须 能 联机 访问 的 稳定 存储 器 用 镜像 磁盘 或 RAID 的 其 他 形式 模拟 ， 它 们 提供 宛 余数 据 存储 。 脱 机 
或 归档 稳定 存储 器 可 能 是 数据 的 多 个 磁带 备份 ， 并 存放 在 物理 上 安全 的 地 方 。 

。 一 旦 故障 发 生 ， 数 据 库 系统 的 状态 可 能 不 再 一 致 ， 即 它 不 能 反映 数据 库 试 图 保存 的 现实 世界 的 状态 。 
为 保持 一 致 性 ， 我 们 要 求 每 个 事务 都 必须 是 原子 的 。 恢 复 机 制 的 责任 就 是 要 保证 原子 性 和 持久 性 。 
。 在 基于 日 志 的 机 制 中 ， 所 有 的 更 新 都 记 入 日志， 并 存放 在 稳定 存储 器 中 。 当 事务 的 最 后 一 个 日 志 记 

录 ， 即 该 事务 的 commit 日 志 记 录 ， 输 出 到 稳定 存储 器 时 ， 就 认为 这 个 事务 已 提交 。 
日 志 记 录 包 括 所 有 更 新 过 的 数据 项 的 旧 值 和 新 值 。 当 系统 崩溃 后 需要 对 更 新 进行 重 做 时 ， 就 使 用 新 








759 值 。 如 果 在 正常 操作 中 事务 中 止 ， 回 滚 事务 所 做 的 更 新 时 需要 用 到 旧 值 ; 在 事务 提交 之 前 发 生 系统 








崩溃 的 情况 下 ， 回 滚 事 务 所 做 的 更 新 也 需要 用 到 旧 值 。 
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在 延迟 修改 机 制 中 ， 事 务 执行 时 所 有 write 操作 要 延迟 到 事务 提交 时 才 执 行 ， 那 时 ， 系 统 在 执行 延迟 
写 中 会 用 到 日 志 中 与 该 事务 有 关 的 信息 。 在 延迟 修改 机 制 中 ， 日 志 记 录 不 需要 包含 已 更 新 的 数据 项 
的 旧 值 。 

为 减少 搜索 日 志和 重 做 事务 的 开销 ， 我 们 可 以 使 用 检查 点 技术 。 

当前 的 恢复 算法 基于 重复 历史 的 概念 ， 在 恢复 的 重 做 阶段 重演 ( 自 最 后 一 个 已 完成 的 检查 点 以 来 ) 正 
常 操作 中 所 做 的 所 有 动作 。 重 复 历史 的 做 法 将 系统 状态 恢复 到 系统 崩 演 之 前 最 后 一 个 日 志 记录 输出 
到 稳定 存储 器 时 的 系统 状态 。 然 后 从 这 个 状态 开始 执行 一 个 撤销 阶段 ， 反 向 处 理 未 完成 事务 的 日 志 
记录 。 

。 不 完全 事务 的 撤销 写 出 特殊 的 redo-only 日 志 记录 和 一 个 abort 日 志 记 录 。 然 后 ， 就 可 以 认为 该 事务 
已 完成 ， 不 必 再 对 它 进 行 撤销 。 

在 事务 处 理 所 基 于 的 存储 模型 中 ， 主 存储 器 中 有 一 个 日 志 缓 冲 区 、 一 个 数据 库 缓冲 区 和 一 个 系统 组 
冲 区 。 系 统 缓冲 区 中 有 系统 目标 码 页 面 和 事务 的 局 部 工作 区 域 。 

恢复 机 制 的 高 效 实 现 需要 尽 可 能 减少 向 数据 库 和 稳定 存储 器 写 出 的 数目 。 日 志 记 录 在 开始 时 可 以 保 
存在 易 失 性 的 日 志 缓 冲 区 中 ， 但 是 当下 述 情况 之 一 发 生 时 必须 写 到 稳定 存储 器 中 : 

{E <T,, commit > 日 志 记录 可 以 输出 到 稳定 存储 器 之 前 ， 与 事务 T, 相关 的 所 有 日 志 记 录 必 须 
已 经 输出 到 稳定 存储 器 中 。 

在 主 存 中 的 一 个 数据 块 输出 到 ( 非 易 失 性 存储 器 中 的 ) 数 据 库 之 前 ， 与 该 块 中 的 数据 相关 的 所 
有 日 志 记 录 必 须 已 经 输出 到 稳定 存储 器 中 。 

当前 的 恢复 技术 支持 高 并 发 性 封锁 技术 ， 例 如 用 于 B 树 并 发 控制 的 封锁 技术 。 这 些 技术 允许 
提前 释放 通过 插入 或 删除 这 样 的 操作 获得 的 低级 别 的 锁 ， 低 级 别 的 锁 人 允许 别 的 事务 其 他 的 这 类 
操作 可 以 执行 。 低 级 别 的 锁 被 释放 之 后 ， 不 能 进行 物理 undo， 而 需要 进行 逻辑 undo, 例如， 用 
删除 来 对 插入 做 undo。 事 务 保持 高 级 别 的 锁 以 确保 并 发 的 事务 不 会 执行 这 样 的 动作 ， 它 可 能 导 [760 | 
致 一 个 操作 的 逻辑 undo 是 不 可 能 的 。 

为 从 造成 非 易 失 性 存储 器 中 数据 丢失 的 故障 中 恢复 ， 我 们 必须 周期 性 地 将 整个 数据 库 的 内 容 转 
储 到 稳定 存储 器 中 一 一 例如 每 天 一 次 。 如 果 发 生 了 导致 物理 数据 库 块 丢失 的 故障 ， 我 们 使 用 最 
近 一 次 转 储 将 数据 库 恢 复 至 前 面 的 某 个 一 致 状态 。 一 旦 完成 该 恢复 ,我 们 再 用 日 志 将 数据 库 系 
统 恢复 至 最 当前 的 一 致 状态 。 

ARIES 恢复 机 制 是 最 新 技术 水 平 的 机 制 ， 它 支持 一 些 提供 更 大 并 发 性 ， 削 减 日 志 开 销 和 最 小 化 
恢复 时 间 的 特性 。 它 也 是 基于 重复 历史 的 ， 并 允许 逻辑 undo 操作 。 该 机 制 连续 不 断 地 清洗 页 ， 
从 而 不 需要 在 检查 点 时 清洗 所 有 页 。 它 使 用 日 志 顺 序号 (LSN) 来 实现 各 种 优化 从 而 减少 恢复 所 
花 时 间 。 

远程 备份 系统 提供 了 很 高 程度 的 可 用 性 ， 人 允许 事务 处 理 即 使 在 主 站 点 遭受 火灾 、 洪 水 或 地 震 的 
破坏 时 也 能 继续 。 主 站 点 上 的 数据 和 日 志 记录 连续 不 断 地 备份 到 远程 备份 站 点 。 如 果 主 站 点 发 
生 故 障 ， 远 程 备 份 站 点 就 执行 一 定 的 恢复 动作 ， 然 后 接管 事务 处 理 。 













































































术语 回顾 
。 恢复 机 制 。 存储 器 类 型 。 基于 日 志 的 恢复 
© 故障 分 类 易 失 性 存储 器 。 日 志 
口 事务 故障 非 易 失 性 存储 器 。 日 志 记 录 
逻辑 错误 稳定 存储 器 。 更 新 日 志 记 录 
T 系统 错误 oR 。 延迟 的 修改 
O 系统 崩溃 物理 块 e 立即 的 修改 
口 数据 传输 故障 缓冲 块 。 未 提交 的 修改 
© 故障 一 停止 假设 © 磁盘 缓冲 区 。 检查 点 
e 磁盘 故障 。 强制 输出 。 恢复 算法 
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。 重启 动 恢复 。 操作 系统 与 缓冲 区 管理 口 分 析 阶 段 
。 事务 回 滚 。 模糊 检查 点 口 重 做 阶段 
© 物理 undo 。 锁 的 提前 释放 口 撤销 阶段 
。 物理 日 志 。 逻辑 操作 。 高 可 用 性 
。 事务 回 滚 。 逻辑 日 志 © 远程 备份 系统 
。 检查 点 o 逻辑 undo 口 主 站 点 
。 重启 动 恢复 © 非 易 失 性 存储 器 数据 丢失 口 远程 备份 站 点 
© 重 做 阶段 © 文档 转 储 口 辅助 站 点 
。 撤销 阶段 。 模糊 转 储 o 故障 检测 
。 重复 历史 e ARIES © 控制 权 移交 
。 缓冲 区 管理 O 日 志 顺 序号 (LSN ) 。 恢复 时 间 
。 日 志 记录 缓冲 O 页 面 顺序 号 (PageLSN ) 。 热 备份 配置 
e 先 写 日 志 ( WAL) O 物理 逻辑 redo 。 提交 时 间 
。 强制 日 志 口 补偿 日 志 记 录 ( CLR) 口 一 方 保险 
© 数据 库 缓冲 口 脏 页 表 口 两 方 强 保险 
。 HA 口 检查 点 日 志 记 录 口 两 方 保险 
实践 习题 
16. 1 请 解释 为 什么 undo-list 中 事务 的 日 志 记录 必须 由 后 往 前 进行 处 理 ， 而 redo-list 中 事务 的 日 志 记录 则 必 
须 由 前 往 后 进行 处 理 。 
16.2 请 解释 检查 点 机 制 的 目的 。 应 该 间隔 多 长 时 间 做 一 次 检查 点 ?执行 检查 点 的 频率 对 以 下 各 项 有 何 
影响 ? 
。 无 故障 发 生 时 的 系统 性 能 如 何 ? 
© 从 系统 月 演 中 恢复 所 需 的 时 间 多 长 ? 
© 从 介质 (磁盘 ) 故 障 中 恢复 所 需 的 时 间 多 长 ? 
16.3 某 些 数据 库 系统 允许 系统 管理 员 在 正常 日 志 ( 用 于 从 系统 月 演 中 恢复 ) 和 归档 日 志 ( 用 于 从 介质 (磁盘 ) 
故障 中 恢复 ) 这 两 种 日 志 形式 间 进行 选择 。 采 用 16. 4 节 的 恢复 算法 ， 对 于 这 两 种 情况 的 每 一 种 ， 一 个 
日 志 记 录 在 什么 时 候 可 以 删除 ? 
16.4 ”请 描述 如 何 对 16.4 节 的 恢复 算法 进行 修改 ， 以 实现 保存 点 和 执行 对 保存 点 的 回 滚 。( 保 存 点 在 
16. 8. 3 “FHA. ) 
16.5 假设 在 数据 库 中 使 用 延迟 的 修改 技术 。 
a. 更 新 日 志 记录 中 的 旧 值 还 需要 吗 ? 为 什么 ? 
b. 如 果 没 有 将 旧 值 存放 在 更 新 日 志 记 录 中 ， 则 显然 无 法 对 事务 进行 撤销 。 其 结果 是 需要 对 恢复 的 重 
做 阶段 做 什么 样 的 修改 ? 
c. 通过 将 更 新 过 的 数据 项 保存 在 事务 的 局 部 存储 中 ， 并 且 直 接 从 数据 库 缓冲 区 中 读 没 有 更 新 过 的 数 
据 项 ， 可 以 实行 延迟 的 修改 。 请 给 出 如 何 高 效 地 实现 数据 项 的 读 ， 要 保证 事务 看 到 它 自 己 的 更 新 。 
d. 如 果 事 务 进行 大 量 的 更 新 ， 那 么 上 述 技术 会 有 什么 问题 ? 
16.6 影子 页 技术 需要 对 页 表 进 行 拷贝 。 假 设 页 表 表示 成 B' 树 形式 。 
a. 请 说 明 如 何在 B' 树 的 新 拷贝 和 影子 拷贝 之 间 共 享 尽 可 能 多 的 结 点 ， 假 设 更 新 仅 对 叶 结 点 的 项 进 
行 ， 并且 没有 插入 和 删除 。 
b. 即使 做 了 上 述 优化 ， 对 于 进行 少量 更 新 的 事务 ,日 志 的 方法 仍然 比 影 子 拷贝 的 方法 开销 小 得 多 。 
请 解释 为 什么 。 
16.7 ”假设 我 们 (错误 地 ) 修 改 了 16.4 节 的 恢复 算法 ， 对 于 事务 回 滚 中 执行 的 动作 不 记 日 志 。 当 从 系统 崩溃 


中 恢复 时 ， 于 是 早先 已 经 回 滚 了 的 事务 就 会 被 包括 在 undo-list 中 ， 并 且 被 再 次 回 深 。 请 给 出 一 个 例 
子 ， 说 明 在 恢复 的 撤销 阶段 执行 的 动作 如 何 会 导致 一 个 不 正确 的 数据 库 状 态 。( 提示 : 考虑 已 中 止 事 
务 更 新 过 ， 然 后 又 被 一 个 提交 的 事务 更 新 的 一 个 数据 项 。) 
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16.8 ”作为 一 个 事务 的 结果 分 配给 一 个 文件 的 磁盘 空间 不 应 该 释放 ， 即 使 该 事务 回 深 了 。 请 解释 这 是 为 什 
么 ， 并 解释 ARTES 如 何 保证 这 样 的 动作 不 回 滚 。 
16.9 ”假设 一 个 事务 删除 了 一 条 记录 ， 甚 至 在 这 个 事务 提交 之 前 ， 所 产生 的 自由 空间 就 被 分 配给 另 一 个 事务 
插入 的 一 条 记录 。 
a. 如 果 第 一 个 事务 需要 回 滚 的 话 ， 会 产生 什么 问题 ? 
b 如 果 使 用 页 级 别 的 封锁 ， 而 不 是 元 组 级 别 的 封锁 ， 那 么 这 还 是 个 问题 吗 ? 
c 如 果 支 持 元 组 级 别 的 封锁 ， 请 解释 如 何 通过 在 特殊 的 日 志 记录 中 记 下 提交 后 的 动作 ， 并 在 提交 后 
执行 它们 ， 来 解决 这 个 问题 。 要 确保 在 你 给 出 的 机 制 中 这 样 的 动作 恰好 执行 一 次 。 
16.10 ”请 解释 为 什么 交互 式 事务 的 恢复 比 批 处 理事 务 的 恢复 更 难处 理 。 是 否 有 简单 的 方法 处 理 该 困难 ? 
(提示 : 考虑 用 于 提取 现金 的 自动 取款 机 事务 。) 
16. 11 有 时 事务 在 完成 提交 之 后 不 得 不 撤销 ， 因 为 它 错误 地 执行 了 ， 比 如 银行 出 纳 员 的 错误 输入 。 
a. 举例 说 明 采 用 通常 的 事务 撤销 机 制 来 撤销 这 样 一 个 事务 会 导致 不 一 致 状态 。 
b. 一 个 处 理 这 种 状况 的 途径 是 使 整个 数据 库 回 到 该 错误 事务 提交 前 的 某 一 状态 ( 称 为 及 时 点 (point- 
in-time) 恢复 ) ， 该 点 之 后 提交 的 事务 回 滚 其 影响 。 
请 对 16. 4 节 的 恢复 算法 加 以 修改 ， 使 用 数据 库 转 储 来 实现 及 时 点 恢复 。 
c. 及 时 点 之 后 的 无 错误 事务 可 以 从 逻辑 上 重新 执行 ， 但 不 能 使 用 它们 的 日 志 记录 重新 执行 ， 为 
HA? 


16.12 JA VO 开销 的 角度 解释 易 失 性 存储 器 、 非 易 失 性 存储 器 和 稳定 存储 器 三 类 存储 器 的 区 别 。 
16. 13 ”稳定 存储 器 是 不 可 能 实现 的 。 
a. 请 解释 为 什么 。 
b. 请 解释 数据 库 系 统 如 何 对 待 这 个 问题 。 
16. 14 ”如 果 与 某 块 有 关 的 某 些 日 志 记 录 没 有 在 该 块 输出 到 磁盘 前 输出 到 稳定 存储 器 中 ， 请 解释 数据 库 可 能 
会 如 何 地 变 得 不 一 致 。 
16. 15 “请 概述 非 窃取 的 和 强制 的 缓冲 区 管理 策略 的 缺点 。 
16.16 ”物理 逻辑 redo 日 志 可 以 显著 减 小 日 志 开销 ， 特 别 是 对 于 分 槛 的 页 记录 组 织 。 请 解释 这 是 为 什么 。 
16.17 ”请 解释 为 什么 逻辑 undo 日 志 广 泛 使 用 ， 而 逻辑 redo 日 志 ( 除 了 物理 逻辑 redo 日 志 ) 很 少 使 用 。 
16.18 考虑 图 16-5 中 的 日 志 。 假 设 恰 好 在 < Tu abort > 日 志 记 录 写 出 之 前 系统 骨 溃 。 请 解释 在 系统 恢复 时 会 
发 生 什么 。 
16.19 ”假设 有 一 个 事务 已 运行 了 很 长 时 间 ， 但 仅 做 了 很 少 的 更 新 。 
a. 如 果 使 用 16. 4 节 的 恢复 算法 ， 该 事务 对 恢复 时 间 的 影响 是 什么 ”如 果 用 ARIES 恢复 算法 呢 ? 
b. 该 事务 对 于 删除 老 的 日 志 记录 的 影响 是 什么 ? 
16.20 ”考虑 图 16-6 中 的 日 志 。 假 设 在 恢复 中 发 生 了 崩溃 ， 发 生 的 时 间 恰 好 在 操作 O, 的 operation abort 日 志 
记录 写 出 之 前 。 请 解释 系统 再 次 恢复 时 会 发 生 什么 。 
16. 21 请 对 于 下 述 情况 ， 从 开销 的 角度 ， 对 基于 日 志 的 恢复 和 影子 拷贝 机 制 进行 比较 : 数据 要 加 入 到 新 分 
配 的 磁盘 页 中 ( 换 旬 话说， 如 果 事 务 中 止 的 话 ， 没 有 旧 值 需要 恢复 )。 
16.22 ”在 ARIES 恢复 算法 中 : 
。 如 果 在 分 析 阶 段 开 始 时 ， 某 个 页 面 不 在 检查 点 脏 页 表 中 ， 我 们 需要 将 任何 redo 记录 应 用 于 该 页 
吗 ? 为 什么 ? 
© RecLSN 是 什么 ， 如 何 应 用 它 来 尽 可 能 减少 不 必要 的 重 做 ? 
16. 23 ”请 解释 系统 崩 演 和 “灾难 ”的 区 别 。 
16. 24 ”为 以 下 各 项 需求 ， 指 出 在 远程 备份 系统 中 ， 持 久 性 程度 最 合适 的 选择 ; 
a. 必须 避免 数据 丢失 ， 但 失去 一 些 可 用 性 可 以 接受 
b. 事务 提交 必须 迅速 完成 ， 甚 至 可 以 冒 在 灾难 发 生 时 丢失 一 些 已 提交 事务 的 风险 。 
c. 要 求 高 可 用 性 和 持久 性 ， 但 事务 提交 协议 的 较 长 运行 时 间 是 可 以 接受 的 。 
16. 25 Oracle 数据 库 系统 使 用 undo 日 志 记 录 来 提供 快照 隔离 模式 下 的 数据 库 的 一 种 快照 视图 。 事务 7 所 看 
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到 的 快照 视图 反映 了 当 开始 时 所 有 已 提交 事务 的 更 新 ， 以 及 7; 的 更 新 ; 所 有 其 他 事务 的 更 新 对 
T, 是 不 可 见 的 。 

请 描述 一 种 缓冲 处 理 机 制 ， 它 能 向 事务 提供 缓冲 区 的 页 面 的 一 个 快照 。 说 明 如 何 使 用 日 志 来 生 
成 快照 视图 的 细节 。 你 可 以 假设 操作 及 其 undo 动作 只 影响 一 个 单独 的 页 面 。 


文献 注解 


Gray 和 Reuter[ 1993 ] 是 一 本 优秀 的 教科 书 ， 提 供 了 关于 恢复 的 信息 资料 ， 包 括 有 趣 的 实现 和 历史 细节 。 
Bernstein 和 Coodman[ 1981 ] 是 早期 关于 并 发 控制 和 恢复 的 信息 资料 教材 。 

System R 关于 恢复 机 制 的 概述 由 Gray 等 [1981 ] 给 出 。 关 于 数据 库 系 统 的 各 种 恢复 技术 的 指导 性 和 概述 
性 文章 包括 Gray[ 1978], Lindsay 等 [1980 ] 和 Verhofstad[ 1978 ] 。 模 糊 检查 点 和 模糊 转 储 的 概念 是 在 Lindsay 
等 [1980] 中 阐述 的 。Haerder 和 Reuter[ 1983 ] 提供 了 恢复 原理 的 全 面 阐 述 。 

恢复 方法 的 最 新 技术 水 平 在 ARIES 方法 中 得 到 了 最 好 的 体现 ， 在 Mohan 等 [1992 ] 和 Mohan[ 1990b ] 中 描 
述 。Mohan 和 Levine[ 1992] 给 出 了 ARIES 的 扩展 ARIES IM， 使 用 逻辑 undo 日 志 来 优化 B* 树 并 发 控制 和 恢 
Fo ARIES 和 它 的 几 个 变种 用 在 好 几 个 数据 库 产品 中 ,包括 IBM DB2 和 Microsoft SQL Server, Oracle 的 恢复 
在 Lahiri 等 [2001 | 中 描述 。 

索引 结构 的 特殊 恢复 技术 在 Mohan 和 Levine[ 1992], ， 以 及 Mohan[ 1993 ] P T HR, Mohan 和 Narang 
[ 1994 ] 描述 了 客户 一 服务 器 架构 的 恢复 技术 ，Mohan 和 Narang[ 1992 | 描述 了 并 行 数 据 库 体系 架构 的 恢复 

Weikum[ 1991 ] 描述 了 可 串 行 性 理论 的 一 般 化 版 本 和 操作 进行 中 的 短 时间 低 级 别 锁 ， 以 及 与 长 时 间 高 级 
别 锁 的 结合 。 在 16. 7. 3 节 中 ， 我 们 看 到 这 样 的 需求 : 一 个 操作 应 该 获得 该 操作 的 逻辑 undo 可 能 需要 的 所 有 
低级 别 锁 。 可 以 通过 在 执行 任何 逻辑 undo 操作 之 前 首先 执行 所 有 的 物理 undo 操作 来 放宽 这 一 需求 。 在 
Weikum 等 [1990] 中 给 出 这 一 想法 的 一 个 一 般 化 版 本 ， 称 作 多 级 恢复 ， 它 允许 多 个 级 别 的 逻辑 操作 ， 在 恢复 
时 逐 级 地 进行 撤销 阶段 。 

灾难 恢复 的 远程 备份 算法 在 King 等 [1991 |] 和 Polyzois 和 Garcia-Molina[ 1994 ] 中 给 出 。 
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数据 库 系统 的 体系 结构 受 数据 库 系统 运行 所 在 的 底层 计算 机 系统 的 影响 很 大 。 数 据 库 系 
统 可 以 是 集中 式 的 ， 其 中 由 一 台 服 务 器 机 器 执行 数据 库 上 的 操作 。 数 据 库 系统 也 可 以 设计 为 
并 行 计算 机 体系 结构 。 分 布 式 数据 库 则 跨越 多 个 地 理 位 置 上 分 离 的 机 器 。 

第 17 章 首 先 概述 运行 在 服务 器 系统 上 的 数据 库 系统 的 体系 结构 ， 这 种 体系 结构 用 于 集中 
式 和 客户 -服务 器 体系 结构 上 。 本 章 概述 各 种 不 同 的 处 理 过 程 ， 它 们 共同 实现 一 个 数据 库 的 
功能 。 然 后 ， 讲 述 并 行 计算 机 体系 结构 ， 以 及 为 不 同类 型 的 并 行 计算 机 设计 的 并 行 数据 库 体 
系 结构 。 最 后 ， 概 括 建立 分 布 式 数据 库 系统 的 体系 结构 问题 。 

第 18 章 描 述 数 据 库 的 各 种 操作 ( 尤其 是 查询 处 理 ) 是 如 何 实现 以 便 具 有 并 行 处 理 能 力 的 。 

第 19 章 介 绍 分 布 式 数据 库 中 出 现 的 若干 问题 ， 并 描述 如 何 处 理 这 些 问题 。 这 些 问题 包括 
怎样 存储 数据 ， 怎 样 确保 在 多 个 站 点 执行 的 事务 的 原子 性 ， 如 何 执行 并 发 控制 ， 以 及 在 故障 [767] 
发 生 时 如 何 提供 高 可 用 性 。 此 章 还 描述 基于 云 的 数据 存储 系统 、 分 布 式 查询 处 理 以 及 目录 |768) 
系统 。 
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数据 库 系 统 的 体系 结构 受 数据 库 系统 运行 所 在 的 底层 计算 机 系统 的 影响 很 大 ， 尤其 是 受 计算 机 
体系 结构 中 的 联网 、 并 行 和 分 布 这 些 方 面 的 影响 : 
© 计算 机 的 联网 使 得 某 些 任务 在 服务 器 系统 上 执行 ， 而 另 一 些 任务 在 客户 系统 上 执行 。 这 种 工 
作 任 务 的 划分 促使 了 客户 -服务 器 数据 库 系统 的 产生 。 
© 计算 机 系统 中 的 并 行 处 理 能 够 加 速 数据 库 系统 的 活动 ， 使 其 对 事务 做 出 更 快速 的 响应 ， 并 在 
每 秒 内 处 理 更 多 的 事务 。 查 询 能 够 以 一 种 充分 利用 计算 机 系统 提供 的 并 行 能 力 的 方式 来 处 
理 。 对 并 行 查 询 处 理 的 需求 促使 了 并 行 数据 库 系统 的 产生 。 
© 在 一 个 组 织 机 构 的 多 个 站 点 间 对 数据 进行 分 布 ， 可 以 使 得 数据 能 存放 在 产生 它们 或 最 需要 它 
们 的 地 方 ， 而 仍 能 被 其 他 站 点 或 其 他 部 门 访 问 。 在 不 同 站 点 上 保存 数据 库 的 多 个 副本 还 使 得 
大 型 组 织 机 构 甚至 可 以 在 一 个 站 点 受 水 灾 、 火 灾 或 地 震 等 自然 灾害 影响 的 情况 下 仍 能 继续 进 
行 数据 库 操 作 。 分 布 式 数据 库 系 统 用 来 处 理 地 理 上 或 管理 上 分 布 在 多 个 数据 库 系统 中 的 
数据 。 
我 们 在 本 章 研究 数据 库 系 统 的 体系 结构 ， 从 传统 的 集中 式 系 统 开 始 ， 然 后 讨论 客户 - 服务 器 数 
据 库 系统 ， 并 行 数据 库 系统 以 及 分 布 式 数据 库 系统 。 


17.1 集中 式 与 客户 -服务 器 体系 结构 

集中 式 数 据 库 系统 是 运行 在 单 台 计算 机 系统 上 ， 不 与 其 他 计算 机 系统 交互 的 数据 库 系 统 。 这 种 
数据 库 系 统 范围 很 广 ， 既 包括 运行 在 个 人 计算 机 上 的 单 用 户 数 据 库 系统 ， 也 包括 运行 在 高 端 服务 器 
系统 上 的 高 性 能 数据 库 系统 。 另 一 方面 ， 客 户 - 服务 器 系统 在 功能 上 划分 为 一 个 服务 器 系统 和 多 个 
客户 端 系统 。 
17.1.1 集中 式 系统 

现代 通用 的 计算 机 系统 包括 一 到 多 个 处 理 器 ， 以 及 若干 设备 控制 器 ， 它 们 通过 公共 总 线 连接 在 
一 起 ， 提 供 对 共享 内 存 的 访问 (如 图 17-1 所 示 ) 。 处 理 器 具有 本 地 的 高 速 缓冲 存储 器 ， 用 于 存放 主 存储 器 
显示 器 









图 形 适 配器 


图 17-1 集中 式 计算 机 系统 
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中 部 分 数据 的 本 地 拷贝 ， 从 而 加 快 对 数据 的 访问 。 每 个 处 理 器 都 可 能 有 几 个 独立 的 核 (core) ， 每 个 核 
可 以 执行 独立 的 指令 流 。 每 个 设备 控制 器 负责 一 种 特定 类 型 的 设备 (例如 磁盘 驱动 器 、 音 频 设 备 或 视频 
播放 设备 ) 。 处 理 器 和 设备 控制 器 可 以 并 发 工作 ， 它 们 竞争 对 于 主 存储 器 的 访问 。 高 速 缓冲 存储 器 减少 
了 处 理 器 需要 访问 共享 主 存储 器 的 次 数 ， 从 而 减少 了 对 主 存储 器 访问 的 竞争 。 

我 们 将 使 用 计算 机 的 方式 分 为 两 类 : 单 用 户 系统 和 多 用 户 系统 。 个 人 计算 机 和 工作 站 属于 第 一 类 。 
典型 的 单 用 户 系统 ( single-user system ) 是 个 人 使 用 的 桌面 系统 ， 通 常 只 有 一 个 处 理 器 和 一 至 两 张 硬盘 ， 
而 且 通 常 一 次 只 有 一 个 用 户 使 用 计算 机 。 另 一 方面 ， 典 型 的 多 用 户 系 统 ( multiuser system) 有 更 多 的 硬 
盘 和 更 多 的 存储 器 ， 可 能 具有 多 个 处 理 器 。 它 为 大 量 的 与 系统 远程 连接 的 用 户 服务 。 

为 单 用 户 使 用 设计 的 数据 库 系 统一 般 不 提供 多 用 户 数据 库 所 提供 的 许多 特性 。 特 别 地 ， 它 们 不 支 
持 并 发 控制 ， 当 仅 有 一 个 用 户 能 进行 更 新 时 并 发 控制 是 不 需要 的 。 故 障 恢复 支持 在 这 样 的 系统 中 是 不 
存在 的 或 者 是 非常 有 限 的 ， 比 如 可 能 只 是 在 更 新 之 前 简单 地 做 一 个 数据 库 备 份 。 一 些 这 样 的 系统 不 支 
持 SQL， 而 是 提供 一 种 更 简单 的 查询 语言 , 例如 QBE 的 变种 。 比 较 而 言 ， 为 多 用 户 系 统 设计 的 数据 库 [770] 
系统 支持 我 们 在 前 面 学 习 过 的 全 部 事务 特征 。 

虽然 当今 使 用 的 大 多 数 通用 计算 机 系统 有 多 个 处 理 器 ,但 它们 是 粗 粒度 并 行 ( coarse-granularity 
parallelism) 的 ， 只 具有 几 个 处 理 器 (一 般 大 约 2~4 个 ) ， 它 们 共享 一 个 主 存 。 在 这 样 的 机 器 上 运行 的 数 
据 库 一 般 不 会 将 单个 查询 划分 到 多 个 处 理 器 上 ， 而 是 在 每 个 处 理 器 上 运行 一 个 查询 ， 以 允许 多 个 查询 
能 并 发 地 运行 。 因 此 ， 这 样 的 系统 能 提供 更 高 的 吞吐 量 ， 也 就 是 说 ， 尽 管 单个 事务 并 没有 运行 得 更 快 ， 
但 在 每 秒 钟 内 能 运行 更 多 的 事务 。 

为 单 处 理 器 机 器 设计 的 数据 库 已 经 能 够 支持 多 任务 ， 人 允许 多 个 进程 以 分 时 的 方式 在 同一 个 处 理 器 
上 和 运行， 使 用 户 感觉 多 个 进程 在 并 行 地 运行 。 因 此 ， 粗 粒度 并 行 机 在 逻辑 上 看 起 来 和 单 处 理 器 机 是 一 
样 的 ， 为 分 时 计算 机 设计 的 数据 库 系 统 很 容易 就 能 适应 在 其 上 运行 

与 此 相反 ， 细 粒度 并 行 (fine-granularity parallelism) 机 拥有 大 量 的 处 理 器 ,在 这 样 的 机 器 上 运行 的 
数据 库 系统 致力 于 将 用 户 提交 的 单个 任务 (例如 查询 ) 并 行 地 执行 。 我 们 在 17. 3 节 学 习 并 行 数据 库 系统 
的 体系 结构 。 

并 行 性 正在 成 为 未 来 设计 数据 库 系 统 的 一 个 关键 问题 。 虽 然 现 今 具 有 多 核 处理 器 的 计算 机 系统 只 
有 几 个 核 ， 但 是 未 来 的 处 理 器 将 有 大 量 的 核 。 因此， 并 行 数据 库 系 统 ， 这 种 曾 运行 在 特殊 设计 的 硬 
件 上 的 专用 系统 将 成 为 主流 。 

17.1.2 客户 -服务 器 系统 

由 于 个 人 计算 机 变 得 速度 更 快 ， 能 力 更 强 ， 价 格 更 低 ， 因 此 集中 式 系 统 体系 结构 发 生 了 变化 。 连 
接 到 集中 式 系统 的 终端 被 个 人 计算 机 所 替代 。 相 应 地 ， 以 前 由 集中 式 系统 直接 执行 的 用 户 界面 功能 也 
由 个 人 计算 机 来 处 理 。 其 结果 是 ， 集 中 式 系 统 现在 起 到 服务 器 系统 (server system) 的 作用 ， 它 满足 由 客 
户 系统 产生 的 请 求 。 图 17-2 给 出 了 客户 - 服务 器 系统 的 通用 结构 。 











图 17-2 客户 -服务 器 系统 的 通用 结构 


数据 库 系统 提供 的 功能 可 以 大 致 分 为 两 部 分 : 前 端 和 后 端 。 后 端 负 责 存 取 结构 、 查 询 计算 和 优化 、 
并 发 控制 以 及 故障 恢复 。 数 据 库 系 统 的 前 端 包括 SQL 用 户 界面 、 表 格 界 面 、 报 表 生 成 工具 以 及 数据 挖 





o ”其 原因 与 计算 机 体系 结构 的 产 热 和 功 耗 问题 有 关 。 相 对 于 让 处 理 器 速度 显著 加 快 ， 计 算 机 架构 师 正在 利用 芯片 
设计 方面 的 先进 技术 来 把 更 多 的 核 排 布 于 单 块 芯片 上 。 这 一 趋势 可 能 还 要 持续 一 段 时 间 。 
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掘 与 分 析 工 具 ( 参 见 图 17-3)。 前 端 与 后 端 之 间 的 接口 通过 SQL 或 者 应 用 程序 来 实现 。 

我 们 在 第 3 章 看 到 诸如 ODBC 和 JDBC 之 类 的 标准 是 为 客户 端 和 服务 器 的 接口 开发 的 。 使 用 ODBC 
或 DBC 接口 的 任意 客户 端 可 以 连接 到 任意 提供 该 接口 的 服务 器 。 

特定 的 应 用 程序 ， 比 如 电子 数据 表 和 统计 分 析 包 ， 直 接 使 用 客户 - 服务 器 接口 从 后 端 服务 器 访问 
数据 。 实 际 上 ， 它 们 为 特定 的 任务 提供 特殊 的 前 端 。 

正如 我 们 以 前 在 图 1-6( 见 第 1 章 ) 中 所 看 到 的 ， 处 理 大 量 用 户 的 系统 采用 的 是 三 层 体系 结构 ， 其 前 
端 是 Web 浏览 器 ， 它 与 应 用 服务 器 交互 。 应 用 服务 器 实际 上 担当 了 数据 库 服务 器 的 客户 端 。 

一 些 事务 处 理 系统 提供 事务 远程 过 程 调 用 (transactional remote procedure call) 接口 来 把 客户 端 连 
接 到 服务 器 。 这 些 调 用 在 程序 员 看 来 像 普 通 的 过 程 调用 ， 但 是 来 自 一 个 客户 端的 所 有 远程 过 程 调用 
在 服务 器 端 封装 到 一 个 单独 的 事务 中 。 所 以 ， 如 果 事 务 中 止 ， 服 务 器 可 以 撤销 单个 远程 过 程 调用 的 
影响 。 


17.2 服务 器 系统 体系 结构 
”服务 器 系统 可 以 大 致 分 为 事务 服务 器 和 数据 服务 器 两 类 。 


SQL 用 户 接口 表格 接口 报表 生成 工具 


SQL 引擎 后 端 


前 端 








接口 (SQL API) 











772 图 17-3 ”前端 功能 和 后 端 功能 


© 事务 服务 器 ( transaction-server) 系统 也 称 作 查 询 服务 器 (query-server) 系统 ， 它 提供 一 个 接口 ， 使 
得 客户 端 可 以 发 出 执行 一 个 动作 的 请 求 ， 服 务 器 响应 客户 端的 请 求 ， 执 行 该 动作 ， 并 将 结果 送 
回 给 客户 端 。 通 常 ， 客 户 端 机 器 将 事务 传输 到 服务 器 系统 来 执行 ， 然 后 把 结果 返回 到 客户 端 负 
责 显示 数据 。 可 以 用 SQL 表达 请 求 ， 或 者 使 用 特定 的 应 用 程序 接口 。 
数据 服务 器 系统 ( data-server system) 使 得 客户 端 可 以 与 服务 器 交互 ， 以 诸如 文件 或 页 面 这 样 的 
单位 对 数据 进行 读 取 或 更 新 。 例 如 ， 文 件 服务 器 提供 文件 系统 接口 ， 使 客户 端 能 够 进行 文件 的 
创建 、 更 新 、 读 取 和 删除 。 数 据 库 系统 的 数据 服务 器 提供 更 强 的 功能 ， 所 支持 的 数据 单位 比 文 
件 要 小 ， 可 以 是 页 面 、 元 组 或 对 象 。 数 据 服务 器 提供 对 数据 的 索引 机 制 ， 以 及 事务 机 制 ， 事务 
机 制 保证 了 即使 客户 端 机 器 或 进程 发 生 故 障 ， 数据 也 不 会 处 于 不 一 致 状态 。 
Se LAR, 事务 - 服务 器 体系 结构 是 目前 为 止 应 用 最 广泛 的 体系 结构 。17. 2. 1 节 和 17. 2. 2 节 将 对 
事务 服务 器 和 数据 服务 器 体系 结构 进行 详细 描述 。 
17. 2.1 事务 服务 器 
现今 典型 的 事务 服务 器 系统 包括 多 个 在 共享 内 存 中 访问 数据 的 进程 ， 如 图 17-4 所 示 。 组 成 数据 库 
系统 的 进程 包括 以 下 几 类 。 
© 服务 器 进程 (server process); 这 是 接受 用 户 查询 (事务 )、 执 行 查询 并 返回 结果 的 进程 。 查 询 可 
能 是 从 一 个 用 户 接口 ， 或 者 是 从 一 个 运行 嵌入 式 SQL 的 用 户 进程 ,或 者 是 由 JDBC, ODBC 或 
类 似 协 议 提 交 给 服务 器 进程 的 。 一 些 数 据 库 系统 为 每 个 用 户 会 话 使 用 一 个 单独 的 进程 ， 还 有 一 
些 数据 库 系 统 为 所 有 用 户 会 话 使 用 一 个 数据 库 进 程 ， 但 是 使 用 多 线程 使 多 个 查询 并 发 执行 
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(线程 (thread) 类似 于 进程 ， 但 是 多 个 线程 作为 同一 个 进程 的 一 部 分 执行 ， 而 且 一 个 进程 的 所 有 
线程 在 同一 个 虚拟 内 存 空 间 中 运行 。 一 个 进程 的 多 个 线程 可 以 并 发 执行 。) 许 多 数据 库 系 统 使 用 
一 种 混合 的 体系 结构 ， 有 多 个 进程 ， 每 个 进程 运行 多 个 线程 。 

© 锁 管 理 器 进程 (lock manager process); 该 进程 实现 锁 管 理 器 功能 ， 包 括 锁 授予 、 锁 释放 和 死 锁 
检测 。 

© 数据 库 写 进程 (database writer process); 有 一 个 或 者 多 个 进程 用 来 将 修改 过 的 缓冲 块 输出 到 基于 
连续 方式 的 磁盘 中 。 

© 日 志 写 进程 (log writer process); 该 进程 将 日 志 记 录 从 日 志 记 录 缓 冲 区 输出 到 稳定 存储 器 上 。 服 
务 器 进程 简单 地 将 日 志 记 录 添 加 到 在 共享 内 存 中 的 日 志 记 录 缓 冲 区 中 ， 如 果 需 要 强制 输出 日 [773] 
志 ， 就 会 请 求 日 志 写 进程 输出 日 志 记 录 。 

。 检查 点 进程 (checkpoint process) : 该 进程 定期 执行 检查 点 操作 。 

© 进程 监控 进程 (process monitor process); 该 进程 监控 其 他 进程 ,一 旦 有 进程 失败 ， 它 将 为 失败 
进程 执行 恢复 动作 ， 比 如 中 止 失 败 进程 正在 执行 的 所 有 事务 ， 然 后 重新 启动 进程 
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17-4 共享 内 存 和 进程 结构 
共享 内 存 包含 所 有 的 共享 数据 ， 比 如 : 





。 缓冲 池 。 
。 BR. 
。 日 志 缓 冲 区 ， 包 含 待 输 出 到 稳定 存储 器 上 的 日 志 记 录 。 774 











。 高 速 缓存 的 查询 计划 ， 同 一 个 查询 再 次 提交 时 可 以 重用 。 

所 有 数据 库 进程 都 可 以 访问 共享 内 存 中 的 数据 。 由 于 多 个 进程 可 能 读 取 或 更 新 共享 内 存 中 的 数据 
结构 ， 因 此 必须 有 一 种 机 制 来 确保 一 次 最 多 只 有 一 个 进程 来 修改 一 个 数据 结构 ， 而 且 当 一 个 数据 结构 
正在 被 其 他 进程 修改 时 不 能 有 进程 读 该 数据 结构 。 这 种 互 斥 (mutual exclusion ) 可 以 借助 于 称 为 信号 量 
的 操作 系统 功能 来 实现 。 另 一 种 实现 方法 开销 更 小 ， 是 使 用 计算 机 硬件 支持 的 专门 的 原 语 (atomic 
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instruction) ， 有 一 种 类 型 的 原 语 测试 一 个 内 存 位 置 并 自动 将 其 置 1。 有 关 互 斥 的 更 多 实现 细节 可 以 在 任 
意 一 本 标准 的 操作 系统 教科 书 中 找到 。 互 斥 机 制 也 可 用 来 实现 门 锁 。 
为 了 避免 消息 传递 的 开销 ， 在 许多 数据 库 系统 中 ， 服 务 器 进程 通过 直接 更 新 锁 表 (在 共享 内 存 
中 ) 来 实现 封锁 ， 而 不 是 向 锁 管 理 器 进程 发 送 锁 请 求 消息 。 锁 请 求 过 程 执行 锁 管理 器 进程 在 得 到 一 个 
锁 请 求 时 将 采取 的 操作 。 锁 请 求 和 释放 操作 类 似 于 15.1.4 节 中 的 相应 操作 ， 但 是 有 两 个 明显 的 
XH: 
e 由 于 多 个 服务 器 进程 可 以 访问 共享 内 存 ， 因 此 必须 在 锁 表 上 确保 互 斥 存 取 。 
© 如 果 因 为 锁 冲 突 而 不 能 立刻 获得 锁 ， 锁 请 求 代码 可 以 监控 锁 表 以 检查 何 时 可 以 授予 锁 。 锁 释放 
代码 更 新 锁 表 以 标记 出 哪个 进程 已 授予 锁 。 
为 了 避免 重复 检查 锁 表 ， 锁 请 求 代 码 可 以 使 用 操作 系统 信号 量 来 等 待 锁 授 予 通知 ， 而 锁 释 放 代码 
必须 使 用 信和 号 量 机 制 来 通知 等 待 的 事务 : 它们 的 锁 已 经 授予 了 。 
即使 系统 通过 共享 内 存 来 处 理 锁 请 求 ， 它 仍然 也 需要 锁 管 理 器 进程 来 检测 死 锁 。 
17.2.2 ”数据 服务 器 
数据 服务 器 系统 应 用 于 局 域 网 中 ， 其 中 客户 端 与 服务 器 之 间 具 有 高 速 的 连接 ， 客 户 机 在 处 理 能 力 
上 与 服务 器 机 相当 ， 并 且 要 执行 的 任务 是 计算 密集 型 的 。 在 这 样 的 环境 中 ， 有 理由 采用 如 下 的 做 法 : 
把 数据 传送 到 客户 机 ， 在 客户 机 上 进行 所 有 的 处 理 (这 样 的 处 理 可 能 要 花 一 些 时 间 ) ， 然 后 再 把 数据 传 
回 到 服务 器 机 。 请 注意 ， 这 种 体系 结构 需要 将 后 端的 所 有 功能 都 放 到 客户 端 。 在 面向 对 象 数据 库 系 统 
中 数据 服务 器 体系 结构 尤为 常见 ( 见 第 22 章 ) 。 
由 于 客户 端 与 服务 器 之 间 通 信 的 时 间 代 价 与 本 地 存储 器 引用 的 代价 相 比 要 高 得 多 (毫秒 与 不 到 100 
纳 秒 之 比 ) ， 于 是 这 样 的 体系 结构 引出 了 一 些 有 意思 的 问题 : 
© 页 面 传送 (page shipping) 与 项 传送 (item shipping ) 。 数 据 通信 的 单位 可 以 是 粗 粒度 的 ， 例 如 页 
面 ; 也 可 以 是 细 粒 度 的 ， 例 如 元 组 (或 面向 对 象 数据 库 系 统 中 的 对 象 ) 。 我 们 使 用 项 (item ) 这 个 
术语 来 代表 元 组 和 对 象 。 
如 果 通 信 的 单位 是 单个 项 ， 那 么 消息 传送 的 开销 与 待 传输 数据 的 数量 相 比 是 高 的 。 相 反 ， 
当 请 求 一 个 项 时 ， 把 不 久 将 可 能 用 到 的 其 他 项 也 传送 回去 是 有 意义 的 。 将 有 些 项 在 请 求 之 前 就 
取 过 来 称 作 预 读 取 ( prefetching) 。 如 果 多 个 项 驻 留 在 一 页 上 ， 那 么 页 面 传送 也 可 以 看 作 是 一 种 
预 读 取 ， 因 为 当 进 程 要 求 访 问 页 面 上 的 一 个 项 时 ， 该 页 面 上 的 所 有 项 都 将 传送 过 去 。 
。 自 适应 锁 粒度 (adaptive lock granularity) 。 对 于 传送 给 客户 机 的 数据 项 ， 通 常会 由 服务 器 给 它们 
授予 锁 。 页 面 传送 的 一 个 缺点 是 给 予 客户 机 的 封锁 粒度 可 能 太 大 一 一 加 在 页 面 上 的 锁 意 味 着 锁 
住 了 该 页 上 所 有 的 项 。 即 使 客户 端 不 访问 该 页 上 的 某 些 项 ， 它 也 隐 含 地 得 到 了 所 有 预 读 取 项 上 
的 锁 。 其 他 客户 机 对 这 些 项 加 锁 的 请 求 可 能 被 阻止 ,而 这 是 不 必要 的 。 因 此 ， 提 出 了 锁 逐 步 降 
级 ( de-escalation ) 的 技术 ， 即 服务 器 可 以 要 求 其 客户 端 将 预 读 取 项 上 的 锁 传 回来 。 如 果 客 户 机 
不 需要 某 个 预 读 取 的 项 ， 它 就 可 以 把 该 项 上 的 锁 传 回 给 服务 器 ， 然 后 该 锁 就 可 以 分 配给 其 他 客 
户 端 。 
© 数据 高 速 缓冲 存储 (data caching) 。 只 要 有 足够 的 存储 空间 可 用 ， 为 一 个 事务 而 传送 到 客户 端的 
数据 可 以 高 速 缓 存 ( cached) 到 客户 端 ， 即 使 在 该 事务 完成 之 后 。 同 一 个 客户 端 上 的 后 续 事 务 可 
以 使 用 高 速 缓存 的 数据 。 然 而 ， 存 在 一 个 缓存 一 致 性 ( cache coherency) 问题 : 即使 事务 找到 了 
缓存 的 数据 ， 它 还 必须 确认 这 些 数据 是 最 新 的 ， 因 为 在 这 些 数 据 被 高 速 缓存 后 可 能 有 另外 的 客 
户 端 对 它们 进行 过 更 新 。 所 以 ， 仍 然 需要 与 服务 器 交换 一 条 消息 以 检查 数据 的 有 效 性 ， 并 得 到 
该 数据 上 的 锁 。 
© 锁 高 速 缓存 (lock caching) 。 如 果 各 客户 端 对 数据 基本 上 是 分 割 使 用 的 ， 一 个 客户 端 很 少 请 求 其 
他 客户 端 也 需要 的 数据 ， 那 么 锁 也 可 以 高 速 缓存 在 客户 机 中 。 假 设 一 个 客户 端 在 高 速 缓冲 区 中 
找到 了 一 个 数据 项 ， 同 时 在 其 中 找到 了 存 取 该 数据 项 所 需要 的 锁 ， 那 么 不 需要 与 服务 器 通信 就 
可 以 进行 存 取 过 程 。 然 而 ， 服 务 器 必须 跟踪 高 速 缓存 的 锁 : 如 果 一 个 客户 端 向 服务 器 请 求 一 个 
锁 ， 服 务 器 必须 从 那些 缓存 锁 的 客户 机 上 收回 ( call back) 该 数据 项 上 所 有 冲突 的 锁 。 如 果 考 虑 
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到 机 器 故障 的 可 能 性 ， 这 个 任务 就 变 得 更 加 复杂 。 此 技术 与 锁 逐 步 降 级 技术 的 不 同 之 处 在 于 ， 
锁 缓 存 是 跨 事务 的 ， 否 则 ， 这 两 项 技术 就 是 类 似 的 了 。 
文献 注解 提供 了 关于 客户 - 服务 器 数据 库 系统 的 更 多 的 信息 。 
17.2.3 基于 云 的 服务 器 

服务 器 通常 属于 提供 服务 的 企业 ， 但 是 服务 供应 商 至 少 部 分 依赖 于 属于 “第 三 方 " 的 服务 器 的 现象 
正在 成 为 一 种 逐渐 增长 的 趋势 。 该 “第 三 方 ” 既 不 是 客户 也 不 是 服务 供应 商 。 

使 用 第 三 方 服务 器 的 一 种 模式 是 将 整个 服务 外 包 到 另 一 家 公司 ， 这 家 公司 用 自己 的 软件 在 其 自 有 
的 计算 机 上 部 署 服务 。 这 使 得 服务 提供 商 可 以 忽视 大 多 数 技术 细节 并 专注 于 服务 的 营销 。 

男 一 种 使 用 第 三 方 服务 器 的 模式 是 云 计算 (cloud computing) 。 服 务 供应 商 运 行 其 自己 的 软件 ,但 
软件 是 运行 在 另 一 家 公司 提供 的 计算 机 上 。 在 这 种 模式 下 ， 第 三 方 不 提供 的 任何 应 用 软件 ， 它 只 提 
供 机 器 集群 。 这 些 机 器 并 不 是 “真正 "的 机 器 ， 而 是 通过 软件 模拟 的 。 利 用 软件 可 以 让 一 台 真 正 的 计 
算 机 模拟 多 台独 立 的 计算 机 。 这 样 的 模拟 机 称 为 虚拟 机 ( virtual machine) 。 服 务 供应 商 在 这 些 虚拟 机 
上 运行 其 软件 (可 能 包括 数据 库 系统 )。 云 计算 的 一 个 重要 优势 是 服务 供应 商 可 以 根据 需要 添加 机 
器 ， 并 且 当 负载 减轻 时 释放 机 器 。 无 论 在 资金 利用 还 是 能 源 使 用 方面 ， 这 种 模式 都 被 证 明 是 具有 高 
成 本 效益 的 。 

第 三 种 模式 把 云 计算 服务 用 作 数 据 服务 器 ， 这 种 基于 云 的 数据 存储 系统 将 在 19. 9 节 详 细 介绍 。 使 
用 基于 云 存储 的 数据 库 应 用 程序 可 能 运行 在 相同 的 云 ( 即 同一 组 机 器 ) 上 或 者 在 其 他 云 上 。 文 献 注解 提 
供 了 有 关 云 计算 系统 的 更 多 信息 。 


17.3 并行 系统 


并 行 系统 通过 并 行 地 使 用 多 个 处 理 器 和 磁盘 来 提高 处 理 速度 和 IO 速度 。 并 行 计算 机 正 变 得 越 来 
越 普 及 ， 相 应 地 使 得 并 行 数据 库 系统 的 研究 变 得 更 加 重要 。 有 些 应 用 需要 查询 非常 大 型 的 数据 库 (TB 
数量 级 ， 即 10" 字 节 ) ， 有 些 应 用 需要 在 每 秒 钟 里 处 理 很 大 数量 的 事务 ( 每 秒 数 千 个 事务 ) ， 这 些 应 用 的 
需求 推动 了 并 行 数 据 库 系统 的 发 展 。 集 中 式 数 据 库 系统 和 客户 - 服务 器 数据 库 系 统 的 能 力 不 够 强大 ， 
不 足以 处 理 这 样 的 应 用 。 

在 并 行 处 理 中 ,许多 操作 是 同时 执行 的 ， 而 不 是 串 行 处 理 的 ( 即 按 顺 序 执行 各 个 计算 步骤 ) 。 粗 粒 
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& ( coarse-grain ) 并 行 机 由 少量 能 力 强 大 的 处 理 器 组 成 ; 而 大 规模 并 行 ( massive parallel ) 机 或 细 粒 度 并 行 [777 


(fine-grain parallel) 机 使 用 数 千 个 更 小 的 处 理 器 。 当 今 所 有 的 高 端 计算 机 都 提供 了 一 定 程度 的 粗 粒 度 并 
行 性 ， 它 们 至 少 具有 两 个 或 4 个 处 理 器 。 大 规模 并 行 计 算 机 与 粗 粒度 并 行 机 的 区 别 在 于 它 支 持 的 并 行 
程度 要 高 得 多 。 市 场 上 可 以 买 到 具有 数 百 个 处 理 器 和 磁盘 的 并 行 计算 机 。 

对 数据 库 系 统 性 能 的 度量 有 两 种 主要 方式 。(1) Æ (throughput): 在 给 定时 间 段 内 所 能 完成 任 
务 的 数量 。(2) 响应 时 间 (response time) : 单个 任务 从 提交 到 完成 所 需 的 时 间 。 对 于 处 理 大 量 小 事务 的 
系统 ， 通 过 并 行 地 处 理 多 个 事务 可 以 提高 它 的 吞吐 量 。 对 于 处 理 大 事务 的 系统 ， 通 过 并 行 地 执行 每 个 
事务 中 的 子 任务 可 以 缩短 它 的 响应 时 间 ， 同 时 提高 它 的 吞吐 量 。 

17.3.1 加 速 比 和 扩展 比 

并 行 性 研究 中 的 两 个 重要 问题 是 加 速 比 和 扩展 比 。 通 过 增加 并 行 度 在 更 短 的 时 间 内 运行 一 个 给 定 
的 任务 称 为 加 速 比 (speedup) 。 通 过 增加 并 行 度 来 处 理 更 大 的 任务 称 为 扩展 比 (scaleup ) 。 

考虑 一 个 在 具有 一 定数 量 的 处 理 器 和 磁盘 的 并 行 系统 上 运行 的 数据 库 应 用 。 现 在 假设 我 们 通过 增 
加 处 理 器 、 磁 盘 以 及 系统 其 他 部 件 的 数量 来 扩大 系统 规模 。 目 标 是 使 处 理 任 务 所 需 的 时 间 与 所 分 配 的 
处 理 器 和 磁盘 的 数量 成 反比 。 假 设 在 较 大 机 器 上 执行 一 项 任务 的 时 间 是 元， 在 较 小 机 器 上 执行 相同 任 
务 的 时 间 是 7,。 由 于 并 行 性 而 获得 的 加 速 比 定义 为 7;/T,。 当 较 大 系统 拥有 的 资源 (处理 器 、 人 磁盘 等 ) 
是 较 小 系统 的 资源 的 NN 倍 时 ， 如 果 获 得 的 加 速 比 是 N， 那么 称 该 并 行 系统 实现 了 线性 加 速 比 (linear 
speedup) 。 如 果 获 得 的 加 速 比 小 于 N， 则 称 该 系统 实现 了 亚 线性 加 速 比 ( sublinear speedup)。 图 17-5 Hi 
述 了 线性 和 亚 线 性 的 加 速 比 。 
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线性 加 速 比 






亚 线性 加 速 比 


速度 一 一 > 





> 


资源 一 一 > 
17-5 资源 增加 时 的 加 速 比 


扩展 比 指 的 是 通过 提供 更 多 资源 ， 在 相同 时 间 内 处 理 更 大 任务 的 能 力 。 令 0 是 一 个 任务 ，Q， 是 一 
个 比 @ 大 六 倍 的 任务 。 假 设 Q 在 给 定 机 器 村 ;上 的 执行 时 间 是 7;， 任务 Oy TELE My KN ARIF AT BL A 
M, 上 的 执行 时 间 是 7,。 于 是 扩展 比 定义 为 7;/T,。 如 果 7T, =7;， 则 称 并 行 系统 M, 在 任务 O 上 实现 了 
线性 扩展 比 (linear scaleup)。 如 果 T, > 7,;， 则 称 系 统 实现 了 亚 线 性 扩展 比 (sublinear scaleup)。 图 176 
描述 了 线性 和 亚 线 性 的 扩展 比 (其 中 的 资源 随 问 题 规模 成 比例 增长 )。 依 赖 于 度量 任务 规模 的 方法 的 不 
同 ， 在 并 行 数据 库 系 统 中 有 两 种 类 型 的 相关 扩展 比 : 





| 线性 扩展 比 
Ts 
Tr, 
亚 线性 扩展 比 
问题 规模 一 一 > 


图 17-6 ”问题 规模 和 资源 增加 时 的 扩展 比 


。 批量 型 扩展 比 (batch scaleup)。 在 这 种 扩展 比 中 ， 数据库 规 模 增 大 ， 而 任务 是 那些 运行 时 间 依 
赖 于 数据 库 规模 的 大 型 工作 。 这 种 工作 的 一 个 例子 是 : 扫描 一 个 其 规模 与 数据 库 规 模 成 正比 的 
关系 。 于 是 ,数据库 规模 可 以 作为 问题 规模 的 度量 。 批 量 型 扩展 比 也 应 用 于 科学 应 用 ,例如 ， 
执行 N 倍 精细 度 的 查询 ,或 进行 N 倍 长 度 的 模拟 。 
。 事务 型 扩展 比 (transaction scaleup) 。 在 这 种 扩展 比 中 ， 数 据 库 事务 提交 率 增长 ， 并 且 数 据 库 规 
模 增 长 与 事务 提交 率 增长 成 正比 。 这 类 扩展 比 适 用 于 事务 是 小 更 新 类 的 那 种 事务 处 理 系 统 ， 例 
如 银行 账户 的 存款 和 取款 ， 而 且 创 建 的 账户 越 多 ， 事 务 的 提交 率 就 越 高 。 这 种 事务 处 理 特别 适 
合 于 并 行 执行 ， 因 为 事务 可 以 在 不 同 的 处 理 器 上 并 发 与 相互 独立 地 运行 ， 而 且 即 使 数据 库 规模 
增 大 了 ， 每 个 事务 也 大 致 耗费 同样 多 的 时 间 。 
扩展 比 通常 是 度量 并 行 数 据 库 系统 效率 更 重要 的 标准 。 数 据 库 系统 中 引入 并 行 性 的 目的 通常 是 为 
了 保证 即使 在 数据 库 规模 和 事务 数量 增长 时 ， 数 据 库 系统 仍 能 以 可 接受 的 速度 运行 。 通 过 提高 并 行 性 
来 增强 系统 能 力 ， 为 企业 的 增长 提供 了 一 条 更 平稳 的 路 线 ， 这 比 用 速度 更 快 的 机 器 (即使 假设 有 这 样 的 
机 器 存在 ) 来 替换 集中 式 系 统 要 好 。 然 而 ， 在 使 用 扩展 比 进行 度量 时 ， 我 们 还 必须 关心 绝对 性 能 数目 : 
具有 线性 扩展 比 的 机 器 可 能 比 没 达 到 线性 扩展 比 的 机 器 执行 效果 差 ， 原 因 很 简单 ， 后 者 从 一 开始 就 要 
快 得 多 。 
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有 若干 因素 影响 并 行 操作 的 效率 ， 并 且 可 能 同时 降低 加 速 比 与 扩展 比 。 

© 启动 代价 (start-up cost) 。 存 在 与 单个 进程 初始 化 相关 的 启动 代价 。 在 包括 数 以 千 计 的 进程 的 并 
行 操作 中 ， 启 动 时 间 可 能 掩盖 实际 的 处 理 时 间 ， 降 低 加 速 比 。 

© 干扰 (interference) 。 由 于 在 并 行 系统 中 执行 的 进程 经 常 需要 访问 共享 资源 ， 因 此 在 每 个 新 进程 
与 原 有 进程 竞争 共享 资源 (例如 系统 总 线 、 共 享 硬盘 ， 甚 至 锁 ) 时 ， 就 会 发 生 干 拢 ， 使 速度 下 
降 。 这 种 现象 会 同时 影响 加 速 比 和 扩展 比 。 

© 偏 斜 (skew) 。 我 们 通过 将 单个 任务 分 解 为 多 个 并 行 的 步骤 来 减 小 平均 步 又 的 规模 。 然 而 ， 最 慢 
的 那个 步骤 的 服务 时 间 将 决定 整个 任务 的 服务 时 间 。 通 常 很 难 将 一 个 任务 分 解 为 规模 完全 相等 
的 多 个 部 分 ， 因 而 规模 分 配 的 方式 常常 是 偏 儿 的 。 例 如， 如 果 将 规模 为 100 的 任务 分 成 10 个 
部 分 ， 并 且 分 解 是 偏 斜 的 ， 则 有 可 能 有 些 任务 的 规模 小 于 10， 而 另 一 些 任务 的 规模 大 于 10; 
即使 有 一 个 任务 的 规模 刚好 是 20， 并 行 地 运行 这 些 任务 所 得 到 的 加 速 比 也 只 能 是 5， 而 不 是 我 
们 所 期 望 的 10。 

17. 3.2 互连网 络 

并 行 系统 包括 一 套 组 件 (处 理 器 、 存 储 器 和 磁盘 ) ， 这 些 组 件 之 间 通 过 互连网 络 interconnection 

network ) 相互 通信 。 图 17-7 显示 了 三 种 普遍 使 用 的 互连网 络 类 型 : 

。 总 线 (bus) 。 所 有 系统 组 件 可 以 通过 一 条 单独 的 通信 和 总 线 来 发 送 和 接收 数据 。 这 种 互 连 形式 如 
图 17-7a 所 示 。 总 线 可 以 是 以 太 网 或 并 行 互 连 。 总 线 结构 非常 适合 只 有 少量 处 理 器 的 情况 。 然 
而 ， 它 并 不 能 随 着 并 行 度 增 大 而 很 好 地 进行 扩展 ， 因 为 总 线 在 同一 时 间 只 能 处 理 来 自 一 个 组 件 
的 通信 。 

© 网 格 (mesh) 。 组 件 作为 网 格 中 的 结 点 ， 每 个 组 件 都 和 网 格 中 它 的 所 有 邻接 组 件 相 连接 。 在 二 维 
网 格 中 ， 每 个 结 点 与 4 个 邻接 结 点 相连 接 ;而 在 三 维 网 格 中 ， 每 个 结 点 与 6 个 邻接 结 点 相连 [780 | 
接 。 图 17-7b 显示 了 一 个 二 维 网 格 。 没 有 直接 连接 的 结 点 间 的 相互 通信 可 以 通过 将 消息 经 由 一 
系列 直接 互 连 的 中 间 结 点 来 传送 的 方式 进行 。 随 着 组 件数 目的 增加 ， 通 信 链 的 数目 也 随 之 增 
大 ， 因 此 当 并 行 度 增 大 时 ， 网 格 的 通信 能 力 能 更 好 地 扩展 。 

© 超 立 方 体 (hypercube) 。 系 统 组 件 按 二 进 制 编号 ， 如 果 两 个 组 件 编号 的 二 进 制 表示 正好 相差 1 
位 ， 那么 它们 之 间 是 相互 连接 的 。 于 是 ,n 个 组 件 中 的 每 一 个 将 与 log(n) 个 其 他 组 件 相连 接 。 
图 17-7c 显示 了 有 8 个 结 点 的 一 个 超 立 方 体 。 在 超 立 方 体 互 连 中 ， 每 个 组 件 发 出 的 消息 至 多 经 
由 log(n) 个 链接 就 可 以 到 达 任 何其 他 组 件 。 比 较 而 言 ， 在 网 格 架 构 中 ,一 个 组 件 与 男 一 个 组 件 
的 距离 可 能 是 2( Yn -1) 个 链接 。( 如 果 网 格 互 连 在 网 格 的 边缘 进行 绕 接 ， 那么 距离 可 能 是 Vn 
个 链接 )。 因 此 ， 超 立方 体 中 的 通信 延迟 显著 低 于 网 格 。 


a) 总 线 b ) 网 格 
图 17-7 互连网 络 





17.3.3 并行 数据 库 体 系 结构 

并 行 机 器 有 若干 种 体系 结构 模型 。 图 17-8 所 示 的 是 其 中 最 重要 的 几 种 。( 在 图 17-8 中 ，M 表示 主 
存储 器 ，P 表示 处 理 器 ， 圆 柱 体 表 示 磁 盘 。) 

e 共享 内 存 (shared memory), 。 所 有 处 理 器 共享 一 个 公共 的 主 存储 器 ( 见 图 17-8a) . 
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。 共享 硬盘 ( shared disk) 。 所 有 处 理 器 共享 一 组 公共 的 磁盘 ( 见 图 17-8b) 。 共 享 硬盘 系统 有 时 又 
称 作 集群 (cluster) 。 

。 无 共享 (shared nothing) 。 各 处 理 器 既 不 共享 公共 的 主 存储 器 ， 又 不 共享 公共 的 磁盘 ( 见 图 17-80) . 

e 层次 的 (hierarchical) 。 这 种 模型 是 前 三 种 体系 结构 的 混合 ( 见 图 17-8d) 。 

17.3.3.1 ~17. 3. 3.4 节 对 这 些 模 型 逐一 进行 详细 讨论 。 





d) 层次 的 
图 17-8 并行 数 据 库 体 系 结构 


数据 服务 器 系统 上 用 来 加 速 事务 处 理 的 技术 ， 比 如 17. 2. 2 节 概 述 的 数据 和 锁 高 速 缓冲 存储 以 及 锁 
逐步 降级 ， 都 可 以 用 在 共享 硬盘 的 并 行 数据 库 和 无 共享 的 并 行 数据 库 中 。 事 实 上 ， 它 们 对 于 在 这 样 的 
系统 中 高 效 地 进行 事务 处 理 是 非常 重要 的 。 

17.3.3.1 共享 内 存 

在 共享 内 存 (shared-memory ) 体系 结构 中 ， 处 理 器 和 磁盘 通过 总 线 或 互连网 络 来 访问 一 个 公共 的 主 
存储 器 。 共 享 内 存 的 优点 在 于 处 理 器 之 间 的 通信 效率 极 高 ， 存 放 在 共享 内 存 中 的 数据 可 以 被 任何 处 理 
器 访问 ， 而 不 需要 由 软件 来 移动 。 一 个 处 理 器 可 以 通过 往 内 存 中 写 ( 这 通常 只 需要 不 到 一 微 秒 的 时 间 ) 
的 办 法 来 向 其 他 处 理 器 传送 消息 ， 比 通过 通信 机 制 来 传递 消息 要 快 得 多 。 共 享 内 存 机 器 的 缺点 是 这 种 
体系 结构 的 规模 不 能 超过 32 个 或 64 个 处 理 器 ， 因 为 总 线 或 互连网 络 会 变 成 瓶颈 (因为 它 是 所 有 处 理 器 
共享 的 ) 。 到 达 某 一 个 点 之 后 ， 增 加 更 多 的 处 理 器 也 没有 什么 帮助 ， 因 为 各 个 处 理 器 会 将 其 大 多 数 时 间 
花 在 等 待 占用 总 线 去 访问 主 存储 器 上 。 

共享 内 存 体 系 结构 通常 在 每 个 处 理 器 上 有 很 大 的 高 速 缓冲 存储 器 ， 从 而 尽量 减少 对 共享 内 存 的 访 
问 。 然 而 ， 至 少 有 一 些 数据 不 在 高 速 缓冲 存储 器 中 ， 必 须 对 共享 内 存 进行 访问 。 而 且 ， 这 些 高 速 缓冲 
存储 器 必须 保持 一 致 。 即 ， 如 果 一 个 处 理 器 对 某 一 内 存 位 置 执行 写 操作 ， 则 必须 从 每 个 缓存 该 数据 的 
处 理 器 中 更 新 或 者 是 删除 这 个 数据 。 保 持 高 速 缓存 一 致 性 的 开销 将 随 着 处 理 器 数目 的 增加 而 上 升 。 因 
此 ， 共 享 内 存 机 器 的 规模 扩大 不 能 超过 某 一 个 点 ; 当前 共享 内 存 机 器 不 能 支持 多 于 64 个 处 理 器 。 

17.3.3.2 共享 硬盘 

在 共享 硬盘 (shared-disk ) 模型 中 ， 所 有 处 理 器 都 可 以 通过 互联 网 络 直接 访问 所 有 磁盘 ， 但 是 每 个 
处 理 器 有 自己 私有 的 内 存 。 与 共享 内 存 体系 结构 相 比 ， 共 享 硬盘 体系 结构 有 两 个 优点 : 第 一 ， 由 于 每 
个 处 理 器 有 自己 的 主 存储 器 ， 因 此 存储 器 总 线 就 不 再 是 瓶颈 了 ; 第 二 ， 这 种 体系 结构 给 出 了 一 种 经 济 
的 方法 来 提供 一 定 程度 的 容错 性 (fault tolerance); 如 果 一 个 处 理 器 (或 它 的 主 存储 器 ) 发 生 故 障 ， 其 他 
处 理 器 可 以 代替 它 的 工作 ,这 是 因为 数据 库 驻 留 在 磁盘 上 ， 而 磁盘 是 所 有 处 理 器 都 可 以 访问 的 。 我 们 
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可 以 通过 使 用 第 10 章 介绍 的 RAID 体系 结构 来 使 得 磁盘 子 系统 自身 是 容错 的 。 在 许多 应 用 中 共享 硬盘 
体系 结构 是 可 接受 的 。 

共享 硬盘 系统 的 主要 问题 也 是 可 扩展 性 。 虽 然 存 储 器 总 线 不 再 是 瓶颈 了 ， 但 与 磁盘 子 系统 互 连 现 
在 成 为 了 瓶颈 ; 尤其 在 数据 库 对 磁盘 进行 大 量 访问 的 情况 下 更 是 这 样 。 与 共享 内 存 系统 相 比 ， 共 享 硬 
盘 系 统 中 处 理 器 的 数目 可 以 更 大 一 些 ， 但 是 处 理 器 之 间 的 通信 要 通过 通信 网 络 ， 所 以 速度 要 慢 一 些 ( 在 
没有 专用 通信 硬件 的 情况 下 会 达到 几 毫 秒 )。 

17.3;33 AAF 

在 无 共享 ( shared-nothing) 系统 中 ， 机 器 的 每 个 结 点 包括 一 个 处 理 器 、 一 个 内 存 ， 以 及 一 张 或 
多 张 磁盘 。 一 个 结 点 上 的 处 理 器 可 以 通过 高 速 互 连 网 络 与 另 一 个 结 点 上 的 另 一 个 处 理 器 通信 。 一 
个 结 点 作为 该 结 点 所 拥有 的 磁盘 上 的 数据 的 服务 器 来 运作 。 由 于 本 地 磁盘 访问 由 各 个 处 理 器 的 本 
地 磁盘 提供 ， 因 此 无 共享 模型 克服 了 所 有 的 VO 都 需要 通过 同一 个 互连网 络 的 缺点 ， 只 有 访问 非 
本 地 磁盘 的 查询 及 其 结果 关系 才 需 要 通过 网 络 传送 。 而 且 ， 无 共享 系统 中 的 互连网 络 通常 设计 成 
可 扩展 的 ， 使 得 当 更 多 结 点 加 入 时 ， 其 传输 能 力也 随 之 增强 。 因 此 ， 无 共享 体系 结构 更 具 可 扩展 
性 ， 而 且 可 以 很 容易 地 支持 大 量 的 处 理 器 。 无 共享 系统 的 主要 缺点 是 通信 的 代价 和 非 本 地 磁盘 访 
问 的 代价 ， 这 些 代 价 比 共享 内 存 或 共享 硬盘 体系 结构 中 的 代价 要 高 ， 因 为 数据 传送 涉及 两 端的 软 
件 交 互 。 

17.3.3.4 层次 的 

层次 的 体系 结构 (hierarchical architecture ) 综合 了 共享 内 存 、 共 享 硬盘 和 无 共享 体系 结构 的 特点 。 
在 最 上 层 ， 系 统 由 通过 互连网 络 连 接 起 来 的 若干 个 结 点 组 成 ， 这 些 结 点 之 间 互 不 共享 硬盘 或 主 存储 器 ， 
因此 最 上 层 是 一 种 无 共享 的 体系 结构 。 系 统 的 每 个 结 点 实际 上 可 以 是 具有 少量 处 理 器 的 共享 内 存 系统 。 
或 者 ， 每 个 结 点 可 以 是 一 个 共享 硬盘 的 系统 ， 而 且 共 享 一 组 硬盘 的 系统 中 的 每 一 个 又 可 以 是 一 个 共享 
内 存 的 系统 。 因 此 ， 一 个 系统 可 以 构造 成 层次 的 ， 其 底层 是 具有 少量 处 理 器 的 共享 内 存 的 体系 结构 ， 
其 顶层 是 无 共享 的 体系 结构 ， 也 许 中 间 层 是 共享 硬盘 的 体系 结构 。 图 17-8d 描述 了 一 个 层次 的 体系 结 
构 ， 它 具有 若干 个 共享 内 存 的 结 点 ， 通 过 无 共享 的 体系 结构 连接 在 一 起 。 当 今 的 商用 并 行 数据 库 系统 
运行 在 几 种 这 样 的 体系 结构 之 上 。 

为 了 降低 这 样 的 系统 的 程序 设计 复杂 性 ,产生 了 分 布 式 虚 拟 存储 器 (distributed virtual-memory ) 体系 
结构 ， 这 样 的 体系 结构 中 逻辑 上 有 一 个 共享 的 主 存储 器 ， 但 物理 上 有 多 个 互 不 相交 的 主 存储 器 系统 ; 
虚拟 存储 器 映射 硬件 与 系统 软件 的 配合 使 得 每 个 处 理 器 可 以 将 这 些 互 不 相交 的 主 存储 器 看 成 是 一 个 单 
一 的 虚拟 主 存储 器 。 由 于 访问 速度 依赖 于 页 面 是 否 在 本 地 而 不 同 ， 因 此 这 样 的 体系 结构 也 称 为 非 一 致 
性 内 存 体 系 结构 (NonUniform Memory Architecture, NUMA) 。 


17.4 分 布 式 系统 


在 分 布 式 数据 库 系 统 (distributed database system) 中 ， 数 据 库存 储 在 几 台 计 算 机 中 。 分 布 式 系统 中 
的 计算 机 之 间 通 过 诸如 高 速 私 有 网 络 或 因特网 那样 的 通信 媒介 相互 通信 。 它 们 不 共享 主 存储 器 或 磁盘 
分 布 式 系统 中 的 计算 机 在 规模 和 功能 上 是 可 变 的 ， 小 到 工作 站 ， 大 到 大 型 机 系统 ， 

对 于 分 布 式 系统 中 的 计算 机 有 多 种 不 同 的 称呼 ， 例 如 站 点 ( site ) 或 结 点 (node) ， 取 决 于 提 及 它们 时 
的 上 下 文 。 我 们 主要 采用 站 点 (site) 这 个 术语 ， 以 强调 这 些 系统 的 物理 分 布 。 分 布 式 系统 的 通用 结构 如 
图 17-9 所 示 。 

无 共享 并 行 数据 库 与 分 布 式 数 据 库 之 间 的 主要 区 别 在 于 ， 分 布 式 数 据 库 一 般 是 地 理 上 分 离 的 ， 分 
别管 理 的 ， 并 且 互 连 速度 更 低 。 另 一 个 主要 区 别 是 : 在 分 布 式 数据 库 系统 中 ， 我 们 将 事务 区 分 为 局 部 
事务 和 全 局 事务 。 局 部 事务 ( local transaction) 是 仅 访问 在 发 起 事务 的 那个 站 点 上 的 数据 的 事务 。 另 一 方 
面 ， 全 局 事务 ( global transaction) 或 者 访问 发 起 事务 的 站 点 之 外 的 某 个 站 点 上 的 数据 ， 或 者 访问 几 个 不 
同 站 点 上 的 数据 。 

建立 分 布 式 数据 库 系 统 有 几 个 原因 ， 包 括 数据 共享 、 自 治 性 和 可 用 性 。 
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图 17-9 ”分布 式 系统 


© 数据 共享 (sharing data) 。 建 立 分 布 式 数据 库 系统 的 主要 优点 是 ， 它 提供 了 一 个 环境 使 一 个 站 
点 上 的 用 户 可 以 访问 存放 在 其 他 站 点 上 的 数据 。 例 如 ， 在 一 个 分 布 式 大 学 系统 中 ， 每 个 校区 
存储 与 该 校区 相关 的 数据 。 一 个 校区 的 用 户 可 以 访问 另 一 个 校区 的 数据 。 如 果 没 有 这 种 能 
H, 那么 要 把 学 生 记录 从 一 个 校区 传送 到 另 一 个 校区 ， 就 需要 借助 于 与 现 有 系统 相互 关联 的 
外 部 机 制 。 

。 自治 性 (autonomy) 。 通 过 数据 分 布 的 方式 来 共享 数据 的 主要 优点 在 于 ， 每 个 站 点 可 以 对 本 地 
存储 的 数据 保持 一 定 程度 的 控制 。 在 集中 式 系 统 中 ， 中 心 站 点 的 数据 库 管理 员 对 数据 库 进 行 
控制 。 在 分 布 式 系统 中 ， 有 一 个 全 局 数据 库 管理 员 负 责 整个 系统 。 有 一 部 分 职责 被 委派 给 每 
个 站 点 的 本 地 数据 库 管理 员 。 每 个 管理 员 可 以 有 不 同 程度 的 局 部 自治 (local autonomy) ， 其 程 
度 的 不 同 依赖 于 分 布 式 数据 库 系统 的 设计 。 可 以 进行 本 地 自治 通常 是 分 布 式 数据 库 的 一 个 主 
要 优势 。 

e 可 用 性 (availability) 。 在 分 布 式 系统 中 ， 如 果 一 个 站 点 发 生 故障 ， 其 他 站 点 可 能 还 能 继续 运行 。 
特别 地 ， 如 果 数 据 项 在 几 个 站 点 上 进行 了 复制 (replicate ) ， 需 要 某 个 特定 数据 项 的 事务 可 以 在 
这 几 个 站 点 中 的 任何 一 个 上 找到 该 数据 项 。 于 是 ， 一 个 站 点 的 故障 不 一 定 意 味 着 整个 系统 停止 
运转 。 

系统 必须 能 检测 到 一 个 站 点 发 生 了 故障 ， 并 需要 采取 适当 的 动作 来 从 故障 中 恢复 。 系 统 不 能 再 使 
用 故障 站 点 的 服务 。 最 后 ， 当 故障 站 点 恢复 了 或 修复 好 了 ， 还 需要 有 一 定 的 机 制 来 将 它 平 滑 地 重新 集 
成 到 系统 中 。 

虽然 分 布 式 系统 的 故障 恢复 比 集中 式 系统 更 复杂 ， 但 分 布 式 系统 中 即使 一 个 站 点 发 生 了 故障 ， 系 
统 的 绝 大 部 分 还 能 继续 运行 ， 这 一 能 力 使 系统 的 可 用 性 大 大 增强 。 对 用 于 实时 应 用 的 数据 库 系统 来 说 ， 
可 用 性 是 至 关 重 要 的 。 例 如 ， 如 果 不 能 对 航班 数据 进行 访问 ， 将 导致 潜在 的 机 票 购买 者 流失 到 竞争 对 
手 那里 去 了 。 

17.4.1 分 布 式 数据 库 示 例 

考虑 一 个 银行 系统 ， 它 有 4 家 支行 ， 位 于 4 个 不 同 的 城市 。 每 家 支行 有 自己 的 计算 机 ， 有 维护 该 
分 行 所 有 账户 的 数据 库 。 每 个 这 样 的 配置 称 作 一 个 站 点 。 另 外 还 有 一 个 站 点 维护 关于 该 银行 的 所 有 支 
行 信 息 。 

为 说 明 站 点 上 两 类 事务 的 差异 ( 局 部 的 和 全 局 的 ) ， 考 虑 如 下 事务 : 给 位 于 Valleyview 支行 的 账户 
A-177 中 增加 50 美元 。 如 果 在 Valleyview 支行 发 起 该 事务 ， 那 么 它 是 一 个 局 部 事务 ;否则 ， 它 就 是 一 
个 全 局 事务 。 将 50 美元 从 账户 A-177 转 到 Hillside 支行 中 的 账户 A-305 的 事务 是 一 个 全 局 事务 ， 因 为 
事务 的 执行 要 访问 两 个 不 同 站 点 上 的 账户 。 
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在 一 个 理想 化 的 分 布 式 数据 库 系统 中 ， 站 点 将 共享 一 个 公共 的 全 局 模式 (尽管 有 些 关 系 可 能 只 存 
放 在 其 中 某 些 站 点 上 ) ， 所 有 站 点 运行 相同 的 分 布 式 数据 库 管理 软件 ， 而 且 各 个 站 点 互相 知道 对 方 的 存 
在 。 如 果 从 头 开始 创建 一 个 分 布 式 数据 库 ， 它 确实 有 可 能 达到 上 述 目标 。 然 而 ， 现 实 中 分 布 式 数 据 库 
需要 通过 连接 多 个 已 存在 的 数据 库 系统 来 构造 ， 每 个 数据 库 都 有 自己 的 模式 而 且 可 能 运行 不 同 的 数据 
库 管理 软件 。 这 样 的 系统 有 时 称 作 多 数据 库 系 统 (multidatabase system ) 或 异 构 分 布 式 数据 库 系 统 
(heterogeneous distributed database system)。19. 8 节 将 讨论 这 些 系统 ， 给 出 在 作为 组 成 成 分 的 各 个 系统 
异 构 的 情况 下 ， 如 何 达 到 一 定 程度 的 全 局 控制 。 

17. 4.2 实现 问题 

在 构建 分 布 式 数 据 库 系统 时 ， 事 务 的 原子 性 是 个 重要 问题 。 如 果 一 个 事务 在 两 个 站 点 上 运行 ， 除 
非 系统 设计 者 非常 小 心 ， 否 则 它 可 能 在 一 个 站 点 上 提交 而 在 另 一 个 站 点 上 中 止 ， 导 致 不 一 致 状态 。 一 
些 事务 提交 协议 确保 这 种 情况 不 会 出 现 。 两 阶段 提交 (Two-Phase Commit, 2PC) 协 议 是 这 些 协议 中 应 用 
最 广泛 的 协议 。 

2PC 的 基本 思想 是 每 个 站 点 将 事务 执行 到 部 分 提交 状态 ， 然 后 将 提交 决定 权 交 给 一 个 单独 的 协调 
站 点 ， 事 务 这 一 时 刻 在 该 站 点 上 称 为 处 于 准备 状态 。 仅 当 该 事务 在 每 个 执行 它 的 站 点 上 均 达 到 准备 状 
态 时 ， 协 调 站 点 才 决 定 提 交 该 事务 。 和 否则 (例如 ， 如 果 事 务 在 任 一 个 站 点 上 中 止 ) ， 协 调 站 点 会 决定 中 
止 该 事务 。 每 个 执行 该 事务 的 站 点 必须 遵循 协调 站 点 的 决定 。 如 果 当 事务 处 于 准备 状态 时 一 个 站 点 发 
生 故 障 ， 当 该 站 点 从 故障 状态 恢复 时 它 必 须 处 于 一 个 状态 一 一 提交 或 中 止 该 事务 ， 这 取决 于 协调 站 点 
的 决定 。2PC 协议 将 在 19.4.1 节 详 细 描 述 。 

并 发 控制 是 分 布 式 数据 库 的 另 一 个 问题 。 由 于 一 个 事务 可 以 访问 分 布 在 几 个 站 点 上 的 数据 项 ， 因 
此 这 几 个 站 点 上 的 事务 管理 器 可 能 需要 协调 以 实现 并 发 控制 。 如 果 用 到 锁 ( 现实 中 经 常会 遇 到 的 ) ， 则 
可 以 在 包含 被 访问 数据 项 的 站 点 上 局 部 地 执行 封锁 ， 然 而 可 能 会 发 生 涉及 由 多 个 站 点 发 起 的 事务 的 死 
锁 。 所 以 死 锁 检测 必须 跨越 多 个 站 点 。 分 布 式 系统 中 更 容易 发 生 故 障 ， 因 为 不 仅仅 是 计算 机 可 能 出 现 
故障 ， 而 且 通 信和 链 路 也 可 能 发 生 故 障 。 当 故障 发 生 时 ， 数 据 项 的 复制 是 分 布 式 数据 库 继 续 运转 的 关键 
可 是 复制 使 得 并 发 控制 更 加 复杂 。19. 5 节 提 供 有 关 分 布 式 数据 库 中 并 发 控制 的 详细 介绍 。 

基于 单个 程序 单元 执行 多 个 动作 的 标准 事务 模型 ， 常 常 不 适合 执行 跨越 多 个 数据 库 边 界 的 任务 ， 
这 些 数据 库 不 能 或 不 打算 合作 实现 诸如 2PC 那样 的 协议 。 有 另 一 种 方法 通常 用 于 这 类 任务 ， 其 他 基于 
用 于 通信 的 持久 消息 (persistent messaging)( 用 于 通信 ) 的 方法 一 般 用 于 这 类 任务 中 。 持 久 消 息 在 19.4.3 
节 进 行 讨 论 。 

当 要 执行 的 任务 很 复杂 ， 涉 及 多 个 数据 库 和 /或 与 人 有 多 次 交互 时 ， 任务 的 协调 以 及 为 任务 确保 事 
务 的 属性 就 变 得 更 加 复杂 。 工 作 流 管 理 系 统 (workflow management system ) 就 是 为 执行 这 类 任务 而 设计 
的 。26. 2 节 讲 述 了 工作 流 管理 系统 。 

当 某 个 组 织 机 构 为 了 实现 一 个 应 用 而 必须 在 分 布 式 体系 结构 和 集中 式 体 系 结构 之 间 做 出 选择 时 ， 
系统 架构 师 必 须 平衡 将 数据 进行 分 布 的 优点 和 缺点 。 我 们 已 经 看 到 使 用 分 布 式 数 据 库 的 优点 。 分 布 式 
数据 库 系 统 的 主要 缺点 是 为 保证 各 站 点 间 的 正确 协作 而 增加 的 复杂 性 。 这 种 增加 的 复杂 性 表现 为 几 种 
形式 : 

© 软件 开发 代价 ( software-development cost) 。 实 现 一 个 分 布 式 数据 库 系 统 要 更 加 困难 ， 因 此 ， 代 价 

更 高 。 

e 更 大 的 出 错 可 能 性 ( greater potential for bug) 。 由 于 构成 分 布 式 系统 的 各 个 站 点 并 行 地 运行 ， 因 
此 更 难以 保证 算法 的 正确 性 ， 尤 其 是 当 系 统 的 一 部 分 发 生 故障 时 的 运行 ， 以 及 从 故障 中 的 恢 
复 。 有 可 能 存在 非常 微妙 的 错误 。 

© 增加 的 处 理 开 销 (increased processing overhead) 。 消 息 的 交换 以 及 为 了 达到 站 点 间 的 协作 而 需要 
的 附加 计算 ， 这 些 是 集中 式 系统 中 所 没有 的 开销 。 

分 布 式 数据 库 设计 的 方法 有 好 几 种 ， 可 以 是 完全 分 布 式 设计 ， 也 可 以 是 有 很 大 限度 集中 的 设计 。 
我 们 将 在 第 19 章 学 习 这 些 方法 。 
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17.5 网 络 类 型 


分 布 式 数据 库 和 客户 - 服务 器 系统 的 建立 都 以 通信 网 络 为 基础 。 有 两 种 基本 的 网 络 类 型 : 局 域 网 
(local-area network ) 和 广域网 ( wide-area network) 。 两 者 的 主要 区 别 在 于 它们 的 地 理 分 布 方式 不 同 。 局 域 
网 由 在 小 的 地 理 范围 ( 例如 单个 建筑 物 或 几 个 相 邻 的 建筑 物 ) 内 分 布 的 若干 处 理 器 构成 。 相 反 ， 广 域 网 
由 大 的 地 理 范围 (例如 全 美国 或 全 世界 ) 内 分 布 的 许多 自治 的 处 理 器 构成 。 这 些 差别 意味 着 通信 网 络 的 
速度 和 可 靠 性 方面 的 显著 差异 ， 并 且 也 反映 到 分 布 式 操作 系统 的 设计 中 。 


17.5.1 局 域 网 

局 域 网 ( Local-Area network ，LAN)( 见 图 17-10) 作为 计算 机 之 间 互 相通 信和 共享 数据 的 一 种 方式 ， 
出 现 于 20 世纪 70 年 代 初 期 。 人 们 意识 到 ， 对 于 许多 企业 来 说 ， 使 用 大 量 的 小 计算 机 ， 每 台 计 算 机 上 
有 它 自己 的 独立 应 用 ， 比 使 用 单个 大 系统 要 更 经 济 。 由 于 每 台 小 计算 机 都 可 能 需要 访问 全 套 的 外 围 设 
备 ( 例 如 磁盘 和 打印 机 ) ， 又 由 于 在 一 个 企业 中 可 能 需要 某 种 形式 的 数据 共享 ， 因 此 很 自然 地 要 把 这 些 
小 系统 连接 成 一 个 网 络 。 





应 用 服务 器 






打印 机 笔记 本 电脑 文件 服务 器 
图 17-10 局 域 网 


LAN 一 般 用 于 办 公 室 环 境 中 。 在 这 种 系统 中 所 有 站 点 之 间距 离 都 很 近 ， 因 此 其 通信 和 链接 的 速度 比 
广域网 高 ， 而 且 错 误 率 比 广域网 低 。 局 域 网 中 最 常用 的 链接 是 双 绞 线 、 同 轴 电 缆 、 光 纤 以 及 无 线 连接 。 
通信 速度 从 每 秒 几 十 GB (例如 无 线 局 域 网 ) ， 到 每 秒 1GB 的 10 亿 比 特 以 太 网 。 最 新 以 太 网 的 标准 
Æ 10GB, 

存储 区 域 网 ( Storage-Area Network, SAN) 是 为 连接 大 型 存储 设备 ( 磁盘 ) 与 使 用 数据 的 计算 机 ( 见 图 
17-11 ) 而 设计 的 一 种 特殊 类 型 的 高 速 局 域 网 。 

因而 存储 区 域 网 有 助 于 构建 大 规模 共享 硬盘 系统 (shared-disk system ) 。 使 用 存储 区 域 网 把 多 个 计算 

788 | 机 连接 到 大 型 存储 设备 的 动机 和 使 用 共享 硬盘 的 数据 库 本 质 上 是 一 样 的 ， 即 : 
ag 。 可 通过 增加 更 多 的 计算 机 来 扩展 规模 。 

。 高 可 用 性 ， 因 为 即使 一 台 机 器 发 生 故 障 ， 数 据 仍 然 可 访问 。 

在 存储 设备 中 使 用 的 RAID 组 织 是 为 了 确保 数据 的 高 可 用 性 ， 即 使 单 张 磁盘 发 生 故 障 ， 数 据 处 理 
也 可 以 继续 。 存 储 区 域 网 构建 时 常常 会 有 宛 余 ， 例 如 站 点 间 有 多 条 通路 ， 因 此 如 果 网 络 的 一 部 分 ( 比如 
链 路 或 者 连接 ) 发 生 故 障 ， 网 络 功能 仍 能 继续 。 
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图 17-11 存储 区 域 网 


17.5.2 广域网 

广域网 (Wide-Area Network，WAN) 出 现在 20 世纪 60 年 代 后 期 ， 主 要 作为 一 个 学 术 研究 项 目 ， 提 
供 站 点 间 的 高 效 通 信 ， 使 得 大 范围 的 用 户 能够 方便 并 且 经 济 地 共享 硬件 和 软件 。 在 20 世纪 60 年 代 初 
期 开发 了 能 够 通过 电话 线路 将 远程 终端 连接 到 中 央 计 算 机 的 系统 ， 但 是 这 不 是 真正 的 WAN。 阿 帕 网 
( Arpanet) 是 设计 和 开发 的 第 一 个 广域网 ， 阿 帕 网 的 工作 始 于 1968 年 ， 现 在 阿 帕 网 已 经 从 一 个 包括 4 个 
站 点 的 试验 性 网 络 成 长 为 一 个 世界 范围 的 网 络 一 一 因特网 (Intemet) ， 它 包括 数 亿 的 计算 机 系统 。 因 特 
网 上 典型 的 连接 是 光纤 线路 ， 有 时 是 卫星 信道 。 典 型 的 广 域 链 路 的 数据 传输 率 的 范围 从 每 秒 几 MB 到 
每 秒 几 百 GB。 链 路 的 末端 (终端 用 户 站 点 ) 传 统 上 采用 最 慢 的 链 路 ,通常 基于 数字 用 户 环线 ( Digital 
Subscriber Line，DSL) 技 术 ( 支 持 每 秒 几 MB) ， 或 者 是 基于 固定 电话 线路 的 拨号 调制 解 调 器 连接 (最 高 
支持 每 秒 Kb) 。 现 在 典型 的 链 路 末端 是 电缆 调制 解 调 器 或 光纤 连接 (它们 各 自 支持 每 秒 几 十 MB) ， 或 
者 支持 每 秒 几 MB 的 无 线 连接 。 

除了 数据 传输 率 的 限制 外 ,在 WAN 中 的 通信 还 必须 克服 巨大 的 延迟 (latency) : 在 世界 范围 内 传输 
一 条 消息 可 能 要 用 几 百 毫秒 的 时 间 ， 这 既是 由 于 光 传 输 的 延迟 ， 也 是 由 于 消息 传播 路 径 上 各 个 路 由 的 
队列 等 竺 延迟。 设计 数据 和 计算 资源 在 地 理 上 分 布 的 应 用 时 必须 非常 小 心 ， 以 避免 这 些 延迟 过 度 地 影 
响 系 统 性 能 。 

WAN 可 以 划分 为 两 种 类 型 : 

o 非 持续 连接 (discontinuous connection) 的 WAN， 例如 基于 移动 无 线 连 接 的 WAN， 主 机 只 是 在 部 

分 的 时 间 里 与 网 络 相 连接 。 

© 持续 连接 ( continuous connection) 的 WAN， 例 如 有 线 因特网 ， 主 机 在 所 有 时 间 内 都 与 网 络 相 

连接 。 

非 持 续 连 接 的 网 络 通常 不 允许 跨 站 点 的 事务 , 但 是 可 以 保持 远程 数据 的 本 地 副本 ,并 且 周 期 性 地 
(例如 每 天 夜间 ) 刷 新 这 些 副本 。 对 于 那些 一 致 性 要 求 不 是 特别 强 的 应 用 ， 例 如 文档 共享 系统 、Lotus 
Notes 之 类 的 组 件 系统 ， 人 允许 在 本 地 对 远程 数据 进行 更 新 ， 然 后 再 周期 性 地 将 更 新 传播 回 远 程 站 点 。 有 
可 能 在 不 同 站 点 上 发 生 更 新 冲突 ， 需 要 检测 到 这 种 冲突 并 加 以 解决 。 后 面 在 25. 5. 4 节 中 会 描述 一 种 检 
测 更 新 冲突 的 机 制 ， 然 而 解决 更 新 冲突 的 机 制 依赖 于 不 同 的 应 用 。 


17.6 总 结 


© 集中 式 数据 库 系统 完全 运行 在 单 台 计算 机 上 。 随 着 个 人 计算 机 和 局 域 网 的 发 展 ， 数 据 库 前 端 功能 不 
断 地 移 向 客户 机 ， 而 后 端 功能 由 服务 器 系统 提供 。 客 户 - 服务 器 接口 协议 推动 了 客户 -服务 器 数据 


库 系统 的 发 展 。 
© 服务 器 可 以 是 事务 服务 器 ， 也 可 以 是 数据 服务 器 。 尽 管 在 提供 数据 库 服务 方面 ， 事 务 服务 器 的 使 用 
大 大 超过 数据 服务 器 的 使 用 。 


O 事务 服务 器 有 多 个 进程 ， 可 能 运行 在 多 个 处 理 器 上 。 所 以 这 些 进程 要 访问 公共 数据 ， 比 如 数 
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据 库 缓冲 区 ， 系 统 将 这 些 数 据 存 放 在 共享 内 存 中 。 除 了 处 理 查询 的 进程 ， 还 有 执行 诸如 锁 和 
日 志 管理 以 及 检查 点 等 任务 的 系统 进程 。 

数据 服务 器 系统 提供 给 用 户 的 是 未 加 工 的 数据 。 这 样 的 系统 通过 把 数据 和 锁 高 速 缓存 在 客户 
端 ,来 努力 使 客户 端 和 服务 器 之 间 的 通信 最 小 化 。 并 行 数据 库 系 统 使 用 类 似 的 优化 。 

并 行 数 据 库 系统 由 通过 高 速 互 连 网 络 连接 在 一 起 的 多 台 处 理 器 和 多 张 硬盘 构成 。 加 速 比 衡量 通 
过 增加 并 行 性 可 以 得 到 的 对 单个 事务 的 处 理 速度 的 增长 。 扩 展 比 衡量 通过 增加 并 行 性 可 以 得 到 
的 处 理 大 量 事务 的 能 力 。 干 扰 、 偏 斜 和 启动 代价 是 得 到 理想 的 加 速 比 和 扩展 比 的 障碍 。 

并 行 数据 库 体系 结构 包括 共享 内 存 、 共 享 硬盘 、 无 共享 以 及 层次 的 体系 结构 。 这 些 体系 结构 在 
可 扩展 性 以 及 通信 速度 方面 各 有 千秋 。 

分 布 式 数据 库 系 统 是 部 分 独立 的 一 组 数据 库 系统 ， 它 们 共享 一 个 公共 模式 (理想 情况 下 ) ， 并 且 
协调 地 处 理 访 问 非 本 地 数据 的 事务 。 系 统 之 间 通 过 通信 网 络 来 相互 通信 。 

局 域 网 连接 分 布 在 小 的 地 理 范围 内 的 结 点 ， 比 如 连接 单个 建筑 或 几 个 相 邻 建筑 。 广 域 网 连接 分 
布 在 大 的 地 理 范围 内 的 结 点 。 现 在 Internet 是 使 用 最 广泛 的 广域网 。 

存储 区 域 网 是 一 种 特殊 形式 的 局 域 网 ， 是 为 大 型 存储 设备 和 多 台 计算 机 之 间 提 供 快速 互 连 而 设 
计 的 。 











































































































术语 回顾 
。 集中 式 系统 口 收回 口 共享 内 存 
。 服务 器 系统 。 并 行 系统 共享 硬盘 (集群 ) 
© 粗 粒 度 并 行 e Ait 无 共享 
© 细 粒 度 并 行 © 响应 时 间 层次 的 
。 数据 库 进程 结构 。 加 速 比 。 容错 性 
。 互 斥 O 线性 加 速 比 e 分 布 式 虚拟 存储 器 
。 线程 口 亚 线 性 加 速 比 。 非 一 致 性 内 存 体 系 结构 
© 服务 器 进程 e 扩展 比 (NUMA) 
口 锁 管 理 进程 口 线性 扩展 比 。 分 布 式 系统 
D 数据 库 写 进程 亚 线性 扩展 比 。 分 布 式 数据 库 
D 日 志 写 进程 O 批量 型 扩展 比 站 点 ( 结 点 ) 
D 检查 点 进程 口 事务 型 扩展 比 口 局 部 事务 
口 进程 监视 进程 e 启动 代价 0 全 局 事务 
。 客户 - 服务 器 系统 。 干扰 局 部 自治 性 
。 查询 服务 器 。 偏 余 。 多 数据 库 系 统 
© 数据 服务 器 e 互连网 络 © 网 络 类 型 
口 预 读 取 口 总 线 局 域 网 (LAN) 
口 逐步 降级 口 网 格 O 广域网 ( WAN) 
数据 高 速 缓 冲 存储 口 超 立 方 体 存储 局 域 网 (SAN) 
D 缓存 一 致 性 。 并 行 数据 库 体系 结构 
口 锁 高 速 缓冲 存储 





实践 习题 


17.:1 


17:2 


将 共享 结构 存储 在 一 个 专用 进程 的 本 地 内 存 中 ， 而 不 是 存储 在 共享 内 存 中 ， 通 过 与 该 进程 间 的 
通信 存 取 共享 数据 。 这 种 体系 结构 的 缺陷 是 什么 ? 
在 典型 的 客户 - 服务 器 系统 中 ， 服 务 器 机 器 比 客户 机 的 能 力 要 强 得 多 。 也 就 是 说 ， 其 处 理 器 速 
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度 更 快 ， 可 能 有 多 个 处 理 器 ， 有 更 大 的 内 存 和 磁盘 容量 。 请 考虑 另外 一 种 设想 ， 其 中 客户 机 和 
服务 器 机 器 能 力 相 同 。 构 建 这 样 一 个 客户 - 服务 器 系统 有 意义 吗 ? 为什么? 哪 一 种 设想 更 适合 
于 数据 服务 器 体系 结构 ? 

考虑 一 个 基于 客户 - 服务 器 体系 结构 的 数据 库 系 统 ， 其 服务 器 是 一 个 数据 服务 器 。 

a. 客户 和 服务 器 间 的 互 连 速度 对 于 选择 是 进行 元 组 传送 还 是 进行 页 面 传送 有 什么 影响 ? 

b 如 果 采 用 页 面 传送 ， 数 据 在 客户 端的 高 速 缓存 可 以 组 织 成 元 组 缓存 或 者 页 面 缓存 。 页 面 缓存 
以 页 面 为 单位 存储 数据 ， 而 元 组 缓存 以 元 组 为 单位 存储 数据 。 假 设 元 组 比 页 面 小 ， 请 描述 元 组 
缓存 比 页 面 缓存 优越 的 一 个 地 方 。 

假设 一 个 事务 是 将 SQL HRA ZI C 中 书写 的 ， 大 约 80% 的 时 间 花 在 运行 SQL 代码 上 , 剩余 20% 的 
时 间 花 在 运行 C 代码 上 。 如 果 仅 仅 对 SQL 代码 实施 并 行 ， 那 么 可 以 期 望 得 到 多 大 的 加 速 比 ?” 说 
明理 由 。 

一 些 数 据 库 操作 ， 比 如 连接 操作 ， 在 数据 ( 例如， 连接 涉及 的 其 中 一 个 关系 表 中 的 数据 ) 是 存放 
在 内 存 中 或 者 不 是 存放 在 内 存 中 这 两 种 情况 下 ， 会 出 现 速 度 上 的 明显 差异 。 请 说 明 这 个 事实 如 
何 解释 了 超 线 性 加 速 比 ( superlinear speedup ) 现象 ， 这 里 一 个 应 用 程序 的 加 速 比 高 于 分 配给 它 的 
资源 数量 的 增长 。 

并 行 系统 通常 有 这 样 的 网 络 结构 :多 个 包含 n 个 处 理 器 的 集合 连接 到 单个 以 太 网 交换 机 上 ， 而 
这 些 以 太 网 交换 机 本 身 又 连接 到 男 一 台 以 太 网 交换 机 上 。 这 个 架构 是 否 相 当 于 总 线 、 网 格 或 超 
立方 体 架 构 ? 如 果 不 ， 你 会 如 何 描述 这 种 互 连 架 构 ? 


如 果 不 需 要 对 单个 查询 进行 并 行 化 ， 为 什么 将 数据 库 系 统 从 单 处理 器 机 器 移植 到 多 处 理 器 机 器 
相对 比较 容易 ? 

对 于 处 理 短 事务 的 客户 - 服务 器 关系 数据 库 ， 常 采用 事务 服务 器 体系 结构 。 而 对 于 处 理 较 长 事 
务 的 面向 对 象 数 据 库 系统 ， 常 采用 数据 服务 器 体系 结构 。 请 给 出 两 条 理由 ,解释 为 什么 数据 服 
务 器 适合 于 面向 对 象 数 据 库 而 不 适合 于 关系 数据 库 。 

什么 是 锁 逐 步 降级 ? 什么 情况 下 需要 锁 逐 步 降级 ? 为 什么 当 数据 传送 的 单位 是 数据 项 时 不 需要 
锁 逐 步 降级 ? 

假设 你 负责 一 个 公司 的 数据 库 的 运行 ， 主 要 任务 是 处 理事 务 。 假 设 该 公司 每 年 都 在 迅速 增长 ， 
大 到 使 得 公司 当前 的 计算 机 系统 已 不 再 适用 。 当 你 选择 一 台新 的 并 行 计 算 机 时 ， 你 最 关注 加 速 
比 、 批 量 型 扩展 比 ， 还 是 事务 型 扩展 比 ? 为 什么 ? 

典型 的 数据 库 系统 由 一 组 共享 一 个 共享 内 存 区 域 的 进程 (或 线程 ) 实 现 。 

a 如 何 控制 对 于 共享 内 存 区 域 的 存 取 ? 

b 两 阶段 锁 协 议 适 用 于 串 行 化 访问 共享 内 存 中 的 数据 结构 吗 ” 请 解释 你 的 答案 。 

允许 用 户 进程 访问 数据 库 系统 的 共享 内 存 区 域 是 否 明智 ? 请 解释 你 的 答案 。 

在 事务 处 理 系统 中 ， 对 于 线性 加 速 比 起 负面 影响 的 有 哪些 因素 ”对 于 共享 内 存 、 共 享 硬盘 、 无 
共享 这 几 种 体系 结构 中 的 每 一 种 ， 分 别 说 明 哪 个 因素 可 能 是 最 重要 ? 

内 存 系统 可 以 分 为 多 个 模块 ， 在 一 个 特定 时 刻 ， 每 个 模块 可 以 处 理 一 个 独立 的 请 求 。 这 种 存储 
架构 会 对 共享 内 存 系统 所 支持 的 处 理 器 数量 产生 什么 影响 ? 

考虑 一 个 银行 ， 它 有 若干 站 点 ， 每 个 站 点 运行 一 个 数据 库 系统 。 假 设 这 些 数 据 库 之 间 唯 一 的 交 
互 方式 是 利用 持久 消息 进行 电子 转账 ， 这 样 的 系统 称 得 上 是 分 布 式 数据 库 吗 ”为 什么 ? 


文献 注解 


Hennessy 等 [2006 ] 对 计算 机 架构 领域 提供 了 极 好 的 介绍 ，Abadil 2009 | 提供 了 对 云 计 算 和 在 该 环境 
中 运行 数据 库 事务 所 面临 的 挑战 的 非常 好 的 介绍 。 
Gray 和 Reuter[ 1993 ] 是 一 本 描述 事务 处 理 的 教科 书 ， 包 括 对 客户 - 服务 器 体系 结构 和 分 布 式 系统 
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的 描述 。 第 5 章 的 文献 注解 提供 了 有 关 ODBC, JDBC 以 及 其 他 数据 库 访问 API 的 更 多 信息 的 参考 文献 。 
DeWitt 和 Gray[ 1992 ] 对 并 行 数据 库 系 统 进 行 了 综述 ， 包 括 其 体系 结构 和 性 能 度量 。Duncan[ 1990 | 
对 并 行 计 算 机 体系 结构 进行 了 综述 。Dubois 和 Thakkar[ 1992 ] 是 一 本 关于 可 伸缩 共享 内 存 体系 结构 的 文 
集 。 运 行 着 Rdb 的 DEC 集群 是 共享 磁盘 数据 库 体 系 结构 的 早期 商业 用 户 之 一 。Rdb 现在 属于 Oracle, 
命名 为 Oracle Rdb。Teradata 数据 库 机 器 是 最 早 使 用 无 共享 数据 库 体 系 结构 的 商用 系统 之 一 。Grace 和 
Camma 研究 原型 也 使 用 了 无 共享 体系 结构 。 
Ozsu 和 Valduriez[ 1999 ] 是 介绍 分 布 式 数据 库 系 统 的 教科 书 。 关 于 并 行 和 分 布 式 数据 库 系统 的 进 一 
步 的 参考 文献 在 第 18 章 和 第 19 章 的 文献 注解 中 分 别 列 出 。 
794 Comer[ 2009] 、Halsall[ 2006 ] 和 Thmoas [ 1996 ] 描述 了 计算 机 网 络 和 互联 网 。Tanenbaum|[ 2002 ] 、 
796 Kurose 和 Ross[ 2005 | , Peterson 和 Davie[ 2007 | 对 计算 机 网 络 进行 了 一 般 性 概述 。 
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并 行 数 据 库 


本 章 讨论 基于 关系 数据 模型 的 并 行 数据 库 系统 所 使 用 的 基本 算法 。 特 别 地 ， 我 们 将 重点 放 在 多 张 
磁盘 上 的 数据 放置 ， 以 及 关系 运算 的 并 行 实现 的 评估 上 。 它 们 两 个 对 于 一 个 并 行 数据 库 的 成 功 是 有 帮 
助 的 。 


18.1 引言 


二 十 多 年 前 ， 并 行 数 据 库 系 统 几乎 一 度 被 全 部 否定 ， 甚 至 一 些 最 坚定 的 拥护 者 都 不 再 支持 它 。 但 
是 今天 ， 每 一 个 数据 库 系统 供应 商都 成 功 地 打开 了 并 行 数据 库 产品 的 市 场 。 以 下 几 种 趋势 促成 了 这 一 
转变 : 

。 随 着 计算 机 的 大 量 使 用 ， 企 业 组 织 的 事务 需求 增长 了 。 而 且 ， 万 维 网 的 发 展 创造 了 许多 拥有 数 

以 百 万 计 浏览 者 的 站 点 。 从 这 些 浏览 者 收集 来 的 越 来 越 多 的 数据 为 许多 公司 产生 了 特别 庞大 的 
数据 库 。 

。 企业 组 织 正 使 用 这 些 不 断 增长 的 大 量 数据 (例如 有 关 用 户 所 购买 的 商品 ， 用 户 所 点 击 的 Web 链 

接 ， 以 及 用 户 打 电话 的 时 间 这 些 方面 的 数据 )， 来 计划 市 场 行为 和 定价 。 用 于 这 种 目的 的 查询 
称 作 决 策 支 持 查 询 ( decision-support query) ， 而 这 样 的 查询 所 需要 的 数据 量 可 能 高 达 TB 级 。 单 
处 理 器 系统 无 法 按 所 需 速 度 处 理 如 此 大 量 的 数据 。 

© 数据 库 查询 的 面向 集合 特性 很 自然 地 将 自身 引 向 并 行 化 。 许 多 商品 化 和 研究 性 系统 已 经 证 明了 

并 行 查询 处 理 的 能 力 和 可 扩展 性 。 

© 随 着 微 处 理 器 价格 的 下 降 ， 并 行 机 器 已 变 得 很 普遍 ， 而 且 价 格 并 不 昂贵 。 

。 各 独立 处 理 器 也 可 以 利用 多 核 架构 来 将 其 转化 为 并 行 机 器 。 

正如 第 17 章 所 讨论 的 ， 并 行 性 用 来 提供 加 速 比 ， 即 由 于 提供 了 更 多 的 诸如 处 理 器 和 磁盘 那样 的 资 
源 ， 查 询 可 以 执行 得 更 快 。 并 行 性 还 用 来 提供 扩展 比 ， 即 通过 增 大 并 行 度 来 处 理 更 大 的 工作 负载 ， 而 
无 须 延长 响应 时 间 。 

我 们 在 第 17 章 列举 了 并 行 数据 库 系统 的 几 种 不 同体 系 结构 : 共享 内 存 、 共 享 磁盘 、 无 共享 和 层次 
的 体系 结构 。 简 单 地 说 ， 在 共享 内 存 体 系 结构 中 ， 所 有 处 理 器 共享 一 个 公共 的 主 存 储 器 和 磁盘 ; 在 共 
享 磁 盘 体系 结构 中 ， 各 处 理 器 有 自己 独立 的 主 存 储 器 ,但 共享 公共 的 磁盘 ; 在 无 共享 的 体系 结构 中 ， 
处 理 器 间 既 不 共享 主 存储 器 ， 也 不 共享 磁盘 ; 而 层次 的 体系 结构 含有 多 个 结 点 ， 这 些 结 点 间 既 不 共享 
主 存储 器 ， 也 不 共享 磁盘 ， 但 是 每 个 结 点 在 内 部 是 共享 内 存 或 共享 磁盘 的 体系 结构 。 


18.2 VO 并 行 


MO #47 (1/0 parallelism) 最 简单 的 形式 是 指 通过 将 关系 划分 到 多 张 磁盘 上 来 缩减 从 磁盘 上 对 关系 
进行 检索 所 需 的 时 间 。 并 行 数 据 库 环 境 中 数据 划分 最 通用 的 形式 是 水 平分 区 ， 在 水 平分 区 horizontal 
partitioning) 中 ， 关 系 中 的 元 组 划分 (或 分 散 ) 到 多 张 磁盘 上 ， 使 得 每 个 元 组 驻 留 在 一 张 磁盘 上 。 人 们 已 
经 提出 了 好 几 种 划分 策略 。 

18. 2. 1 划分 技术 
我 们 介绍 三 种 基本 的 数据 划分 策略 。 假 定 要 把 数据 划分 到 n 张 磁盘 Do, Dy, +, Daa E 
© 轮转 法 (round-robin) 。 该 策略 对 关系 进行 任意 顺序 的 扫描 ; 将 第 i 个 元 组 送 到 标号 为 D,,,, 的 磁 
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盘 上 。 轮 转 模式 保证 了 元 组 在 多 张 磁盘 上 的 平均 分 布 ， 即 每 张 磁盘 上 具有 大 致 相同 数目 的 


元 组 。 
© 散 列 划分 (hash partitioning) 。 这 种 分 散 策 略 将 给 定 关系 模式 中 的 一 个 或 多 个 属性 指定 为 划分 属 
性 。 选 定 一 个 值 域 为 10,，1，…, 球 -1 的 散 列 函数 。 原 始 关系 的 每 个 元 组 基于 划分 属性 进行 散 


列 。 如 果 散 列 函 数 返回 i， 则 把 该 元 组 放 到 磁盘 D, Eo 7 

© 范围 划分 (range partitioning) 。 这 种 策略 给 每 张 磁盘 分 配 具 有 连续 属性 值 范 围 的 元 组 。 它 选 定 一 
个 划分 属性 4 和 一 个 划分 向 量 ( partitioning vector) [vo, v, 7, val: i<j, Wo, Süs 对 关系 
进行 如 下 划分 : 考虑 元 组 :， 它 满足 t[4] =x。 如 果 x<v,， 则 将 +t 放置 在 磁盘 D P; WR aS 
vaa M t 放 到 磁盘 D, ,中 ; WR <x <w,;!， 则 将 1 放 到 磁盘 D;,, 中 ， 

例如 ， 在 标号 为 0、1、2 的 三 张 磁盘 上 进行 范围 划分 ， 可 能 将 属性 值 小 于 5 的 元 组 分 配 到 磁盘 0， 
属性 值 在 5 ~ 40 之 间 的 元 组 分 配 到 磁盘 1， 将 属性 值 大 于 40 的 元 组 分 配 到 磁盘 2。 

18.2.2 划分 技术 比较 
一 旦 将 一 个 关系 划分 到 多 张 磁盘 上 ， 我 们 就 可 以 使 用 所 有 磁盘 来 对 它 进行 并 行 检索 。 同 样 ， 当 对 
一 个 关系 进行 了 划分 ， 就 可 以 并 行 地 将 它 写 到 多 张 磁 盘 上 。 因 此 ， 有 LO 并 行 与 没有 LO 并 行 相 比 ， 
读 或 写 整个 关系 的 传输 速度 要 快 得 多 。 然 而 ， 读 取 整 个 关系 ， 或 扫描 一 个 关系 ， 仅 是 访问 数据 的 一 种 
方式 。 数 据 访问 可 以 分 类 如 下 : 
1. 扫描 整个 关系 。 
2. 按 相 关 性 定位 元 组 ，( 例 如 ，employee_name =“Campbell”) 。 这 种 查询 称 作 点 查询 ( point query) , 
它 寻 找 在 特定 属性 上 取 特 定 值 的 元 组 。 
3. 定位 出 给 定 属性 取 值 处 于 指定 范围 内 的 所 有 元 组 ，( 例如，10 000 < salary <20 000) ， 这 种 查询 
称 作 范围 查询 (range query) 。 
不 同 划 分 技术 支持 这 些 访问 类 型 的 效率 是 不 同 的 : 
e 轮转 法 (round-robin) 。 这 种 模式 非常 适合 于 希望 对 每 个 查询 顺序 地 读 整 个 关系 的 应 用 。 若 采用 
这 种 模式 ， 点 查询 和 范围 查询 的 处 理 都 很 复杂 ， 因 为 n 张 磁盘 全 都 要 用 于 查找 。 

© 散 列 划分 (hash partitioning) 。 这 种 模式 最 适合 于 基于 划分 属性 的 点 查询 。 例 如 ， 如 果 一 个 关系 
基于 telephone_number 属性 进行 划分 ， 那 么 我 们 可 以 通过 将 划分 用 的 散 列 函数 作用 到 555 - 3333 
上 ， 然 后 查找 该 磁盘 来 回答 “ 找 出 telephone_number =555 - 3333 的 职工 记录 ”的 查询 。 将 查询 对 
应 到 单 张 磁盘 节省 了 在 多 张 磁盘 上 初始 化 查询 的 启动 代价 ， 并 且 使 得 其 他 磁盘 空闲 下 来 以 处 理 
其 他 查询 。 

散 列 划 分 对 于 顺序 扫描 整个 关系 也 有 用 。 如 果 散 列 函 数 是 一 个 很 好 的 随机 化 函数 ， 并 且 划 分 属性 
构成 关系 的 码 ， 那 么 每 张 磁盘 上 的 元 组 数目 就 会 大 致 相同 ， 不 会 有 太 大 差异 。 因 此 ， 扫 描 关 系 所 需 的 
时 间 大 致 就 是 在 单个 磁盘 系统 中 扫描 关系 所 需 时 间 的 1/n。 

然而 ， 这 种 模式 不 能 很 好 地 适用 于 非 划分 属性 上 的 点 查询 。 基 于 散 列 的 划分 也 不 能 很 好 地 回答 范 
围 查 询 ， 因 为 一 般 说 来 ， 散 列 函数 不 保持 一 个 范围 内 的 互相 临近 。 因 此 ， 回 答 范 围 查询 需要 扫描 所 有 
磁盘 。 

© 范围 划分 (range partitioning)。 这 种 模式 很 适合 于 在 划分 属性 上 的 点 查询 和 范围 查询 。 对 于 点 查 

询 ， 我 们 可 以 参考 划分 向 量 来 定位 元 组 所 在 的 磁盘 。 对 于 范围 查询 ， 我 们 参考 划分 向 量 来 找 出 
元 组 可 能 驻 留 的 磁盘 范围 。 在 这 两 种 情况 下 ， 查 询 范围 都 缩小 到 那些 正好 可 能 含有 任何 感 兴趣 
元 组 的 磁盘 上 。 

这 种 特性 的 优点 是 ， 如 果 查 询 范围 内 只 有 少量 元 组 ， 那 么 一 般 说 来 查询 只 会 发 送 给 一 张 磁盘 ， 而 
不 是 发 送 给 所 有 的 磁盘 。 因 为 可 以 将 其 他 磁盘 用 于 回答 其 他 查询 ， 所 以 范围 划分 在 具有 较 好 的 响应 时 
间 的 同时 还 获得 了 更 高 的 吞吐 量 。 另 一 方面 ， 如 果 查 询 范围 内 有 许多 元 组 ( 当 查 询 范 围 占 关系 域 的 较 大 
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比例 时 会 是 这 样 ) ， 那 么 就 会 有 许多 元 组 必须 从 少量 磁盘 中 检索 出 来 ， 导 致 这 些 磁盘 上 的 VO 瓶颈 ( 热 
点 )。 在 这 种 执行 偏 斜 (execution skew) 的 例子 中 ， 所 有 的 处 理发 生 在 一 个 或 少数 几 个 分 区 中 。 相 反 ， 
对 于 这 样 的 查询 ， 散 列 分 布 和 轮转 法 划分 会 用 到 所 有 的 磁盘 ， 在 具有 几乎 同样 吞吐 量 的 同时 提供 了 更 
快 的 响应 时 间 。 
划分 类 型 还 影响 到 其 他 关系 运算 ,例如 连接 ， 我们 将 在 18. 5 节 讨 论 。 因此， 划分 技术 的 选择 也 依 
赖 于 需要 执行 的 运算 。 一 般 而 言 ， 更 倾向 于 使 用 散 列 划分 和 范围 划分 ， 而 不 是 轮转 法 划分 。 
在 拥有 许多 磁盘 的 系统 中 ， 可 以 用 如 下 方法 来 确定 要 把 一 个 关系 划分 到 多 少 张 磁盘 上 : 如 果 关 系 
仅 包含 少量 元 组 ， 在 一 张 磁盘 块 中 就 能 放下 ， 那 么 最 好 将 该 关系 放 到 单 张 磁盘 中 。 大 型 关系 更 倾向 于 
划分 到 所 有 可 用 的 磁盘 上 。 如 果 一 个 关系 包括 m 张 磁盘 块 ， 而 系统 中 有 nn 张 磁盘 可 用 ， 那 么 应 该 给 这 
个 关系 分 配 min(m, n) KR. 
18.2.3 偏 斜 处 理 
当 划 分 一 个 关系 时 (采用 不 是 轮转 法 的 其 他 技术 ) ， 元 组 的 分 布 有 可 能 发 生 偏 斜 (skew) ， 即 某 些 分 
区 中 放置 了 很 高 百分比 的 元 组 ， 而 其 他 分 区 中 只 有 很 少 的 元 组 。 偏 斜 可 能 的 表现 形式 分 类 如 下 : 
。 属性 值 偏 斜 。 
© 划分 偏 斜 。 
属性 值 偏 斜 ( attribute-value skew) 指 的 是 某 些 值 出 现在 许多 元 组 的 划分 属性 中 。 在 划分 属性 上 取 相 
同 值 的 所 有 元 组 落 入 同一 分 区 中 ， 从 而 导致 了 偏 斜 。 划 分 偏 斜 (partition skew) 指 的 是 这 样 的 事实 : 即使 [800] 
不 存在 属性 值 偏 斜 ， 划 分 也 可 能 会 出 现 负 载 不 均衡 。 
不 管 采 用 范围 划分 还 是 采用 散 列 划分 ， 属 性 值 偏 斜 都 会 导致 划分 偏 斜 。 如 果 没 有 仔细 选择 好 划分 
向 量 ， 那 么 范围 划分 会 导致 划分 偏 斜 。 如 果 散 列 函 数 选 得 好 ,那么 散 列 划分 导致 划分 偏 斜 的 可 能 性 
就 小 。 
在 17.3.1 节 中 已 经 谈 到 ， 即 使 很 小 的 偏 斜 也 可 能 导致 性 能 的 显著 降低 。 随 着 并 行 度 的 提高 ， 偏 斜 
变 成 了 更 加 严重 的 问题 。 例 如 ， 如 果 将 一 个 具有 1000 个 元 组 的 关系 分 成 10 个 部 分 ， 并 且 这 个 划分 是 
偏 斜 的 ， 那 么 就 会 出 现 一 些 分 区 内 的 元 组 数 小 于 100， 而 一 些 分 区 内 的 元 组 数 大 于 100。 即 使 碰巧 只 有 
一 个 分 区 内 的 元 组 数 是 200， 那 么 我 们 并 行 存 取 这 些 分 区 所 能 得 到 的 加 速 比 将 只 能 是 5， 而 不 是 我 们 所 
期 望 的 10。 如 果 将 同样 的 关系 分 成 100 个 部 分 ， 每 个 分 区 平均 含有 10 个 元 组 。 如 果 有 一 个 分 区 内 的 元 
组 数目 达到 40( 这 是 有 可 能 的 ， 因 为 分 区 的 数量 很 大 ) ， 那 么 我 们 并 行 访问 这 些 元 组 所 能 得 到 的 加 速 比 
就 是 25 ， 而 不 是 100。 因 此 ， 我 们 看 到 了 随 着 并 行 度 的 增 大 ， 由 于 偏 斜 而 导致 的 加 速 比 的 损失 也 增 大 。 
平衡 的 范围 划分 向 量 (balanced range-partitioning vector) 可 以 通过 排序 的 方法 来 构建 : 首先 将 关系 按 
划分 属性 进行 排序 ， 然 后 对 关系 用 排序 顺序 进行 扫描 。 每 读 过 该 关系 的 1/n， 就 将 下 一 个 元 组 的 划分 
属性 值 加 入 划分 向 量 。 这 里 ，n 表示 要 创建 的 分 区 数量 。 在 许多 元 组 都 在 划分 属性 值 上 取 相 同 值 的 情 
况 下 ， 这 种 技术 仍然 会 导致 某 种 偏 斜 。 这 种 方法 的 主要 缺点 是 做 初始 排序 所 带 来 的 额外 的 IO 开销 。 
通过 为 每 个 关系 的 每 个 属性 创建 和 存储 该 属性 
值 的 频率 表 或 直方 图 ( histogram) ， 可 以 降低 由 于 构 ev 
建 平衡 的 范围 划分 向 量 而 产生 的 WO 开销 。 图 18-1 in 
是 一 个 取 值 范围 在 1 ~ 25 之 间 的 整 型 值 属性 的 直方 va 
图 。 由 于 直方 图 只 占用 很 少 的 空间 ， 因 此 几 个 不 同 OS 
属性 上 的 直方 图 可 以 存储 在 系统 目录 中 。 给 定 划分 20 
属性 上 的 直方 图 ， 可 以 直接 构造 出 平衡 的 范围 划分 | 











函数 。 如 果 没 有 存储 直方 图 ， 可 以 通过 对 关系 进行 
采样 来 近似 地 计算 出 来 。 计 算 时 仅 使 用 来 自 该 关系 
的 磁盘 块 中 随机 选取 的 子 集 中 的 元 组 。 

另 一 种 使 偏 斜 的 影响 达到 最 小 的 方法 是 使 用 虚 
处 理 器 ， 特 别 是 针对 范围 划分 带 来 的 偏 斜 。 在 虚 处 图 18-1 直方 图 示例 
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理 器 ( virtual processor) 方 法 中 ,我 们 假设 存在 比 实际 处 理 器 数量 多 好 几 信 的 大 量 虚 处 理 器 。 我 们 可 以 使 
用 本 章 后 面 要 学 习 到 的 任意 划分 技术 以 及 查询 求 值 技术 ， 但 是 需要 将 元 组 和 操作 映射 到 虚 处 理 器 ， 而 
不 是 实际 的 处 理 器 。 然 后 再 将 虚 处 理 器 依次 映射 回 实际 的 处 理 器 ， 这 一 般 通 过 轮转 法 划分 来 实现 。 

这 种 方法 的 思想 是 : 即使 由 于 偏 斜 使 得 在 一 个 范围 内 有 上 比 其 他 范围 更 多 的 元 组 ， 这 些 元 组 也 将 划 
分 到 多 个 虚 处 理 器 范围 上 。 轮 转 法 将 虚 处 理 器 分 配 到 实际 的 处 理 器 ， 这 样 就 将 额外 的 工作 分 布 到 多 个 
实际 的 处 理 器 中 ， 以 便 一 个 处 理 器 不 必 承 担 所 有 的 负担 。 


18.3 查询 间 并 行 


在 查询 间 并 行 (interquery parallelism) 中 ， 不 同 查 询 或 事务 彼此 并 行 地 执行 。 这 种 形式 的 并 行 可 以 
提高 事务 吞吐 量 。 然 而 ， 单 个 事务 的 响应 时 间 不 会 比 事务 以 隔离 方式 运行 时 更 快 。 因 此 ， 碍 询 间 并 行 
的 主要 用 处 是 扩展 事务 处 理 系 统 ， 使 它 在 每 秒 钟 内 能 支持 更 大 数量 的 事务 。 

查询 间 并 行 是 数据 库 系 统 中 最 容易 支持 的 一 种 并 行 形式 ， 特 别 是 在 共享 内 存 的 并 行 系统 中 。 为 单 
处 理 器 系统 设计 的 数据 库 系统 可 以 不 做 改动 或 者 做 很 少 的 改动 ， 就 能 用 到 共享 内 存 的 并 行 体系 结构 中 ， 
因为 即使 在 串 行 的 数据 库 系统 中 也 支持 并 行 处 理 。 在 串 行 机 器 中 以 分 时 并 发 方式 运行 的 多 个 事务 在 共 
享 内 存 的 并 行 体系 结构 中 将 以 并 行 的 方式 运行 。 

在 共享 磁盘 或 无 共享 的 体系 结构 中 支持 查询 间 并 行 要 更 为 复杂 。 各 处 理 器 必须 以 一 种 协同 的 方式 
来 执行 某 些 任务 ， 例 如 封锁 和 日 志 ， 这 就 需要 它们 互相 之 间 传 送 消 息 。 并 行 数据 库 系 统 还 必须 保证 两 
个 处 理 器 不 会 同时 独立 更 新 相同 的 数据 。 而 且 ， 当 一 个 处 理 器 访问 或 更 新 数据 时 ， 数 据 库 系统 必须 保 
证 该 处 理 顺 在 它 的 缓冲 池 中 拥有 该 数据 的 最 新 版 本 。 确 保 版 本 是 最 新 的 问题 称 作 高 速 缓 存 一 致 性 
( cache-coherency ) 问题 。 

多 种 协议 可 用 于 保证 高 速 缓存 一 致 性 ; 通常 将 高 速 缓存 一 致 性 协议 与 并 发 控制 协议 集成 在 一 起 ， 
以 减 小 它们 的 开销 。 用 于 共享 磁盘 系统 中 的 一 个 这 样 的 协议 如 下 : 

1. 事务 对 一 个 页 面 进行 任何 读 或 写 访问 之 前 ， 先 用 相应 的 共享 或 排他 模式 封锁 该 页 面 。 一 旦 事务 
获得 了 页 面 的 共享 锁 或 排他 锁 后 ， 它 立刻 从 共享 磁盘 中 读 取 该 页 面 的 最 新 版 本 。 

2. 在 事务 释放 一 个 页 面 的 排他 锁 之 前 ， 它 将 该 页 面 刷新 到 共享 磁盘 中 ， 然 后 释放 封锁 。 

这 个 协议 保证 ， 当 事务 对 页 面 设置 共享 锁 或 排他 锁 时 ， 它 能 得 到 该 页 面 的 正确 版 本 。 

更 复杂 的 协议 避免 了 上 述 协议 所 需要 的 对 磁盘 的 重复 读 写 。 这 样 的 协议 在 释放 排他 锁 时 并 不 将 页 
面 写 到 磁盘 上 。 当 事务 获得 共享 锁 或 排他 锁 时 ， 如 果 页 面 的 最 新 版 本 在 某 个 处 理 器 的 缓冲 池 中 ， 事 务 
就 从 该 缓冲 池 中 获得 该 页 面 。 设计 这 种 协议 必须 考虑 到 对 并 发 请 求 的 处 理 。 对 于 共享 磁盘 协议 可 按 如 
下 方案 扩充 以 适用 于 无 共享 的 体系 结构 : 每 个 页 面 有 一 个 本 地 处 理 器 ( home processor) P,, If FF ATE HE 
盘 D, 中 。 当 其 他 处 理 器 想 对 页 面 进行 读 写 时 ， 由 于 它们 不 能 与 页 面 所 在 的 磁盘 直接 通信 ， 它 们 将 请 求 
发 给 该 页 面 的 本 地 处 理 器 P;,， 其 他 动作 与 共享 磁盘 协议 中 的 一 样 。 

Oracle 和 Oracle Rdb 系统 是 支持 查询 间 并 行 的 共享 磁盘 并 行 数据 库 系统 的 实例 。 


18.4 ”查询 内 并 行 


查询 内 并 行 (intraquery parallelism) 指 的 是 单个 查询 在 多 个 处 理 器 和 磁盘 上 并 行 执行 。 对 于 加 快运 
行 时 间 长 的 查询 的 速度 ,采用 查询 内 并 行 非常 重要 。 查 询 间 并 行 对 这 样 的 任务 没有 帮助 ， 因 为 每 个 查 
询 还 是 串 行 运行 的 。 

为 了 说 明 查 询 的 并 行 计算 ,考虑 一 个 要 求 对 关系 进行 排序 的 查询 。 假 设 该 关系 已 经 基于 某 个 属性 
通过 范围 划分 到 多 张 磁盘 上 ， 并 且 要 进行 的 排序 是 基于 划分 属性 的 。 排 序 运算 可 以 这 样 实现 : 对 每 个 
分 区 并 行 排序 ， 然 后 将 排 好 序 的 各 个 分 区 连接 在 一 起 ， 得 到 最 终 排 好 序 的 关系 。 

因此 ， 我 们 可 以 通过 并 行 地 执行 各 个 运算 来 使 一 个 查询 并 行 化 。 还 有 另外 一 个 对 单个 查询 进行 并 
行 计算 的 来 源 : 一 个 查询 的 运算 符 树 可 能 包含 多 个 运算 。 我 们 可 以 对 其 中 某 些 互 不 依赖 的 运算 并 行 地 
执行 ， 从 而 使 运算 符 树 的 计算 并 行 化 。 而 且 ， 正 如 第 12 章 所 提 到 的 ， 我 们 可 以 采用 流水 线 方式 ， 将 一 
个 运算 的 输出 传送 给 另 一 个 运算 ， 这 两 个 运算 可 以 在 各 自 的 处 理 器 上 并 行 地 执行 ， 一 个 运算 正在 生成 
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的 输出 (甚至 在 输出 生成 的 同时 ) 供 另 一 个 运算 使 用 。 
总 的 来 说 ， 单 个 查询 的 执行 可 以 有 两 种 不 同 的 并 行 化 方式 : 
© 操作 内 并 行 (intraoperation parallelism) 。 我 们 可 以 通过 并 行 地 执行 每 个 运算 ， 如 排序 、 选 择 、 投 
影 和 连接 ， 来 加 快 一 个 查询 的 处 理 速度 。18. 5 节 将 讨论 操作 内 并 行 。 
© 操作 间 并 行 (interoperation parallelism) 。 我 们 可 以 通过 并 行 地 执行 一 个 查询 表达 式 中 的 多 个 不 同 
的 运算 ， 来 加 快 一 个 查询 的 处 理 速度 。18. 6 节 将 讨论 这 种 并 行 形式 。 

这 两 种 并 行 形式 是 互相 补充 的 ， 并 可 以 同时 应 用 在 一 个 查询 中 。 因 为 通常 一 个 查询 中 的 运算 数目 
与 每 个 运算 所 处 理 的 元 组 数目 相 比 是 很 小 的 ， 所 以 当 并 行 度 增 大 时 ， 第 一 种 形式 取得 的 效果 更 佳 。 然 
而 ， 由 于 当前 一 般 并 行 系统 中 处 理 器 的 数目 相对 较 小 ， 因 此 两 种 并 行 形式 都 是 重要 的 。 

在 下 面 关 于 查询 的 并 行 化 讨论 中 ,我 们 假设 查询 是 只 读 (read only) 的 。 并 行 查询 计算 的 算法 选择 
依赖 于 机 器 的 体系 结构 。 在 描述 中 ,我 们 采用 无 共享 的 体系 结构 模式 ， 而 不 对 每 种 体系 结构 都 分 别 给 
出 算法 。 因 此 ， 我 们 显 式 地 给 出 什么 时 候 需 要 将 数据 从 一 个 处 理 器 传送 到 另 一 个 处 理 器 。 我 们 可 以 很 
容易 地 通过 采用 其 他 体系 结构 来 模拟 这 种 模式 ， 因 为 在 共享 内 存 体系 结构 中 ， 数 据 的 传送 可 以 通过 共 
享 内 存 来 进行 ; 在 共享 磁盘 体系 结构 中 ， 数 据 的 传送 可 以 通过 共享 磁盘 来 进行 。 因 此 ， 用 于 无 共享 体 
系 结构 的 算法 也 可 以 应 用 到 其 他 体系 结构 中 。 有 时 候 我 们 会 提 到 ， 在 共享 内 存 或 共享 磁盘 的 系统 中 可 
以 如 何 进一步 对 算法 进行 优化 。 

为 了 简化 算法 表述 ,假定 有 个 处 理 器 P,，P, ,…, Paas Ain HRA D, Di, 0, D,_, ， 其 中 磁盘 
D, 是 与 处 理 器 P, 关联 的 。 实 际 系统 中 每 个 处 理 器 可 能 有 多 块 磁盘 。 将 该 算法 扩展 到 允许 每 个 处 理 器 有 
多 张 磁盘 并 不 困难 : 我 们 只 须 让 D, 是 一 组 磁盘 就 行 了 - 然而 ， 为 表示 简单 起 见 ， 我 们 在 此 假定 D 是 单 
块 磁盘 。 


18.5 操作 内 并 行 


由 于 关系 运算 在 包含 大 量 元 组 集合 的 关系 上 进行 ,因此 我 们 可 以 通过 在 关系 的 不 同 子 集 上 并 行 地 
执行 来 实现 运算 的 并 行 化 。 由 于 一 个 关系 中 元 组 的 数目 可 以 很 大 ， 因 此 潜在 的 并 行程 度 也 很 大 。 因 此 ， 
在 数据 库 系统 中 操作 内 并 行 是 自然 的 。18. 5. 1 ~ 18. 5. 3 节 将 研究 一 些 常用 的 关系 运算 的 并 行 版 本 。 
18.5.1 并 行 排 序 

假设 我 们 希望 对 存放 在 n 张 磁盘 D,, Di, …, D,_, 上 的 一 个 关系 进行 排序 。 如 果 该 关系 已 经 进行 了 
范围 划分 ， 并 且 划 分 属性 正 是 排序 要 基于 的 属性 ， 那 么 ， 正 如 18. 2. 2 节 所 提 到 的 ， 我们 可 以 分 别 对 每 
个 分 区 进行 排序 ， 然 后 把 各 个 排序 结果 连接 起 来 ， 得 到 完全 排 好 序 的 关系 。 由 于 元 组 划分 到 n 张 磁盘 
中 ， 因 此 通过 并 行 存 取 减少 了 读 取 整 个 关系 所 需要 的 时 间 。 

如 果 关 系 是 按 任 意 其 他 方式 划分 的 ， 我 们 可 以 采用 下 述 方法 之 一 来 对 其 排序 : 

1. 按 排序 属性 对 它 进行 范围 划分 ， 然 后 分 别 对 各 个 分 区 排序 。 

2. 采用 外 部 排序 - 归并 算法 的 并 行 版 本 。 

18.5.1.1 范围 划分 排序 

范围 划分 排序 (range-partitioning sort) 可 分 为 两 步 来 进行 : 首先 对 关系 进行 范围 划分 ， 然 后 分 别 对 
每 个 分 区 进行 排序 。 当 对 关系 采用 范围 划分 的 方法 进行 排序 时 ， 没 有 必要 将 关系 范围 划分 到 它 所 存放 
的 那些 处 理 器 集合 或 者 磁盘 集合 上 。 假 设 我 们 选择 处 理 器 P, ， 已 ，…, P, (其 中 m<n) 来 对 关系 进行 排 
序 。 排 序 运 算 中 涉及 两 个 步骤 : 

1. 采用 范围 划分 策略 对 关系 中 的 元 组 进行 重新 分 布 ， 使 得 处 于 第 i 个 范围 的 所 有 元 组 都 发 送 给 处 
理 器 P,， 它 将 关系 临时 存放 在 磁盘 D, Po 

为 了 实现 范围 划分 ， 每 个 处 理 器 并 行 地 从 它 的 磁盘 上 读 取 元 组 ， 并 将 这 些 元 组 发 送 到 它们 的 目的 
处 理 器 。 每 个 处 理 器 Po, Pis …, P, 也 都 会 接收 到 属于 其 分 区 的 那 部 分 元 组 ， 并 且 在 本 地 存储 这 些 元 
组 。 这 一 步 需 要 磁盘 IO 和 通信 开销 。 

2. 每 个 处 理 器 在 本 地 对 关系 中 属于 自己 的 分 区 进行 排序 ， 不 与 其 他 处 理 器 交互 。 每 个 处 理 器 在 不 
同 的 数据 集 上 执行 相同 的 运算 ， 即 排序 。 在 不 同 的 数据 集 上 并 行 地 执行 相同 的 运算 称 作 数据 并 
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行 (data parallelism) 。 

最 后 的 合并 运算 非常 简单 ， 因 为 开始 阶段 的 范围 划分 就 保证 了 对 于 1<i<j<m， 处 理 器 P, 中 的 码 
值 全 都 小 于 处 理 器 P, 中 的 码 值 。 

我 们 必须 使 用 一 个 好 的 范围 划分 向 量 来 进行 范围 划分 ， 这 样 每 个 分 区 中 的 元 组 数目 就 会 大 致 相同 。 
也 可 以 使 用 虚 处 理 器 划分 来 减少 偏 斜 。 

18. 5. 1.2 并 行 的 外 部 排序 归并 

除了 范围 划分 外 ， 另 外 一 种 替代 方法 是 并 行 的 外 部 排序 归并 ( parallel external sort-merge) 。 假 设 关 
系 已 经 划分 到 磁盘 De ，Di。…，D,_| 中 ，( 对 关系 进行 怎样 的 划分 无 关 紧 要 )。 并 行 的 外 部 排序 归并 按 
如 下 步骤 进行 : 

1. 每 个 处 理 器 已 在 本 地 对 磁盘 D, 中 的 数据 进行 排序 。 

2. 然后 ， 系 统 对 每 个 处 理 器 已 排 好 序 的 归并 段 进行 合并 ， 得 到 最 终 的 排序 输出 。 

第 2 步 中 对 已 排序 归并 段 的 合并 可 以 按 下 述 动作 序列 并 行 执行 : 

1. 系统 将 每 个 处 理 器 已 排 好 序 的 分 区 范围 划分 (都 采用 相同 的 划分 向 量 ) 到 处 理 器 P,，P,,，…， 
P,, 中。 系统 用 排序 顺序 发 送 元 组 使 得 每 个 处 理 器 接收 的 都 是 排 好 序 的 元 组 流 。 

2. 每 个 处 理 器 P, 在 接收 到 元 组 流 时 进行 归并 ， 得 到 一 个 的 排 好 序 的 归并 段 。 

3. 系统 将 处 理 器 户 ，P ，…，P,，, 中 排 好 序 的 归并 段 串 接 起 来 ， 得 到 最 终结 果 。 

如 上 所 述 的 动作 序列 导致 一 种 有 趣 的 执行 偏 斜 (execution skew ) 形 式 ， 因 为 一 开始 每 个 处 理 器 都 把 
分 区 0 中 的 所 有 块 发 送 到 P,， 然 后 每 个 处 理 器 把 分 区 1 中 的 所 有 块 发 送 到 已 ， 依 此 类 推 。 因 此 ， 在 并 
行 发 送 的 时 候 ， 元 组 的 接收 却 变 成 了 串 行 的 : 首先 只 有 Po 接收 元 组 ， 接 着 只 有 P 接收 元 组 ， 依 此 类 
推 。 为 了 避免 这 个 问题 ， 每 个 处 理 器 都 重复 地 向 每 个 分 区 发 送 一 个 数据 块 。 换 名 话说 ， 每 个 处 理 器 发 
送 每 个 分 区 的 第 一 个 数据 块 ， 然 后 发 送 每 个 分 区 的 第 二 个 数据 块 ， 依 此 类 推 。 其 结果 是 ， 所 有 处 理 器 
都 会 并 行 地 接收 数据 。 

有 些 机 器 ， 例 如 Teradata Purpose-Built Platform Family 机 ， 采 用 专门 的 硬件 来 执行 归并 。Teradata 机 
器 中 的 内 连 网 BYNET 可 以 归并 来 自 多 个 处 理 器 的 输出 ， 以 得 到 单个 排 好 序 的 输出 。 

18.5.2 ”并行 连接 

连接 运算 需要 系统 测试 元 组 对 ， 看 它们 是 否 满足 连接 条 件 ; 如 果 满 足 ， 系 统 就 把 该 元 组 对 加 到 连 
接 的 输出 中 。 并 行 连接 算法 设法 将 这 些 待 检测 的 元 组 对 划分 到 多 个 处 理 嚣 上， 然后 每 个 处 理 器 在 本 地 
计算 部 分 连接 。 于 是 ， 系 统 从 各 个 处 理 器 收集 结果 ， 以 产生 最 终结 果 。 

18.5.2.1 基于 划分 的 连接 

对 于 某 些 类 型 的 连接 ， 例 如 等 值 连接 和 自然 连接 ， 可 以 将 两 个 输入 关系 划分 到 多 个 处 理 器 上 ， 并 
在 每 个 处 理 器 上 计算 本 地 的 连接 。 假 定 我 们 使 用 n 个 处 理 器 ， 要 连接 的 关系 是 r+ 和 s。 基 于 划分 的 连接 
( partitioned join) 以 这 样 的 方式 工作 : 系统 将 关系 r+ 和 ;分 
别 分 成 五 个 分 区 ; WA Tos Tia 5 Tangy. Sys p Saona 
系统 将 划分 六 和 si 送 到 处 理 器 已 ， 并 在 本 地 进行 其 连接 
计算 。 

只 有 在 连接 是 等 值 连接 (例如 ,7r m4-,s5) 而 且 使 用 在 
它们 的 连接 属性 上 同样 的 划分 函数 对 关系 > 和 s 进行 划分 
的 情况 下 ， 基 于 划分 的 连接 技术 才能 正确 工作 。 划 分 的 思 
想 与 散 列 连接 的 划分 步骤 的 思想 完全 一 样 。 然 而 ， 在 基于 
划分 的 连接 中 ， 有 两 种 不 同 的 划分 r 和 * 的 方法 : 

。 基于 连接 属性 进行 范围 划分 。 

o 基于 连接 属性 进行 散 列 划分 。 

不 管 采用 何 种 划分 ， 都 必须 对 两 个 关系 使 用 相同 的 划 
分 函数 。 对 于 范围 划分 ， 两 个 关系 所 采用 的 划分 向 量 必须 T 
相同 。 对 于 散 列 划分 ， 两 个 关系 所 使 用 的 散 列 函数 必须 相 图 18-2 ”基于 划分 的 并 行 连接 











第 18 章 ”并行 数据 库 453 


同 。 图 18-2 描述 了 基于 划分 的 并 行 连接 中 所 采用 的 划分 方法 。 

一 旦 对 关系 进行 了 划分 ,我 们 就 可 以 在 每 个 处 理 器 P; 上 采用 任意 一 种 连接 技术 在 本 地 计算 r F s, 
的 连接 。 例 如 ， 散 列 连接 、 归 并 连接 或 嵌 套 循环 连接 都 可 以 使 用 。 因 此 ， 我 们 可 以 采用 划分 的 方法 使 
任何 连接 技术 并 行 化 。 

如 果 关 系 r 和 s 中 有 一 个 或 两 个 已 经 基于 连接 属性 进行 了 划分 (通过 散 列 划分 或 范围 划分 ) ， 那 么 
划分 所 需 做 的 工作 就 大 大 减少 了 。 如 果 关 系 没 有 进行 划分 ， 或 者 不 是 基于 连接 属性 进行 的 划分 ， 那 么 
就 需要 对 元 组 进行 重新 划分 。 每 个 处 理 器 P, 读 人 磁盘 D, 中 的 元 组 ， 对 于 每 个 元 组 上， 计算 出 它 所 属 的 
分 区 7J， 并 把 元 组 上 发 送 给 处 理 器 已 ， 处 理 器 P 将 元 组 存放 到 磁盘 D, Eo 

通过 将 某 些 元 组 放 在 内 存 的 缓冲 区 中 ， 而 不 是 写 到 磁盘 中 ， 可 以 减少 WO， 从 而 优化 每 个 处 理 器 
本 地 使 用 的 连接 算法 。18. 5. 2. 3 节 描 述 这 样 的 优化 。 

当 采 用 范围 划分 时 ， 偏 斜 就 表现 为 一 个 特殊 的 问题 ， 因 为 将 参与 连接 的 一 个 关系 划分 为 同等 大 小 
的 分 区 的 划分 向 量 可 能 将 另 一 个 关系 划分 为 大 小 差异 很 大 的 分 区 。 划 分 向 量 应 该 使 |7,|+ |s,|( 即 7 和 
si 的 大 小 之 和 ) 对 于 所 有 的 i=0, 1,…, 2-1 大 臻 相等。 如果 散 列 函数 选 得 好 ， 散 列 划分 可 能 具有 更 小 
的 偏 斜 ， 除 非 有 许多 元 组 在 连接 属性 上 取 相 同 的 值 。 

18.5.2.2 分 片 - 复 制 连接 

划分 并 非 对 所 有 类 型 的 连接 都 适用 。 例 如 ， 如 果 连 接 条 件 是 一 个 不 等 式 ， 如 rm,,.,,s， 那么 有 可 
能 7 中 的 所 有 元 组 与 ;中 的 某 些 元 组 相连 接 (反之 亦 然 )。 因 此 ， 可 能 没有 一 种 容易 地 划分 r 和 的 方 
法 ， 使 得 分 区 r 中 的 元 组 只 与 分 区 s; 中 的 元 组 相连 接 。 

我 们 可 以 采用 一 种 称 作 分 片 - 复制 的 技术 来 并 行 地 执行 这 种 连接 。 首 先 考 虑 分 片 - 复制 的 一 种 特 
殊 情 况 : 非 对 称 的 分 片 -复制 连接 (asymmetric fragment-and-replicate join) ， 其 工作 方法 如 下 : 

1. 系统 对 其 中 一 个 关系 ， 例 如 r>， 进 行 划分 。 任 何 一 种 划分 技术 可 以 用 在 关系 > 上， 包括 轮转 
法 划分 。 

2. 系统 将 另 一 个 关系 * 复制 到 所 有 的 处 理 器 上 。 

3: 然后 ， 处 理 器 已 采用 任何 一 种 连接 技术 在 本 地 计算 r 和 整个 * 的 连接 。 

非 对 称 的 分 片 -复制 模式 如 图 18-3a 所 示 。 如 果 r 已 经 是 经 过 划分 存储 的 ， 则 不 必 执 行 第 1 步 的 划 
分 ， 只 须 将 * 复制 到 所 有 处 理 器 上 就 可 以 了 。 
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分 片 -复制 连接 (fragment-and-replicate join) 的 一 般 情 况 如 图 18-3b 所 示 ， 其 工作 方式 如 下 : 系统 将 
关系 r+ 划分 为 个 分 区 6, 7,…, Tna HERR s 划分 为 m 个 分 区 so, si ,…, sw-ie 同 前 面 一 样 ， 对 ~ 
和 s 可 以 采用 任意 的 划分 技术 。m 和 的 值 不 必 相 等 ,但 它们 值 的 选择 必须 保证 至 少 有 m» n 个 处 理 
器 。 非 对 称 的 分 片 和 复制 是 一 般 的 分 片 和 复制 的 一 种 特殊 情况 ， 即 m = 1。 与 非 对 称 的 分 片 和 复制 相 
比 ， 分 片 和 复制 减 小 了 每 个 处 理 器 上 关系 的 规模 。 

设 处 理 器 标记 为 Poos Poy me Po , Pi os üi Fawna 处 理 器 P, ;计算 T; 和 Sj 的 连接 。 每 个 处 
理 器 必须 得 到 它 所 处 理 的 分 区 中 的 那些 元 组 ， 为 了 做 到 这 一 点 ， 系 统 将 六 复制 到 处 理 器 Pios Poy, oo, 
P, ,1( 这 形成 了 图 18-3b 中 的 一 行 ) ， 并 将 s: 复制 到 处 理 器 Poi, Pi;,…, P,_1;( 这 形成 了 图 18-3b 中 的 
一 列 ) 。 在 每 个 处 理 器 已 ,上 可 以 采用 任何 一 种 连接 技术 。 

对 于 任何 连接 条 件 都 可 以 采用 分 片 和 复制 方法 ， 因 为 r 中 的 每 个 元 组 都 能 与 ; 中 的 每 个 元 组 对 应 进 
行 检测 。 所 以 ， 在 不 能 采用 基于 划分 的 连接 的 情况 下 可 以 采用 这 种 方法 。 

当 两 个 关系 的 规模 基本 相同 时 ， 分 片 和 复制 连接 的 代价 通常 比 基 于 划分 的 连接 要 高 ， 因 为 分 片 - 
复制 连接 必须 至 少 要 复制 其 中 的 一 个 关系 。 然 而 ， 如 果 其 中 一 个 关系 (例如 s) 很 小 ,那么 将 * 复制 到 所 
有 处 理 器 上 可 能 比 基 于 连接 属性 对 r AI s 进行 划分 代价 要 小 。 在 这 种 情况 下 ， 即 使 能 够 采用 基于 划分 的 
连接 ， 也 最 好 采用 非 对 称 的 分 片 和 复制 连接 。 

18. 5.2.3 基于 划分 的 并 行 散 列 连接 

12. 5. 5 节 所 讲 的 基于 划分 的 散 列 连接 可 以 并 行 地 执行 。 假 设 有 n ARAE Pa, Pi, oe, Pry, WAR 
两 个 关系 r+ 和 s, rA s 被 划分 到 多 张 磁盘 中 。 回 忆 12.5.5 节 ， 应 该 选用 较 小 的 关系 作为 建立 散 列 表 的 
关系 。 如 果 * 的 规模 比 r 小 ， 那么 并 行 的 散 列 连接 算法 按 如 下 步骤 执行 : 

1. 选择 一 个 散 列 函数 ， 例 如 h,， 它 取得 r+ 和 s 中 每 个 元 组 的 连接 属性 的 值 ， 并 将 元 组 映射 到 个 
处 理 器 中 的 一 个 。 令 r, 表示 关系 7 中 映射 到 处 理 器 P; 上 的 元 组 ; 类 似 地 ， 令 s 表示 关系 中 映射 到 处 
Hir P, 上 的 元 组 。 每 个 处 理 器 P, 读 取 * 中 位 于 其 磁盘 D, 上 的 元 组 ， 并 基于 散 列 函数 h, 将 每 个 元 组 发 
送 到 适当 的 处 理 器 上 。 

2. 当 目 的 处 理 器 P, 接收 到 s, 的 元 组 时 ， 它 用 另 一 个 散 列 函数 h 对 它们 作 进 一 步 划 分 ， 处 理 器 用 
该 散 列 函数 在 本 地 计算 散 列 连接 。 这 一 步 的 划分 与 串 行 的 散 列 连接 算法 的 划分 阶段 完全 一 样 。 每 个 处 
Hae P, 在 执行 这 个 步骤 时 与 其 他 处 理 器 完全 独立 。 

3. 一 旦 将 s 的 元 组 进行 了 分 布 之 后 ， 系 统 采用 与 前 面相 同 的 方法 ， 通 过 散 列 函数 h, 将 较 大 的 关系 
r 在 个 处 理 器 上 进行 重新 分 布 。 目 的 处 理 器 在 接收 到 每 个 元 组 时 ， 用 散 列 函数 A, 对 它 进 行 重新 划分 ， 
就 像 串 行 散 列 连接 算法 中 对 探查 关系 的 划分 一 样 。 

4. 每 个 处 理 器 P, 对 r 和 s 的 本 地 分 区 r; Als, 上 执行 散 列 连接 算法 的 创建 和 探查 过 程 ， 产 生 散 列 连 
接 最 终结 果 的 一 个 分 区 。 

每 个 处 理 器 上 的 散 列 连接 与 其 他 处 理 器 之 间 是 相互 独立 的 ， 并 且 接 收 和 s; 的 元 组 类 似 于 从 磁盘 
中 读 取 这 些 元 组 。 因 此 ， 第 12 章 描述 的 散 列 连接 的 任何 一 种 优化 也 都 可 以 应 用 于 并 行 的 情况 。 特 别 
地 ， 我 们 可 以 采用 混合 式 散 列 连接 算法 ， 将 某 些 输入 元 组 缓存 在 内 存 中 ， 从 而 避免 将 它们 写 出 以 及 再 
读 入 的 代价 。 

18.5.2.4 并 行 网 套 循环 连接 

为 了 阐明 基于 分 片 -复制 并 行 化 的 使 用 ， 考 虑 关系 * 比 关 系 上 小 得 多 的 情况 。 假 设 关系 > 是 采用 划 
分 的 方式 存储 的 ， 其 基于 划分 的 属性 是 无 关 紧 要 的 。 还 假设 在 关系 7 的 每 一 个 分 区 上 存在 关系 7 在 连接 
属性 上 的 一 个 索引 。 

我 们 采用 非 对 称 的 分 片 和 复制 方法 ,将 关系 s 进行 复制 ， 并 利用 关系 7 现 有 的 分 区 。 存 放 关系 * 分 
区 的 每 个 处 理 器 P 读 取 存放 在 D, 上 的 关系 中 的 元 组 ， 并 将 这 些 元 组 复制 到 其 余 的 每 个 处 理 器 已 中 。 
在 这 个 阶段 的 最 后 ， 关 系 s 被 复制 到 存放 关系 7 的 元 组 的 所 有 站 点 中 。 

现在 ， 每 个 处 理 器 已 对 关系 s 和 关系 7 的 第 i 个 分 区 进行 索引 骨 套 循环 连接 。 我 们 可 以 将 索引 嵌 套 
循环 连接 与 对 关系 * 的 元 组 划分 重合 起 来 做 ， 从 而 减少 将 关系 的 元 组 写 到 磁盘 、 再 读 出 来 的 代价 。 然 
m, KA s 的 复制 必须 与 连接 同步 ， 从 而 在 每 个 处 理 器 P, 的 内 存 缓冲 区 中 能 有 足够 的 空间 来 存放 已 经 
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接收 到 但 尚未 用 于 连接 的 关系 * 的 元 组 。 
18.5.3 ”其 他 关系 运算 

其 他 关系 运算 的 实现 也 可 以 并 行 化 : 

© 选择 (selection) 。 令 选择 运算 为 ro(r) 。 首 先 考虑 0 JÉ a =v 的 情况 ， 其 中 a, 是 一 个 属性 ,wv 
是 一 个 值 。 如 果 关 系 7 是 基于 属性 a 进行 划分 的 ,那么 选择 在 单个 处 理 器 中 执行 。 如 果 8 形 如 
1!<a;<u， 即 9 是 一 个 范围 选择 ， 而 且 该 关系 基于 a 进行 了 范围 分 布 ， 那 么 该 选择 在 其 分 区 与 
指定 值 范围 相 重合 的 每 个 处 理 器 中 执行 。 在 所 有 其 他 情况 下 ， 选 择 在 所 有 人 处理 器 中 并 行 地 
执行 。 

e 去 重 ( duplicate elimination) 。 去 重 可 以 通过 排序 来 进行 ， 可 以 使 用 任意 一 种 并 行 排序 技术 ， 并 
优化 为 一 旦 在 排序 过 程 中 出 现 重 复 就 将 其 消除 掉 。 我 们 还 可 以 通过 将 元 组 进行 划分 (采用 范围 
划分 或 散 列 划分 ) 并 在 每 个 处 理 器 中 进行 本 地 去 重 ， 来 使 消除 重复 并 行 化 。 

© 投影 (projection) 。 不 去 重 的 投影 可 以 在 元 组 从 磁盘 读 人 时 并 行 地 进行 。 如 果 要 消除 重复 ， 那 么 
可 以 采用 刚才 描述 的 任意 技术 。 

© 聚集 (aggregation) 。 考 虑 一 个 聚集 运算 。 通 过 将 关系 基于 分 组 属性 进行 划分 ， 然 后 在 每 个 处 理 
器 中 本 地 计算 聚集 的 值 ， 我 们 可 以 使 运算 并 行 化 。 采 用 散 列 划分 或 者 范围 划分 都 可 以 。 如 果 关 
系 已 经 基于 分 组 属性 进行 了 划分 ， 那 么 可 以 跳 过 第 一 步 。 

我 们 可 以 在 划分 前 部 分 地 计算 聚集 的 值 ， 来 减少 划分 时 传输 元 组 的 代价 ， 至 少 对 于 常用 的 
聚集 函数 可 以 这 样 做 。 考 虑 关系 "上 的 一 个 聚集 运算 ， 基 于 属性 4 分 组 ,在 属性 8B 上 使 用 聚集 
函数 sam。 系统 可 以 在 每 个 处 理 器 P, 上 对 存储 在 磁盘 D 中 的 > 元 组 执行 该 运算 。 这 个 计算 在 
每 个 处 理 器 上 得 到 了 具有 部 分 总 和 的 元 组 : 对 于 磁盘 中 存放 的 > 元 组 中 在 属性 4 上 的 每 个 取 
值 ， 都 有 P, 中 的 一 个 元 组 与 之 对 应 。 系 统 对 分 组 属性 4 的 本 地 聚集 结果 进行 划分 ， 然 后 在 每 
个 处 理 器 已 上 再 次 进行 聚集 运算 (在 具有 部 分 总 和 的 元 组 上 进行 ) ， 以 得 到 最 终结 果 。 
这 种 优化 的 结果 是 ， 划 分 过 程 中 需要 送 到 其 他 处 理 器 上 的 元 组 数目 更 小 。 可 以 很 容易 地 将 
这 一 想法 扩展 到 min 和 max 聚集 函数 上 。 对 count 和 avg 聚集 函数 的 扩展 留 在 习题 18. 12 中 
去 做 。 
其 他 运算 的 并 行 化 在 一 些 习 题 中 有 阐述 。 
18.5.4 运算 的 并 行 计算 代价 
我 们 通过 将 VO 分 布 到 多 张 磁盘 上 ， 并 将 CPU 工作 分 布 到 多 个 处 理 器 上 来 达到 并 行 。 如 果 这 样 的 
划分 不 需要 任何 开销 就 能 实现 ， 如 果 在 工作 的 划分 中 没有 偏 斜 ,那么 使 用 n 个 处 理 器 的 并 行 运算 所 用 
的 时 间 就 是 单个 处 理 器 上 执行 相同 运算 所 用 时 间 的 1/n。 我 们 已 经 知道 如 何 估 算 诸如 连接 或 是 选择 那 
样 的 运算 的 代价 。 那 么 并 行 处 理 的 时 间 代 价 就 是 串 行 处 理 相同 运算 的 时 间 代 价 的 1/n。 

我 们 还 必须 考虑 以 下 代价 : 

© 启动 代价 (start-up cost) 。 用 于 在 多 个 处 理 器 上 初始 化 运算 。 

© 偏 斜 (skew) 。 在 多 个 处 理 器 之 间 划 分 工作 而 产生 的 ， 有 些 处 理 器 得 到 的 元 组 数目 多 于 其 他 处 
Hito 

© 对 资源 的 竞争 (contention for resource ) 。 例 如 对 内 存 、 磁 盘 、 通 信 网 络 的 竟 争 所 导致 的 延迟 。 

© 组 装 代 价 (cost of assembling) 。 从 每 个 处 理 器 传送 过 来 的 部 分 结果 组 成 最 终结 果 所 花费 的 代价 

并 行 运算 所 需 的 时 间 可 以 估算 为 : 

了 
其 中 7 是 用 于 划分 关系 的 时 间 ，7..。. 是 组 装 结果 所 需 的 时 间 ，7, 是 处 理 器 P, 执行 运算 所 需 的 时 间 。 
假设 元 组 的 分 布 没 有 任何 偏 斜 ,那么 送 到 每 个 处 理 器 的 元 组 数 可 以 估算 为 元 组 总 数 的 1/mn。 再 忽略 掉 
竞争 ， 于 是 每 个 处 理 器 P 执行 运算 的 代价 全 就 可 以 通过 第 12 章 所 描述 的 技术 估算 出 来 。 

上 述 估算 是 一 种 乐观 的 估算 ， 因 为 通常 是 有 偏 斜 的 。 纵 然 将 单个 查询 分 解 成 若干 个 并 行 的 步 又 减 

少 了 平均 步骤 的 规模 ， 但 处 理 整个 查询 所 需 的 时 间 是 由 最 慢 的 那个 步骤 的 处 理 时 间 决 定 的 。 例 如 ， 基 
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于 划分 的 并 行 计算 的 速度 仅 与 并 行 执行 中 最 慢 的 那个 速度 相同 。 因 此 ， 在 处 理 器 间 划 分 工作 时 的 任何 
偏 斜 都 会 对 性 能 造成 很 大 影响 。 

划分 中 的 偏 斜 问题 与 串 行 散 列 连接 中 的 划分 溢出 问题 ( 见 第 12 E) 密切 相 关 。 当 进行 散 列 划分 时 ， 
我 们 可 以 采用 为 散 列 连接 所 研制 的 解决 溢出 和 避免 溢出 的 技术 来 处 理 偏 斜 。 我 们 可 以 像 18. 2. 3 节 描 述 
的 那样 ， 使 用 平衡 的 范围 划分 和 虚 处 理 器 划分 来 将 范围 划分 导致 的 偏 斜 降 到 最 小 。 


18. 6 “操作 间 并 行 

操作 间 并 行 有 两 种 形式 : 流水 线 并 行 和 独立 并 行 。 
18. 6.1 流水 线 并 行 

正如 第 12 章 所 讨论 的 ， 流 水 线 方式 是 减 小 数据 库 查询 处 理 计算 代价 的 重要 途径 。 回 顾 在 流水 线 
中 ， 甚 至 在 第 一 个 运算 4 尚未 产生 出 完全 的 输出 元 组 集合 之 前 ， 运 算 4 的 输出 元 组 就 被 第 二 个 运算 B 
使 用 。 在 串 行 计算 中 采用 流水 线 执 行 的 主要 优点 是 可 以 不 必 往 磁盘 中 写 任 何 中 间 结 果 ， 就 将 一 系列 这 
样 的 运算 进行 下 去 。 

并 行 系统 采用 流水 线 的 主要 原因 与 串 行 系统 相同 。 但 同时 ， 流 水 线 也 可 以 提供 并 行 性 ， 就 像 硬件 
设计 中 采用 指令 的 流水 线 提供 并 行 性 一 样 。 可 以 在 不 同 的 处 理 器 上 同时 运行 4 和 BB， 使 得 在 4 产生 结 
果 元 组 的 同时 ，B 使 用 它们 。 这 种 形式 的 并 行 称 作 流 水 线 并 行 ( pipelined parallelism) 。 

考虑 4 个 关系 上 的 连接 : 

ri XIT Mr DA Ta 
我 们 可 以 建立 一 条 流水 线 ， 人 允许 三 个 连接 并 行 地 计算 。 假 设 指定 处 理 器 已 计算 temper Mr,， 指 定 P, 
计算 r; K temp o “4 P, 计算 出 7, Mr, 中 的 元 组 时 ， 它 就 将 这 些 元 组 提供 给 处 理 器 P,。 于 是 在 P, 完成 它 
的 计算 之 前 ，P, 就 得 到 了 r Mr, 中 的 一 些 元 组 。P, 可 以 利用 它 得 到 的 元 组 开始 计算 temp, rn, RE 
这 时 Pi 还 没有 完全 计算 出 六 Mr,。 与 此 类 似 ， 当 P, 计算 出 (m mr,)mr 中 的 元 组 时 ， 它 就 将 这 些 元 组 
提供 给 已， 由 P, 来 计算 这 些 元 组 与 7, 的 连接 。 

当 只 有 少量 处 理 器 时 ， 流 水 线 并 行 是 有 用 的 ， 但 它 的 可 扩展 性 不 好 。 首 先 ， 流 水 线 的 链 一 般 来 说 
达 不 到 足够 的 长 度 来 提供 较 高 的 并 行 度 。 其 次 ， 对 于 那些 直到 访问 了 所 有 输入 才 产生 输出 的 关系 运算 
(例如 集 差 运算 ) 不 能 采用 流水 线 。 最 后 ， 对 于 一 种 运算 的 执行 代价 比 其 他 运算 高 得 多 这 种 经 常 出 现 的 
情况 ， 流 水 线 方法 只 能 获得 很 小 的 加 速 比 。 

考虑 所 有 情况 ， 当 并 行 度 较 高 时 ， 流 水 线 对 于 提高 并 行 度 的 重要 性 不 如 基于 划分 的 并 行 。 采 用 流 
水 线 的 真正 原因 是 流水 线 执行 可 以 避免 将 中 间 结 果 写 到 磁盘 中 。 

18.6.2 独立 并 行 

查询 表达 式 中 互 不 依赖 的 运算 可 以 并 行 地 执行 。 这 种 并 行 形式 称 作 独立 并 行 (independent parallelism) 。 

考虑 连接 MAn Mr; M74。 显然 ,我们 可 以 并 行 地 计算 temp, <—r, Kr 和 temper M71。 当 这 两 个 
计算 完成 后 ,我 们 计算 : 

temp, MX temp, 
为 进一步 提高 并 行 性 ， 我 们 可 以 将 temp, 和 temp, 中 的 元 组 流水 线 化 ， 作 为 对 temp, M temp, 计算 的 输 
入 ， 然 后 对 它 用 流水 线 连接 来 计算 ( 见 12.7.2.2 节 )。 

独立 并 行 与 流水 线 并 行 相同 ， 也 不 能 提供 较 高 的 并 行 度 ， 在 高 度 并 行 的 系统 中 也 没有 太 大 的 用 处 ， 

尽管 在 低 度 并 行 中 它 是 有 用 的 。 


18.7 查询 优化 


关系 技术 取得 成 功 的 一 个 重要 原因 是 查询 优化 器 。 回 忆 一 下 ,查询 优化 器 分 析 一 个 查询 ， 在 给 出 
相同 结果 的 多 个 可 能 的 执行 计划 中 找 出 代价 最 低 的 执行 计划 。 

并 行 查询 计算 的 查询 优化 器 比 串 行 查询 计算 的 查询 优化 器 更 为 复杂 。 首 先 ， 代 价 模型 更 复杂 ， 因 
为 必须 将 划分 代价 考虑 在 内 ， 而 且 还 必须 考虑 诸如 偏 斜 、 资 源 竞争 那样 的 问题 。 更 重要 的 问题 是 如 何 
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进行 查询 的 并 行 化 。 假 设 我 们 以 某 种 方式 选 出 了 一 个 表达 式 ( 从 表达 查询 的 多 个 等 价 的 表达 式 中 ) ， 用 
来 计算 该 查询 。12. 1 节 已 经 讨论 过 ， 可 以 用 运算 符 树 来 表示 这 个 表达 式 。 

为 了 在 并 行 系统 中 计算 一 个 运算 符 树 ， 我 们 必须 做 出 以 下 决定 : 

。 如 何 对 每 个 运算 进行 并 行 化 ， 为 每 个 运算 采用 多 少 个 处 理 器 。 

© 在 多 个 处 理 器 上 对 哪些 运算 进行 流水 线 化 ， 哪 些 运算 以 并 行 方式 独立 地 执行 ， 哪 些 运 算 一 个 接 

一 个 地 串 行 执行 。 

这 些 决定 构成 了 调度 (scheduling ) 该 执行 树 的 任务 。 

优化 问题 的 另 一 个 方面 是 确定 应 该 分 配给 执行 树 中 每 个 运算 的 各 种 类 型 的 资源 ， 如 处 理 器 、 磁 盘 
和 内 存 。 例 如 ， 可 最 大 限度 地 利用 并 行 的 资源 可 能 看 起 来 很 明智 ， 但 对 特定 运算 不 并 行 地 执行 也 是 个 
好 主意 。 那 些 计 算 需 求 比 通信 开销 小 得 多 的 运算 应 该 和 其 邻近 的 某 个 运算 聚集 在 一 起 ， 否 则 并 行 的 优 
点 就 被 通信 开销 给 抵消 了 。 

需要 考虑 的 一 个 问题 是 长 的 流水 线 并 不 有 利于 其 很 好 地 利用 资源 。 除 非 运算 是 粗 粒度 的 ， 否 则 流 
水 线 中 最 后 一 个 运算 可 能 要 等 待 很 长 时 间 才 能 得 到 输入 ， 而 它 却 占据 着 宝贵 的 资源 ， 例 如 内 存 。 因 此 ， 
应 该 避免 长 的 流水 线 。 

并 行 执行 计划 的 候选 数目 比 串 行 执 行 计划 的 数目 要 大 得 多 。 因 此 ， 通 过 考虑 所 有 的 候选 计划 来 优 
化 并 行 查询 比 优化 串 行 查询 的 代价 要 高 得 多 。 所 以 ， 我 们 通常 采用 启发 式 方法 来 减少 需要 考虑 的 并 行 
执行 计划 的 数目 。 这 里 描述 两 种 常用 的 启发 式 方法 。 

第 一 种 启发 式 方法 是 仅 考虑 那些 利用 所 有 的 处 理 器 ， 对 每 个 运算 都 并 行 化 ， 并 且 不 采用 任何 流水 
线 的 执行 计划 。Teradata 系统 中 采用 的 就 是 这 种 方法 。 寻 找 这 种 最 佳 执行 计划 类 似 于 在 串 行 系统 中 做 
查询 优化 。 主 要 区 别 在 于 如 何 进行 划分 ， 以 及 采用 何 种 代价 估算 公式 。 

第 二 种 启发 式 方法 是 选择 最 高 效 的 串 行 执行 计划 ， 然 后 将 该 执行 计划 中 的 运算 并 行 化 。Volcano 并 
行 数 据 库 使 一 种 称 为 交换 算 子 (exchange-operator) 模 型 的 并 行 化 模型 流行 起 来 。 此 模型 使 用 现 有 运算 的 
实现 ， 在 数据 的 本 地 拷贝 上 进行 处 理 ， 并 结合 交换 操作 ， 也 就 是 在 不 同 处 理 器 间 移 动 数据 。 交 换算 子 
可 被 引入 到 执行 计划 中 ， 以 将 执行 计划 转化 为 并 行 执行 计划 。 

还 有 另外 一 个 优化 的 维度 是 设计 物理 存储 组 织 来 加 快 查询 。 不 同 查询 有 不 同 的 最 佳 物理 组 织 。 数 
据 库 管 理 员 必须 选择 一 种 适合 于 预期 的 混合 数据 库 查 询 的 物理 组 织 。 因 此 ， 并 行 查询 优化 领域 很 复杂 ， 
而 且 依然 是 一 个 活跃 的 研究 领域 。 
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到 目前 为 止 本 章 一 直 关注 于 数据 存储 和 查询 处 理 的 并 行 化 。 由 于 大 规模 并 行 数据 库 系统 主要 用 
于 存储 大 量 的 数据 ， 并 用 于 处 理 基于 这 些 数据 的 决策 支持 查询 ， 因 此 这 些 主 题 在 并 行 数 据 库 系统 中 
是 最 重要 的 。 如 果 我 们 要 处 理 大 量 的 输入 数据 ， 那 么 来 自 外 部 数据 源 的 数据 并 行 加 载 是 一 个 重要 的 
需求 。 

一 个 大 型 的 并 行 数据 库 还 必须 注意 这 些 可 用 性 问题 : 

o 在 某 些 处 理 器 和 磁盘 发 生 故障 时 的 恢复 性 。 

© 数据 和 模式 发 生 改 变 时 的 联机 重组 。 


在 此 我 们 来 讨论 这 些 问题 。 [815 | 





由 于 具有 大 量 的 处 理 器 和 磁盘 ， 因 此 至 少 有 一 个 处 理 器 或 磁盘 发 生 故 障 的 概率 就 会 比 具 有 单 磁盘 
的 单 处 理 器 系统 要 大 得 多 。 如 果 并 行 系统 设计 得 不 好 ,那么 当 任何 一 个 部 件 (处 理 器 或 磁盘 ) 发 生 故障 
时 ， 系 统 就 会 停止 工作 。 假 设 单个 处 理 器 或 磁盘 发 生 故障 的 概率 很 小 ,那么 系统 发 生 故 障 的 概率 随处 
理 器 和 磁盘 的 数目 呈 线 性 增长 。 如 果 单 个 处 理 器 或 磁盘 每 5 年 发 生 一 次 故障 ， 那 么 具有 100 个 处 理 器 
的 系统 每 18 天 就 会 发 生 一 次 故障 。 

因此 ， 像 Teradata 以 及 IBM Informix XPS 这 样 的 大 规模 并 行 数据 库 系 统 都 设计 成 即使 一 个 处 理 器 或 
磁盘 发 生 了 故障 ， 系 统 还 能 运行 。 数 据 至 少 复制 到 两 个 处 理 器 上 ， 如 果 一 个 处 理 器 失效 ， 它 所 存储 的 
数据 还 能 够 从 另 一 个 处 理 器 访问 到 。 系 统 追踪 失效 的 处 理 器 ， 并 将 其 工作 分 配给 能 正常 运行 的 处 理 器 。 
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对 于 失效 站 点 中 所 存放 数据 的 请 求 将 自动 发 送 到 存放 了 该 数据 副本 的 备份 站 点 上 去 。 如 果 处 理 器 4 的 
所 有 数据 都 复制 到 一 个 单独 的 处 理 器 B 中 ,那么 B 将 必须 处 理 对 A 的 所 有 请 求 ， 同 时 还 要 处 理 对 它 自 
己 的 请 求 ， 这 就 会 使 B 成 为 瓶颈 。 因 此 ， 一 个 处 理 器 中 数据 的 副本 应 该 分 配 到 多 个 其 他 处 理 器 中 。 

当 我 们 处 理 大 量 的 数据 (TB 范围 内 ) 时 ， 像 创建 索引 这 样 的 简单 操作 ， 以 及 往 关 系 中 增加 一 列 这 样 
的 模式 改变 ， 会 花费 很 长 的 时 间 一 一 可 能 要 数 小 时 甚至 数 天 。 因 此 如 果 在 进行 这 样 的 操作 的 过 程 中 让 
数据 库 不 可 用 是 无 法 接受 的 。 大 多 数 数据 库 系统 允许 这 样 的 操作 联机 (online) 进 行 ， 即 可 以 在 系统 执行 
其 他 事务 的 同时 进行 这 样 的 操作 。 

例如 ， 考 虑 联机 索引 创建 (online index construction) 。 支 持 这 一 特性 的 系统 即使 正在 某 个 关系 上 创 
建 索 引 时 ， 也 允许 在 该 关系 上 进行 插入 、 删 除 和 更 新 。 因 此 ， 建 立 索 引 操 作 不 能 像 一 般 情 况 下 那样 以 
共享 模式 封锁 整个 关系 ， 而 是 需要 该 进程 记 住 在 它 活跃 期 间 所 发 生 的 更 新 ， 并 将 这 些 变化 合并 到 正在 
建立 的 索引 中 (目前 大 多 数 数据 库 系统 支持 联机 索引 创建 ， 因 为 这 一 特性 非常 重要 ， 即 使 是 对 于 非 并 行 
的 数据 库 系 统 ) 。 

近年 来 ， 许 多 公司 已 经 开发 出 新 的 并 行 数 据 库 产品 ， 包 括 Netezza、DATAllegro( 已 被 微软 收购 ) 、 
Greenplum 和 Aster Data。 每 个 这 样 的 产品 运行 在 包含 几 十 个 到 几 千 个 节点 的 系统 上 ， 每 个 节点 运行 一 
个 底层 数据 库 实 例 ; 每 个 产品 在 多 个 数据 库 实 例 上 管理 自己 的 数据 分 区 ， 以 及 并 行 查 询 处 理 。 

Netezza, Greenplum 和 Aster Data 使 用 PostgreSQL 作为 底层 数据 库 ; DATAllegro 原本 采用 Ingres 作 
为 底层 数据 库 系 统 ， 但 被 微软 收购 之 后 就 转 到 SQL Server 上 了 。 通 过 建立 在 现 有 数据 库 系统 之 上 的 方 
式 ， 这 些 系统 能 够 充分 利用 底层 数据 库 的 数据 存储 、 查 询 处 理 和 事务 管理 特征 ， 让 它们 能 够 腾 出 精力 
专注 于 数据 分 区 (包括 复制 和 容错 ) ， 加 快 进程 间 通 信 ， 并 行 查询 处 理 ， 以 及 并 行 查询 优化 。 使 用 诸如 
PostgreSQL 那样 的 公共 领域 数据 库 的 另 一 个 好 处 是 ， 每 个 结 点 的 软件 成 本 非常 低 ; 相反 ， 商 用 数据 库 
在 每 个 处 理 器 上 有 着 很 高 的 成 本 。 

还 值得 一 提 的 是 ，Netezza 和 DATAllegro 实际 上 销售 的 是 数据 仓库 "装置 ”， 包 括 硬 件 和 软件 ， 人 允许 
客户 以 最 小 代价 建立 并 行 数 据 库 。 


18.9 多 核 处 理 器 的 并 行 性 


并 行 性 在 当今 大 多 数 计算 机 中 已 经 司空 见 惯 ,其 至 是 在 一 些 最 小 的 计算 机 中 。 那 是 由 于 目前 计算 
机 体系 结构 的 趋势 所 致 。 其 结果 是 ， 现 今 所 有 数据 库 系统 实际 上 都 运行 在 并 行 平台 上。 本 节 将 简要 地 
探讨 这 一 架构 趋势 出 现 的 原因 及 其 对 数据 库 系统 设计 和 实现 的 影响 。 
18.9.1 ”并行 性 与 原始 速度 

由 于 计算 机 的 出 现 ， 处 理 器 速度 呈 指 数 级 增长 ， 每 18 ~ 24 个 月 增加 一 倍 。 这 种 增长 源 于 在 一 块 单 
位 面积 的 硅 芯片 上 能 够 放 入 的 晶体 管 数目 是 星 指数 增加 的 ， 即 众所周知 的 摩尔 定律 ( Moores law), JE 
命名 来 自 英特尔 联合 创始 人 戈 登 ， 摩 尔 ( Cordon Moore) 。 从 技术 上 讲 ， 摩 尔 定律 并 不 是 定律 ， 而 是 一 
个 关于 技术 发 展 趋势 的 观察 和 预测 。 直 到 最 近 ， 晶 体 管 数 量 的 增长 及 其 大 小 的 减少 导致 不 断 出 现 更 忆 
的 处 理 器 。 尽 管 技术 发 展 继续 符合 摩尔 定律 的 预测 ， 但 出 现 了 另 一 个 因素 使 得 处 理 器 速度 的 增长 放 绥 。 
快速 的 处 理 器 在 功 耗 上 是 低 效 的 。 这 会 造成 功 耗 和 成 本 、 移 动 电脑 的 电池 寿命 和 热 散 逸 (使 用 的 所 有 能 
量 最 终 都 换 转化 为 热 ) 方 面 的 问题 。 因 此 ， 现 代 的 处 理 器 通常 不 是 单 处 理 器 ， 而 是 由 一 块 芯片 上 的 多 个 
处 理 器 组 成 。 为 了 保持 在 单 芯片 上 的 多 处 理 器 与 传统 处 理 器 之 间 的 区 别 ， 核 (core) 这 个 术语 用 于 单 芯 
片 处 理 器 。 这 样 我 们 可 以 说 一 台 机 器 上 有 一 个 多 核 处 理 器 。5 
18.9.2 ”高速 缓冲 存储 器 和 多 线程 

每 个 核 都 具备 处 理 一 个 独立 的 机 器 指令 流 的 能 力 。 但 是 ， 由 于 处 理 器 处 理 数据 的 速度 比 从 主 存 上 
访问 数据 要 快 ， 因 此 主 存 可 能 成 为 限制 整体 性 能 的 瓶颈 。 出 于 这 个 原因 ， 电 脑 设计 师 在 计算 机 系统 中 
设置 了 包括 一 个 或 多 个 级 别 的 高 速 缓冲 (cache ) 存储 器 。 高 速 缓冲 存储 器 的 每 字 节 成 本 比 主 内 存 高 ， 但 








后 ”在 此 使 用 的 核 这 个 术语 和 早期 计算 中 所 使 用 的 术语 不 同 ， 后 者 指 基于 磁性 核心 的 主 存 技术 。 
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提供 了 更 快 的 存 取 时 间 。 在 多 级 高 速 缓 存 设计 中 ， 高 速 缓存 分 成 L,、L, FRAL, HP L 是 最 快 的 高 速 


缓存 ( 因此 每 字 节 的 价格 也 最 昂贵 ， 所 以 容量 也 最 小 )，L, 是 第 二 快 的 ， 依 此 类 推 。 其 结果 是 将 第 10 | 


章 讨 论 的 存储 体系 架构 扩展 到 在 主 存 下 包含 不 同 级 别 的 高 速 缓存 。 

尽管 数据 库 系 统 可 以 控制 在 磁盘 和 主 存 之 间 传 输 数据 ， 但 电脑 硬件 仍 可 控制 在 各 个 级 别 的 高 速 组 
存 之 间 以 及 在 高 速 缓存 与 主 存 之 间 的 数据 传输 。 尽 管 缺乏 这 种 直接 控制 ， 数 据 库 系 统 的 性 能 仍然 受到 
高 速 缓 存 使 用 方式 的 影响 。 如 果 一 个 核 需要 访问 的 数据 项 不 在 高 速 缓存 中 ,那么 它 必须 从 主 存 获 取 
因为 主 存 比 处 理 器 要 慢 得 多 ， 所 以 当 一 个 核 等 待 来 自主 存 的 数据 时 ， 处 理 速度 就 可 能 会 蒙受 巨大 损失 
这 种 等 待 称 为 高 速 缓存 失效 ( cache miss) 。 

计算 机 设计 者 试图 减 小 高 速 缓存 失效 所 带 来 的 影响 的 一 种 方式 是 采用 多 线程 (multithreading) 。 线 
程 (thread) 是 一 个 执行 流 ， 它 与 运行 在 同一 个 核 上 的 其 他 线程 共享 内 存 。° 如 果 在 一 个 核 上 当前 执行 的 
线程 遇 到 高 速 缓存 失效 (或 其 他 类 型 的 等 待 ) ， 那 么 核 就 会 执行 另外 的 线程 ， 从 而 在 等 待 时 不 浪费 计算 
速度 。 

线程 引 了 在 多 核 之 上 的 另 一 种 并 行 性 。 每 个 新 一 代 的 处 理 器 都 支持 更 多 的 核 和 更 多 的 线程 。Sun 
UltraSPARC T2 处 理 器 有 8 个 核 ， 每 个 核能 支持 8 个 线程 ， 总 的 来 说 ， 在 一 块 处 理 器 芯片 上 能 支持 64 
个 线程 。 

原始 速度 增长 放 组 同时 核 数 量 增长 这 样 的 体系 架构 上 的 趋势 对 数据 库 系统 设计 产生 了 重大 影响 ， 
这 点 我 们 很 快 就 会 看 到 。 

18.9.3 ”适应 现代 体系 架构 的 数据 库 系统 设计 

可 能 看 起 来 数据 库 系统 是 一 个 有 效 利 用 大 量 核 和 线程 的 理想 应 用 ， 因 为 数据 库 系统 支持 大 量 并 发 
事务 。 然 而 ， 有 很 多 因素 使 得 对 现代 处 理 器 的 优化 利用 充满 了 挑战 。 

当 我 们 允许 更 高 的 并 发 度 去 利用 现代 处 理 器 的 并 行 性 时 ， 我 们 会 增加 高 速 缓存 中 的 数据 量 。 这 可 
能 会 导致 更 多 的 高 速 缓存 失效 ， 甚 至 可 能 多 到 需要 多 线程 的 核 来 等 待 来 自 内 存 中 的 数据 ， 

并 发 事务 需要 某 种 形式 的 并 发 控制 来 保证 第 14 章 讨论 过 的 ACID 属性 。 当 并 发 事务 访问 相同 数据 
时 ， 必 须 对 该 并 发 访问 施加 某 种 限制 。 这 些 限制 ,无论 是 基于 封锁 、 时 间 铃 还 是 验证 ， 都 会 导致 等 待 
或 由 于 事务 中 止 而 损失 工作 。 为 了 避免 长 时 间 等 待 或 大 量 的 工作 损失 ， 理 想 情 况 是 并 发 事务 的 冲突 很 
少 ,但 试图 确保 减少 冲突 会 增加 需要 存放 到 高 速 缓存 中 的 数据 量 ， 并 导致 更 多 的 高 速 缓存 失效 。 

最 后 ， 存 在 一 些 被 所 有 事务 所 共享 的 数据 库 系统 组 件 。 在 使 用 封锁 的 系统 中 ， 锁 表 被 所 有 事务 共 
享 ， 对 锁 表 的 访问 可 能 会 成 为 瓶颈 。 类 似 的 问题 也 同样 存在 于 其 他 形式 的 并 发 控制 中 。 同 样 ， 服 务 于 
所 有 事务 的 缓冲 管理 器 、 日 志 管 理 器 和 恢复 管理 器 也 是 潜在 的 瓶颈 。 

由 于 具有 大 量 的 并 发 事务 可 能 不 能 最 好 地 利用 现代 处 理 器 的 优势 ， 因 此 需要 找到 允许 多 核 在 单个 
事务 上 工作 的 方式 。 这 就 要 求 数据 库 查 询 处 理 器 找到 有 效 的 并 行 查询 方式 ， 而 不 会 对 高 速 缓存 产生 过 
多 的 需求 。 这 可 以 通过 建立 数据 库 查 询 操作 的 流水 线 以 及 通过 寻找 单个 数据 库 操作 的 并 行 化 方式 来 
实现 。 

适应 于 多 核 和 多 线程 系统 的 数据 库 系统 设计 和 数据 库 查 询 处 理 仍然 是 一 个 活跃 的 研究 领域 。 更 多 
细节 请 参见 文献 注解 。 


18.10 Hi 


。 在 过 去 20 年 中 ， 并 行 数据 库 已 经 得 到 了 广泛 的 商业 认同 。 

。 在 WO 并行 中 ， 把 关系 划分 到 多 张 可 用 的 磁盘 中 ， 从 而 使 检索 速度 更 快 。 三 种 常用 的 划分 技术 是 轮 
转 法 划分 、 散 列 划分 和 范围 划分 。 

。 偏 斜 是 一 个 主要 的 问题 ， 特 别 是 当 并 行 度 增高 时 。 平 衡 的 划分 向 量 、 使 用 直方 图 以 及 虚 处 理 器 划分 
是 用 于 减少 偏 斜 的 技术 。 

。 在 查询 间 并 行 中 ,我 们 并 发 地 运行 不 同 的 查询 以 提高 吞吐 量 。 





名 ”在 技术 上 ， 以 操作 系统 的 术语 来 讲 ， 指 其 地 址 空间 。 
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查询 内 并 行 试图 减少 运行 查询 的 代价 。 有 两 类 查询 内 并 行 : 操作 内 并 行 和 操作 间 并 行 。 

我 们 采用 操作 内 并 行 来 并 行 地 执行 关系 运算 ,例如 排序 和 连接 。 因 为 关系 运算 是 面向 集合 的 ， 所 以 
操作 内 并 行 对 关系 运算 是 很 自然 的 。 

对 于 像 连接 这 样 的 二 元 运算 ， 有 两 种 基本 的 并 行 化 方法 。 
在 基于 划分 的 并 行 中 ， 两 个 关系 分 成 几 个 部 分 ， 而 且 六 中 的 元 组 仅 与 s 中 的 元 组 进行 连接 。 基 于 
划分 的 并 行 仅 适 用 于 自然 连接 和 等 值 连接 。 

J 在 分 片 和 复制 中 ， 两 个 关系 都 被 划分 ， 并且 每 个 划分 都 被 复制 。 在 非 对 称 的 分 片 和 复制 中 ， 一 个 
关系 被 复制 ， 而 另 一 个 关系 被 划分 。 与 基于 划分 的 并 行 不 同 ， 分 片 和 复制 以 及 非 对 称 的 分 片 和 复 






















































































制 对 于 任何 连接 条 件 都 适用 。 
这 两 种 并 行 技术 都 可 以 与 任何 一 种 连接 技术 结合 使 用 。 
© 在 独立 的 并 行 中 ， 互 不 依赖 的 多 个 不 同 的 操作 按 并 行 方式 执行 。 
© 在 流水 线 并 行 中 ， 处 理 器 在 计算 一 个 操作 结果 的 同时 将 结果 发 送 给 另 一 个 操作 ， 无 须 等 待 整 个 操作 
的 完成 。 

o 并 行 数据 库 中 的 查询 优化 比 串 行 数据 库 中 的 查询 优化 要 复杂 得 多 。 

。 现代 的 多 核 处 理 器 引入 了 并 行 数据 库 中 新 的 研究 问题 。 
术语 回顾 
。 决策 支持 查询 平衡 的 范围 划分 向 量 口 基于 划分 的 并 行 散 列 连接 
。 VO 并行 口 直方 图 O 并 行 嵌 套 循环 连接 
。 水 平 划分 口 虚 处 理 器 。 并 行 选择 
。 划分 技术 。 查询 间 并 行 。 并 行 去 重 

口 轮转 法 。 高 速 缓存 一 致 性 。 并 行 投影 

口 散 列 划分 。 查询 内 并 行 。 HRE 

口 范围 划分 O 操作 内 并 行 。 并 行 计算 的 代价 
。 划分 属性 口 操作 间 并 行 。 操作 间 并 行 
。 划分 向 量 。 并 行 排序 口 流水 线 并 行 
。 点 查询 口 范围 划分 排序 口 独立 并 行 
。 范围 查询 O 并 行 的 外 部 排序 归并 。 查询 优化 
。 mE © 数据 并 行 。 调度 

O 执行 偏 斜 。 并 行 连 接 。 交换 算 子 模型 

O 属性 值 仿 斜 口 基于 划分 的 连接 。 并 行 系统 设计 

口 划分 偏 斜 分 片 -复制 连接 。 联机 索引 创建 
o 偏 斜 处 理 O 非 对 称 的 分 片 -复制 连接 。 多 核 处 理 器 
实践 习题 


18.1 当 在 范围 划分 属性 上 进行 范围 选择 时 ， 可 能 仅 需要 访问 一 张 磁盘 ， 请 描述 这 一 特性 的 优点 和 缺点 。 
18.2 ”对 于 下 述 每 种 任务 ， 哪 种 并 行 形式 ( 查询 间 并 行 、 操 作 间 并 行 或 操作 内 并 行 ) 可 能 是 最 重要 的 ? 
a 提高 具有 许多 小 查询 的 系统 的 吞吐 量 。 
b. 在 磁盘 和 处 理 器 的 数目 都 很 大 的 情况 下 ， 提 高 具有 少量 大 查询 的 系统 的 吞吐 量 。 
18.3 ”对 于 流水 线 并 行 ， 即 便当 有 许多 处 理 器 可 用 时 ， 在 单个 处 理 器 上 用 流水 线 来 执行 多 个 操作 通常 是 个 好 
主意 。 
a 请 解释 原因 。 
b 如 果 机 器 采用 共享 内 存 体系 结构 ， 你 在 a 部 分 提出 的 论据 还 成 立 吗 ? 请 解释 成 立 或 不 成 立 的 原因 。 
c 对 于 独立 的 并 行 ，a 部 分 提出 的 论据 成 立 吗 ?( 也 就 是 说 ， 即 使 在 不 将 操作 组 织 到 流水 线 中 ， 而 且 
有 许多 处 理 器 可 用 的 情况 下 ， 在 同一 个 处 理 器 上 执行 几 个 操作 是 否 仍然 是 个 好 主意 呢 ?) 
18.4 ”考虑 采用 范围 划分 的 对 称 的 分 片 和 复制 来 处 理 连接 。 如 果 连 接 条 件 形 如 |7. 4 -s. 8|<k， 其 中 上 是 一 
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个 小 常数 ，|x | 表示 取 x 的 绝对 值 ， 带 有 这 种 连接 条 件 的 连接 称 作 带 状 连 接 (band join) ， 那 么 你 如 何 

来 优化 查询 计算 ? 

回顾 一 下 ， 可 以 利用 直方 图 来 建立 负载 均衡 的 范围 划分 。 

a. 假设 你 有 一 个 取 值 范围 为 1 ~ 100 的 直方 图 ， 划 分 为 10 个 范围 : 1 ~10, 11~20, …, 91 ~100, 其 
出 现 频率 分 别 为 15，5，20，10，10, 5,，5,，20,，5,，5。 请 给 出 一 个 负载 均衡 的 范围 划分 函数 ， 将 
这 些 值 划分 成 5 个 部 分 。 

b. 请 写 出 一 个 算法 ， 对 于 给 定 的 包括 个 范围 的 频率 分 布 直 方 图 ， 计 算出 划分 为 p 个 分 区 的 一 个 均 
衡 的 范围 划分 。 

大 规模 并 行 数 据 库 系统 对 每 个 数据 项 都 会 在 附属 于 不 同 处 理 器 的 磁盘 上 存储 一 个 额外 的 副本 ， 以 避免 

当 一 个 处 理 器 失效 时 所 引起 的 数据 丢失 。 

a. 不 是 把 来 自 一 个 处 理 器 的 数据 项 的 额外 副本 保存 到 一 个 单 点 备份 的 处 理 器 上 ， 更 好 的 方法 是 把 一 
个 处 理 器 的 数据 项 副本 划分 到 多 个 处 理 器 上 。 请 解释 原因 。 

b. 解释 如 何 利用 虚 处理 器 划分 来 有 效 实施 前 述 副 本 的 划分 。 

c. 如 果 采 用 RAID 存储 ， 而 不 是 存储 每 个 数据 项 的 额外 副本 ， 有 哪些 优点 和 缺点 ? 

假设 我 们 要 对 一 个 已 经 划分 的 关系 进行 索引 。 这 种 划分 的 思想 (包括 虚 处 理 器 划分 ) 能 够 应 用 于 索引 

吗 ? 解释 你 的 答案 ， 考 虑 下 面 两 种 情况 (为 了 简单 起 见 ， 假 设 划分 和 索引 都 是 在 单个 属性 上 进行 的 ) 。 

a 索引 建立 在 关系 的 划分 属性 上 。 

b. 索引 基于 的 属性 不 是 关系 的 划分 属性 。 

假设 已 经 为 一 个 关系 选 好 了 非常 平衡 的 范围 划分 向 量 ， 但 是 这 个 关系 随后 更 新 了 ， 导 致 划分 失衡 。 即 

使 采用 虚 处 理 器 划分 ， 某 个 虚 处 理 器 最 终 也 可 能 在 更 新 后 得 到 相当 大 量 的 元 组 ， 从 而 需要 重新 划分 。 

a. 假设 一 个 虚拟 处 理 器 有 相当 多 的 超 量 元 组 ( 比如 说 ， 超 过 平均 值 的 两 倍 ) 。 解 释 如 何 通过 分 裂 分 区 
从 而 增加 虚 处理 器 的 数量 来 实现 重新 划分 。 

b. 如 果 虚 处 理 器 不 是 轮流 分 配 的 ， 虚 拟 分 区 可 以 以 任意 的 方式 分 配给 处 理 器 ， 并 使 用 映射 表 来 记录 
分 配 信 息 。 如 果 某 个 特定 的 节点 过 载 ( 相 比 其 他 节点 而 言 ) ， 请 解释 如 何 均衡 负载 。 

eo 假设 没有 更 新 ， 那 么 在 执行 重新 划分 或 者 重新 分 配 虚 处 理 器 的 过 程 中 是 否 需 要 中 断 查询 处 理 ? 解 
释 你 的 答案 。 


对 于 轮转 法 、 散 列 划分 和 范围 划分 这 三 种 划分 技术 ， 请 各 给 出 一 个 查询 实例 ， 使 得 应 用 该 划分 技术 能 
提供 最 快 的 响应 。 

当 关 系 在 它 的 一 个 属性 上 采用 : 

© 散 列 划分 

。 范围 划分 

进行 划分 时 ， 哪 些 因素 会 导致 偏 斜 ?对 于 上 述 两 种 情况 ， 分 别 可 以 采取 什么 措施 来 减 小 偏 斜 ? 

请 给 出 一 个 连接 的 实例 ， 它 不 是 简单 的 等 值 连接 ， 但 可 以 采用 基于 划分 的 并 行 。 应 该 基于 什么 属性 
来 进行 划分 ? 

对 于 下 述 每 种 运算 ， 给 出 一 种 好 的 并 行 化 方法 。 

a 差 运算 。 

b. 使 用 count 运算 的 聚集 。 

c. 使 用 count distinct 运算 的 聚集 。 

d. 使 用 ave 运算 的 聚集 。 

e 左 外 连接 ， 其 连接 条 件 只 涉及 相等 比较 。 

f 左 外 连接 ， 其 连接 条 件 涉及 相等 之 外 的 比较 。 

g 完全 外 连接 ， 其 连接 条 件 涉及 相等 之 外 的 比较 。 

请 描述 流水 线 并 行 的 优点 和 缺点 。 

假设 你 希望 使 用 无 共享 体系 结构 的 并 行 来 处 理 一 个 由 大 量 小 事务 组 成 的 工作 负载 。 

a. 在 这 样 的 情形 中 需要 查询 内 并 行 吗 ?如果 不 需要 ， 为 什么 ” 哪 种 形式 的 并 行 适 用 呢 ? 
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b. 对 于 这 样 的 工作 负载 ， 哪 种 形式 的 偏 余 会 很 显著 呢 ? 
coe 假设 大 多 数 事务 都 会 访问 一 条 accoun 记录 ， 该 记录 包括 一 个 account_type 属性 ， 以 及 一 条 对 应 的 
823 account_type_master 记录 ， 它 提供 了 有 关 账 户 类 型 的 信息 。 你 会 如 何 划分 和 (或 ) 复制 数据 以 加 速 
事务 的 执行 ? 你 可 以 假定 account_type_master 关系 极 少 会 更 新 。 
18. 15 ”对 关系 进行 划分 所 基于 的 属性 可 以 对 查询 代价 产生 很 大 的 影响 。 
a. 给 定 在 单个 关系 上 的 一 个 SQL 查询 工作 负载 ， 什 么 属性 会 作为 划分 的 候选 属性 ? 
b. 基于 这 样 的 工作 负载 ， 你 会 如 何在 不 同 的 划分 技术 中 进行 选择 ? 
o 有 可 能 在 关系 的 不 止 一 个 属性 上 进行 划分 吗 ? 请 解释 你 的 答案 。 


文献 注解 


在 20 世纪 70 年 代 末 和 80 年 代 初 ， 当 关系 模型 取得 了 相当 稳固 的 地 位 时 ， 人 们 意识 到 关系 运算 是 高 度 
可 并 行 的 ， 而 且 具 有 很 好 的 数据 流 特性 。 因 而 发 起 了 包括 GAMMA( DeWitt 等 [ 1990] ) 、XPRS( Stonebraker 等 
[1989 ] ) 和 Voleano( Graefe [1990] ) 在 内 的 几 个 研究 项 目 来 研究 关系 运算 并 行 执 行 的 实用 性 。 

Teradata 是 最 早 的 商用 并 行 数据 库 系统 之 一 ， 并 继续 占有 着 一 个 很 大 的 市 场 份额 。Red Brick 数据 仓库 是 
另 一 个 早期 的 并 行 数据 库 系 统 ， 后 来 Red Brick 被 Informix 收购 ， 而 Infomix 自己 又 被 IBM 收购 。 更 新 的 并 行 
数据 库 系 统 包 括 Netezza, DATAllegro( 现 为 微软 的 一 部 分 ) 、Greenplum 和 Aster Data, 

Joshi[ 1991 ] 以 及 Mohan 和 Narang[ 1992 ] 讨论 了 并 行 数 据 库 中 的 封锁 问题 。Dias 等 | 1989 ] | Mohan 和 
Narang[ 1992] 、Rahm[ 1993 ] 讨论 了 并 行 数据 库 系统 的 高 速 缓存 一 致 性 协议 。Carey 等 [1991 ] 讨 论 了 客户 - 
服务 器 系统 中 的 高 速 缓存 问题 。 

Graefe 和 McKenna[ 1993b ] 对 于 查询 处 理 (包括 查询 的 并 行 处 理 ) 给 了 一 个 极 好 的 综述 。 交 换算 子 模型 是 
Graefe[ 1990 ] 以 及 Graefe 和 McKenna[ 1993b ] 提出 的 。 

DeWitt 等 [1992 ] 讨论 了 并 行 排序 。Garcia 和 Korth[ 2005 ] 以 及 Chen 等 [ 2007 ] 讨 论 了 基于 多 核 和 多 线程 
处 理 器 的 并 行 排序 。Nakayama 等 [ 1984 ] Richardson 等 [ 1987 ] Kitsuregawa 和 Ogawa[ 1990 ] Wilschut 等 
[1995] ， 以 及 其 他 文献 讨论 了 并 行 连接 算法 。 

Walton 等 [ 1991] 、Wolf[ 1991], Dewitt 等 [1992 ] 描述 了 并 行 连接 中 的 偏 斜 处 理 。 

Lu 等 [1991] Ganguly 等 [1992 ] 描述 了 并 行 查询 优化 技术 。 

自 2005 年 以 来 ， 每 年 举办 一 次 现代 硬件 上 的 数据 管理 ( Data Management on Modern Hardware, DaMoN ) 

国际 研讨 会 ， 其 论文 集 讨论 了 适用 于 多 核 和 多 线程 体系 架构 的 数据 库 系 统 设 计 和 查询 处 理 算法 。 
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分 布 式 数据 库 


不 同 于 并 行 系统 中 处 理 器 是 紧密 耦合 的 并 组 成 单个 数据 库 系 统 ， 分 布 式 数据 库 系统 由 松散 耦合 的 
站 点 组 成 ， 这 些 站 点 不 共享 物理 部 件 。 此 外 ， 运 行 在 每 个 站 点 上 的 数据 库 系 统 可 以 有 实质 上 的 相互 独 
立 程 度 。 第 17 章 讨论 了 分 布 式 系统 的 基本 结构 。 

每 个 站 点 都 可 以 参与 到 事务 的 执行 中 ， 这 些 事务 所 访问 的 数据 可 以 位 于 一 个 站 点 上 也 可 以 位 于 几 
个 站 点 上 。 集 中 式 数据 库 系 统 和 分 布 式 数据 库 系统 之 间 的 主要 差别 在 于 ， 在 前 者 中 数据 存放 于 单个 地 
方 ， 在 而 后 者 中 数据 存放 于 几 个 地 方 。 数 据 的 这 种 分 布 给 事务 处 理 和 查询 处 理 带 来 了 很 多 困难 .本章 
将 论述 这 些 困 难 。 

首先 在 19. 1 节 中 ， 首 先 将 分 布 式 数据 库 分 为 同 构 或 异 构 两 类 。 然 后 19. 2 节 论 述 如 何在 分 布 式 数 
据 库 中 存储 数据 的 问题 。19. 3 节 概 述 分 布 式 数据 库 系统 中 的 事务 处 理 模型 。19. 4 节 描 述 如 何 通过 使 用 
特殊 的 提交 协议 来 实现 分 布 式 数据 库 中 的 原子 事务 。19. 5 节 描 述 分 布 式 数据 库 中 的 并 发 控制 。19. 6 节 
概述 如 何 通过 复制 来 提供 分 布 式 数据 库 中 的 高 可 用 性 ， 使 得 即使 出 现 故障 ， 系 统 仍然 可 以 继续 处 理事 
务 。19. 7 节 叙 述 分 布 式 数据 库 中 的 查询 处 理 。19. 8 节 概 述 处 理 异 构 数据 库 的 问题 。19. 10 节 描 述 目录 
系统 ， 它 可 以 视 为 一 种 特殊 形式 的 分 布 式 数据 库 。 

在 本 章 中 ， 我 们 将 用 图 19-1 的 银行 数据 库 来 解释 我 们 的 例子 。 





branch( branch_name, branch_city, assets) 
account (account_number, branch_name, balance) 
depositor ( customer_name, account_number ) 











19-1 银行 数据 库 


19.1 同 构 和 异 构 数 据 库 


在 同 构 分 布 式 数据 库 (homogeneous distributed database) 系统 中 ， 所 有 站 点 都 使 用 相同 的 数据 库 管理 
系统 软件 ， 它 们 彼此 了 解 ， 共 同 合作 处 理 用 户 的 请 求 。 在 这 样 的 系统 中 ， 本 地 站 点 放弃 了 它们 的 部 分 
自治 性 ， 以 修改 模式 或 者 数据 库 管 理 系 统 软件 这 方面 的 权利 的 方式 。 为 使 事务 处 理 能 在 多 个 站 点 间 进 
行 ， 数 据 库 管理 系统 软件 还 必须 和 其 他 站 点 合作 来 交换 与 事务 有 关 的 信息 。 

相反 ， 在 异 构 分 布 式 数 据 库 ( heterogeneous distributed database) 中 ， 不 同 站 点 可 能 使 用 不 同 的 模式 
和 不 同 的 数据 库 管 理 系 统 软 件 。 站 点 之 间 可 能 彼此 并 不 了 解 ， 在 合作 处 理事 务 的 过 程 中 ,它们 可 能 仅 
提供 有 限 的 功能 。 模 式 的 差别 经 常 是 查询 处 理 中 的 主要 问题 ， 而 软件 的 差异 成 为 处 理 访问 多 站 点 事务 
的 一 个 障碍 。 

在 本 章 中 ， 我 们 关注 同 构 的 分 布 式 数据 库 。 不 过 ，19. 8 节 将 简要 讨论 异 构 分 布 式 数据 库 系统 中 的 
问题 。 


19.2 分 布 式 数据 存储 
考虑 一 个 要 存储 到 数据 库 中 的 关系 r。 在 分 布 式 数据 库 中 存储 这 个 关系 有 两 种 方法 ; 
© 复制 (replication) 。 系 统 维护 这 个 关系 的 几 个 相同 的 副本 (拷贝 ) ， 并 把 每 个 副本 存储 在 不 同 的 
站 点 上 。 复 制 的 替代 方式 是 只 存储 关系 + 的 一 份 拷贝 
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© 分 片 (fragmentation)。 系 统 把 关系 划分 为 几 个 片 ， 并 把 每 个 片 存储 在 不 同 的 站 点 上 
分 片 和 复制 可 以 组 合 : 一 个 关系 可 以 划分 为 几 个 片 ， 并 且 每 个 片 可 以 有 几 个 副本 。 下 面 几 个 节 将 
详细 阑 述 每 种 这 样 的 技术 。 
19.2.1 数据 复制 
如 果 关 系 7 被 复制 ， 则 关系 7 的 拷贝 会 存放 在 两 个 或 多 个 站 点 上 。 在 最 极端 的 情况 下 ， 我 们 采用 全 
复制 (full replication) ， 这 时 拷贝 会 存放 在 系统 中 的 每 个 站 点 上 。 
复制 有 很 多 优点 和 缺点 。 
826 e 可 用 性 (availability) 。 如 果 包 含 关系 上 的 站 点 之 一 发 生 故 障 ， 那 么 关系 上 可 以 在 另 一 个 站 点 中 找 
到 。 因 此 ， 即 使 一 个 站 点 发 生 了 故障 ， 系 统 仍 可 以 继续 处 理 涉 及 r 的 查询 。 
o 增加 的 并 行 度 (increased parallelism) 。 如 果 大 多 数 对 关系 7 的 访问 都 只 会 导致 对 该 关系 的 读 
那么 几 个 站 点 可 以 并 行 地 处 理 涉及 7 的 查询 。r 的 副本 越 多 ， 在 事务 执行 的 站 点 jarana 
据 的 机 会 就 越 大 。 因 此 ， 数 据 复制 将 站 点 之 间 的 数据 移动 减 到 了 最 小 。 
© 增加 的 更 新 开销 (increased overhead on update) 。 系 统 必须 保证 关系 7 的 所 有 副本 是 一 致 的 ; 否 
则 可 能 产生 错误 的 计算 。 因 此 ， 只 要 "更 新 了 ， 更 新 就 必须 传播 到 包含 其 副本 的 所 有 站 点 。 结 
果 增 加 了 开销 。 例 如 ， 在 银行 系统 中 ， 账 户 信 息 被 复制 到 不 同 站 点 中 ， 必 须 保证 特定 账户 中 的 
余额 在 所 有 站 点 上 是 一 致 的 。 
通常 情况 下 ， 复 制 提 高 了 read 操作 的 性 能 ， 并 增加 了 数据 对 只 读 事务 的 可 用 性 。 但 是 ， 更 新 事务 
的 开销 会 增 大 。 控 制 几 个 事务 对 复制 数据 的 并 发 更 新 比 我 们 在 第 15 章 学 习 的 集中 式 系统 中 更 为 复杂 。 
我 们 可 以 通过 选择 关系 的 副本 之 一 作为 > 的 主 拷贝 (primary copy) 来 简化 关系 7 的 副本 管理 。 例 如 ， 在 
银行 系统 中 ， 账 户 可 以 同 与 其 开户 站 点 关联 起 来 。 类 似 地 ， 在 机 票 预订 系统 中 ， 航 班 可 以 与 其 起 飞 的 
站 点 关联 起 来 。19. 5 节 将 讨论 用 于 分 布 式 并 发 控制 的 主 拷贝 方案 和 其 他 可 选 方案 。 
19.2.2 数据 分 片 
如 果 关 系 上 是 分 片 的 ， 那 么 > 划分 为 多 个 分 片 厂 , n, o, 证 中 。 这 些 分 片 包含 足够 的 信息 使 得 
能 够 重 构 出 原始 关系 ro 有 两 种 不 同 的 方案 用 于 对 关系 分 片 : 水 平分 片 和 垂直 分 片 。 水 平分 片 通过 将 
r 的 每 个 元 组 分 给 一 个 或 多 个 分 片 来 划分 关系 。 垂 直 分 片 通 过 对 关系 7 的 模式 R 进行 分 解 来 划分 
关系 。 
在 水 平分 片 (horizontal fragmentation) P, Ar 划分 为 多 个 子 集 r, ，r,，…，r,。 关 系 7 的 每 个 元 组 
必须 至 少 属于 其 中 一 个 分 片 ， 以 使 得 在 需要 时 可 以 重 构 出 原始 关系 。 
举 一 个 例子 ，account 关系 可 以 划分 为 几 个 不 同 的 分 片 ， 每 个 分 片 由 属于 特定 支行 的 账户 的 元 组 构 
成 。 如 果 银 行 系统 只 有 两 个 支行 ， 即 Hillside 和 Valleyview， 那 么 就 有 两 个 不 同 的 分 片 : 
ACCOUNL, = O branch name =“ Hillside” ( ACCOUN ) 
account, = O branch name =“ Valleyview” ( 2CCOUNL ) 
[827] 水 平分 片 通常 用 来 把 元 组 保持 在 它们 最 常 使 用 的 站 点 上 以 最 小 化 数据 的 传输 。 
一 般 而 言 ， 水 平分 片 可 以 定义 为 整个 关系 > 上 的 一 个 选择 。 也 就 是 说 ， 使 用 谓词 P, 来 构造 分 片 7: 
,=0p.(7) 
通过 将 所 有 分 片 合并 来 重 构 关系 r， 即 : 
r=r Ur U = Ur, 
在 该 例子 中 ,分 片 是 不 相交 的 。 通 过 改变 用 于 构造 分 片 的 选择 谓词 ， 可 以 让 7 的 特定 元 组 出 现在 
PiE—T a, P 
垂直 分 片 最 简单 的 形式 和 分 解 ( 见 第 8 章 ) 是 一 样 的 。r(R) 的 垂直 分 片 (vertical fragmentation ) 涉及 
定义 模式 R 的 几 个 属性 子 集 R,，R,，…，R,， 使 得 : 
R=R UR, U UR, 
r 的 每 个 分 片 六 定义 为 : 
r; =Ilk (r) 
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分 片 采 用 的 方式 应 使 得 我 们 可 以 通过 采用 自然 连接 来 从 分 片 中 重 构 出 关系 r: 
r=r; Kr Mr MM 7, 
保证 关系 上 能 重 构 的 一 种 方法 是 在 每 个 R 中 包含 R 的 主 码 属性 。 更 一 般 地 ， 可 以 使 用 任何 超 码 。 
在 模式 R 中 加 入 一 个 称 为 tuple-id 的 特殊 属性 通常 会 比较 方便 。 元 组 的 tuple-id 值 是 唯一 的 ， 可 以 将 该 
元 组 与 其 他 所 有 元 组 区 别 开 来 。 这 样 tuple-id 属性 就 作为 扩展 后 模式 的 一 个 候选 码 ， 并 包含 到 每 个 R 
中 。 元 组 的 物理 地 址 或 逻辑 地 址 可 以 用 作 tuple-id， 因 为 每 个 元 组 有 一 个 唯一 的 地 址 。 
为 了 说 明 垂 直 分 片 ， 考 虑 一 个 大 学 数据 库 ， 它 包含 关系 employee_info 来 存储 每 位 员工 的 employee_ 
id, name, designation 和 salary。 出 于 保密 的 缘故 ， 这 个 关系 可 能 分 为 关系 employee _private_info ( 包含 
employee_id 和 salary) 以 及 另 一 个 关系 employee_public_info( 包含 属性 employee_id. name 和 designation ) 。 
可 能 同样 出 于 安全 考虑 ， 它 们 可 能 存储 在 不 同 的 站 点 。 
两 种 类 型 的 分 片 可 以 应 用 到 单个 模式 上 ; 例如 ， 对 关系 水 平 划分 后 得 到 的 分 片 可 以 进一步 垂直 划 
分 。 分 片 也 可 以 复制 。 一 般 而 言 ， 一 个 分 片 可 以 复制 ， 分 片 的 副本 可 以 进一步 分 片 ， 依 此 类 推 。 
19.2.3 透明 性 
分 布 式 数据 库 系 统 的 用 户 不 要 求知 道 数据 的 物理 位 置 在 哪里 或 者 在 特定 本 地 站 点 上 的 数据 应 如 何 
访问 。 该 特点 称 为 数据 透明 性 ( data transparency) ， 它 可 以 有 几 种 形式 : 
© 分 片 透 阴性 (fragmentation transparency) 。 用 户 不 要 求知 道 关系 是 如 何 分 片 的 。 
。 复制 透明 性 ( replication transparency) 。 在 用 户 看 来 ， 每 个 数据 对 象 逻辑 上 都 是 唯一 的 。 分 布 式 
系统 可 能 为 了 提高 系统 性 能 或 者 数据 可 用 性 而 复制 对 象 。 用 户 不 必 关 心 什么 数据 对 象 被 复制 
了 ， 也 不 必 关 心 副 本 存放 在 何 处 。 

© 位 置 透 明 性 ( location transparency) 。 用 户 无 须知 道 数据 的 物理 位 置 。 只 要 用 户 事 务 提 供 数据 标 
识 符 ， 分 布 式 数 据 库 系 统 应 能 够 找到 任何 数据 。 

数据 项 (例如 关系 、 分 片 和 副本 ) 必须 有 唯一 的 名 字 。 在 集中 式 数据 库 中 这 种 特性 容易 保证 。 但 
是 ， 在 分 布 式 数据 库 中 我 们 必须 小 心 ， 保 证 两 个 站 点 没有 对 不 同 的 数据 项 使 用 相同 的 名 字 。 

解决 这 个 问题 的 一 种 方法 是 要 求 所 有 的 名 字 都 要 在 中 央 名 字 服 务 器 ( name server) 中 注册 。 名 字 服 
务 器 有 助 于 确保 同样 的 名 字 不 会 用 于 不 同 的 数据 项 。 我 们 也 可 以 使 用 名 字 服 务 器 根据 给 定 项 的 名 字 来 
定位 数据 项 。 但 是 ， 这 种 方法 受制 于 两 个 主要 的 缺点 。 首 先 ， 当 数据 项 通过 它们 的 名 字 来 定位 时 ， 名 
字 服 务 器 可 能 成 为 性 能 瓶颈 ， 导 致 性 能 低下 。 其 次 ， 如 果 名 字 服 务 器 骨 泪 ， 分 布 式 系统 中 的 任何 站 点 
都 不 可 能 继续 运行 。 

一 种 更 为 广泛 使 用 的 可 选 方法 要 求 每 个 站 点 都 将 其 自身 的 站 点 标识 符 作为 前 缀 加 到 它 所 产生 的 任 
何 名 字 前 面 。 这 种 方法 保证 没有 两 个 站 点 会 产生 相同 的 名 字 ( 因为 每 个 站 点 都 有 唯一 的 标识 符 ) 。 此 外 
不 需要 中 央 控 制 。 但 是 ， 这 种 方法 无 法 实现 位 置 透明 性 ， 因 为 站 点 标识 符 被 附加 到 名 字 上 了 。 这 样 ， 
KA account 就 可 能 需要 用 sitel7. account 或 者 account@ site17 来 引用 ， 而 不 是 简单 地 用 account 来 引用 . 
许多 数据 库 系统 使 用 站 点 的 互联 网 地 址 ( 卫 地 址 ) 来 标识 。 

为 了 解决 这 个 问题 ， 数 据 库 系统 可 以 为 数据 项 创建 一 套 另外 的 名 字 或 别名 (alias) 。 这 样 用 户 就 可 
以 用 简单 的 名 字 来 引用 数据 项 ， 而 简单 的 名 字 被 系统 翻译 为 完整 的 名 字 。 从 别名 到 真实 名 字 的 映射 可 
以 存储 在 每 个 站 点 上 。 有 了 别名 ， 用 户 就 可 以 无 须 了 解数 据 项 的 物理 位 置 。 此 外 ， 如 果 数 据 库 管理 员 
决定 将 数据 项 从 一 个 站 点 移 到 另 一 个 站 点 ， 用 户 也 不 会 受到 影响 。 

用 户 应 该 无 须 引用 数据 项 的 特定 副本 。 相 反 ， 系 统 应 该 决定 在 read 请 求 时 引用 哪个 副本 ， 在 write 
请 求 时 应 该 更 新 所 有 副本 。 通 过 维护 目录 表 ( 系 统 用 它 来 确定 数据 项 的 所 有 副本 ) ， 我 们 可 以 保证 完成 
上 述 工作 。 


19.3 ”分布 式 事务 


在 分 布 式 系统 中 对 各 种 数据 项 的 访问 常常 通过 事务 来 完成 ， 事务 必须 保 持 ACID 特性 ( 见 14.1 
节 ) 。 我 们 需要 考虑 两 种 类 型 的 事务 。 局 部 事务 ( local transaction) 是 那些 只 在 一 个 局 部 数据 库 中 访问 和 
更 新 数据 的 事务 ; 全 局 事务 (global transaction) 是 那些 多 个 局 部 数据 库 中 访问 和 更 新 数据 的 事务 。 局 部 
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事务 的 ACID 特性 可 以 用 在 第 14 ~ 16 章 中 讨论 的 方式 来 保证 。 但 是 对 于 全 局 事务 来 说 ， 这 项 任务 就 复 
杂 得 多 了 ， 因 为 多 个 站 点 可 能 参与 到 事务 的 执行 中 。 这 些 站 点 中 的 一 个 发 生 故 障 ， 或 者 连接 这 些 站 点 
的 通信 链 路 发 生 故 障 ， 都 可 能 导致 错误 的 计算 。 

在 本 节 中 ， 我 们 学 习 分 布 式 数据 库 的 系统 结构 及 其 可 能 的 故障 模式 。 在 19.4 节 中 ， 我 们 学 习 为 了 
保证 全 局 事务 原子 性 提交 的 协议 ， 在 19.5 节 中 ， 我 们 学 习 分 布 式 数据 库 中 并 发 控制 的 协议 。 在 19.6 
节 中 ， 我 们 学 习 分 布 式 数 据 库 在 出 现 各 种 类 型 的 故障 的 情况 下 如 何 继 续 工 作 。 

19.3.1 系统 结构 

每 个 站 点 都 有 其 自身 的 局 部 事务 管理 器 ， 其 功能 是 保证 在 该 站 点 上 执行 的 那些 事务 的 ACID 特性 。 
各 个 事务 管理 器 相互 协作 以 执行 全 局 事务 。 为 了 理解 这 样 的 管理 器 是 怎样 实现 的 ， 考 虑 一 个 事务 系统 
的 抽象 模型 ， 其 中 每 个 站 点 包括 两 个 子 系统 : 

。 事务 管理 器 (transaction manager) 管 理 那 些 访问 存储 在 一 个 局 部 站 点 中 的 数据 的 事务 (或 子 事务 ) 

的 执行 。 注 意 每 个 这 样 的 事务 既 可 以 是 局 部 事务 ( 即 只 在 该 站 点 上 执行 的 事务 ) ， 也 可 以 是 全 局 
事务 ( 即 在 几 个 站 点 上 执行 的 事务 ) 的 一 部 分 。 

。 事务 协调 器 (transaction coordinator) 协调 在 该 站 点 上 发 起 的 各 个 事务 ( 既 有 局 部 的 也 有 全 局 的 ) 的 

执行 。 

整个 系统 的 体系 结构 如 图 19-2 所 示 。 





计算 机 1 计算 机 n 
图 19-2 系统 体系 结构 


事务 管理 器 的 结构 在 许多 方面 同 集中 式 系统 的 结构 是 类 似 的 。 每 个 事务 管理 器 都 要 负责 : 

。 维护 一 个 用 于 恢复 目的 的 日 志 。 

。 参与 到 一 个 合适 的 并 发 控制 方案 ， 以 协调 在 该 站 点 上 执行 的 事务 的 并 发 执行 。 
正如 我 们 将 要 看 到 的 ， 为 了 适应 事务 的 分 布 性 ， 我 们 需要 修改 恢复 方案 和 并 发 方案 。 

在 集中 式 环境 中 不 需要 事务 协调 器 子 系统 ， 因 为 事务 所 访问 的 数据 仅 在 单个 站 点 上 。 顾 名 思 义 ， 
事务 协调 器 负责 协调 该 站 点 上 发 起 的 所 有 事务 的 执行 。 对 每 个 这 样 的 事务 ， 协 调 器 负责 : 

。 启动 事务 的 执行 。 

。 将 事务 分 成 一 些 子 事务 ， 并 将 这 些 子 事务 分 派 给 合适 的 站 点 去 执行 。 

。 协调 事务 的 中 止 ， 这 可 能 导致 事务 在 所 有 站 点 上 都 提交 或 在 所 有 站 点 上 都 中 止 。 
19.3.2 系统 故障 模式 


830 分 布 式 系 统 可 能 遭受 和 集中 式 系统 所 章 受 的 相同 类 型 的 故障 (例如 软件 错误 、 硬 件 错误 或 磁盘 崩 


Wt) ,但 在 分 布 式 环境 中 还 有 另外 一 些 需 要 处 理 的 故障 类 型 。 基 本 的 故障 类 型 包括 : 
。 站 点 故障 。 
。 消息 丢失 。 
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。 通信 链 路 故障 。 

。 网 络 划分 。 

分 布 式 系 统 中 总 是 可 能 发 生 消 息 的 丢失 或 损坏 。 系 统 采用 传输 控制 协议 (如 TCP/ 人 P) 来 处 理 这 样 的 
错误 。 关 于 这 类 协议 的 信息 在 有 关 网 络 的 标准 教科 书 中 可 以 找到 ( 见 文献 注解 ) 。 

然而 ， 如 果 两 个 站 点 4 和 B 不 直接 相连 ,消息 必须 通过 一 系列 的 通信 和 链 路 从 一 个 站 点 路 由 到 男 
一 个 站 点 。 如 果 有 一 条 通信 和 链 路 发 生 故 障 ， 通 过 该 链 路 传送 的 消息 必须 重新 路 由 。 在 某 些 情况 下 ， 
可 能 发 现 网 络 中 的 男 一 条 路 由 ， 这 样 消息 仍 能 到 达 它 们 的 目的 地 。 在 另 一 些 情况 下 ， 故 障 可 能 导致 
在 某 些 站 点 对 之 间 没 有 了 连接 。 如 果 一 个 系统 分 成 了 两 个 (或 更 多 ) 子 系统 ， 称 为 分 区 (partition) ， 分 
区 之 间 缺 乏 任 何 连接 ， 该 系统 就 是 被 划分 (partitioned) 的。 注意 在 这 种 定义 下 ,分 区 可 能 由 单个 站 点 
构成 。 


19.4 提交 协议 


如 果 我 们 要 保证 原子 性 ， 执 行事 务 7 的 所 有 站 点 就 必须 在 执行 的 最 终结 果 上 达成 一 致 。7 必须 做 
到 要 么 在 所 有 站 点 上 都 提交 ， 要 么 在 所 有 站 点 上 都 中 止 。 为 了 保证 这 个 特性 ，7 的 事务 协调 器 必须 执 
行 一 个 提交 协议 。 

两 阶段 提交 (Two-Phase Commit，2PC ) 协 议 是 最 简单 且 使 用 最 广泛 的 提交 协议 之 一 ， 将 在 19.4.1 
节 介 绍 。 另 外 一 种 是 三 阶段 提交 (Three-Phase Commit, 3PC) 协议 ， 它 避免 了 2PC 协议 的 某 些 缺 点 但 也 
增加 了 复杂 性 和 开销 。19. 4. 2 节 将 简要 概述 3PC 协议 。 

19. 4.1 两 阶段 提交 

我 们 首先 描述 两 阶段 提交 (2PC ) 协 议 在 一 般 的 操作 中 是 如 何 进 行 的， 然后 描述 它 如 何 处 理 故 障 ， 
并 在 最 后 描述 它 如 何 实现 恢复 和 并 发 控制 。 

考虑 一 个 从 站 点 5; 发 起 的 事务 7， 设 $; 的 事务 协调 器 是 Cio 

19.4.1.1 提交 协议 

当 了 完成 其 执行 时 ( 即 执行 了 的 所 有 站 点 都 通知 C 已 完成 了 了 的 执行 ) C 启动 2PC 协议 。 

。 阶段 1。C; 将 记录 < prepare 7 > 加 到 日 志 中 ， 并 强制 日 志 写 人 稳定 存储 器 上 。 接 着 它 将 一 条 

prepare 7 消息 发 送 到 执行 了 的 所 有 站 点 上 。 当 收 到 这 样 一 条 消息 时 ， 站 点 上 的 事务 管理 器 确 
定 它 是 否 愿 意 提交 了 中 属于 它 的 那 部 分 。 如 果 答 案 是 “不 ”， 事 务 管 理 器 就 把 记录 < no T> 加 到 
日 志 中 ， 然 后 通过 向 C; 发 送 一 条 abort T 消息 来 作为 响应 。 如 果 答 案 为 "是 ”， 事 务 管 理 器 就 把 
记录 < ready T> 加 到 日 志 中 ， 并 将 日 志 (包括 所 有 与 了 相关 的 日 志 记录 ) 强 制 写 人 稳定 存储 器 
上 。 然 后 事务 管理 器 通过 向 C; 回复 一 条 ready 7 消息 作为 回答 。 

e 阶段 2。 当 C; 收 到 所 有 站 点 对 prepare 7 消息 的 回答 时 ， 或 者 自 prepare 7 消息 发 送 后 经 过 了 一 
个 预定 的 时 间 间 隔 时 ，C; 就 可 以 确定 是 将 事务 7 提交 还 是 中 止 。 如 果 C 接受 到 来 自 所 有 参与 
站 点 的 ready 了 7 消息， 那么 事务 7 可 以 提交 。 和 否则 ， 事 务 了 必须 中 止 。 根 据 结论 ， 要 么 将 记录 
< commit 了 > 要 么 将 记录 < abort T> 加 到 日 志 中 ， 并 将 日 志 强制 写 人 稳定 存储 器 上 。 这 时 ， 事 
务 的 最 终结 果 就 已 经 确定 了 。 此 后 ， 协 调 器 向 所 有 参与 站 点 发 送 消 息 commit 7 或 abort T, “4 
站 点 收 到 此 消息 时 ， 它 就 把 此 消息 记录 到 日 志 中 。 

在 向 协调 器 发 送 ready 7 消息 之 前 ， 执 行 7 了 的 站 点 可 以 在 任何 时 候 无 条 件 地 中 止 7。 一 旦 发 出 
ready 7 消息 ， 站 点 上 的 事务 就 称 为 处 于 就 绪 状 态 (ready state) 。 在 效果 上 ，ready 7 消息 是 站 点 所 做 的 
承诺 : 即 按照 协调 器 的 命令 来 提交 了 或 中 止 了。 为 了 做 出 这 样 的 承诺 ， 所 需 信息 必须 首先 存储 在 稳定 
存储 器 中 。 否 则 ， 如 果 站 点 在 发 送 ready 7 后 崩溃 ， 它 可 能 就 不 能 兑现 自己 的 承诺 。 进 而 言 之 , 事务 
拥有 的 锁 必须 继续 保留 直到 事务 结束 。 

由 于 提交 事务 需要 全 体 一 致 ， 因 此 一 旦 有 至 少 一 个 站 点 回答 abort T, 事务 7 的 最 终结 果 就 决定 
了 。 因 为 作为 协调 器 的 站 点 5; 是 执行 7 的 站 点 之 一 ， 所 以 协调 器 可 以 单方 面 决定 中 止 7。 关 于 7 的 最 
后 结论 是 在 协调 器 将 此 结论 (提交 或 中 止 ) 写 入 日 志 并 强制 将 其 写 入 稳定 存储 器 时 确定 的 。 在 2PC 协议 
的 某 些 实 现 中 ， 站 点 在 协议 第 二 阶段 的 最 后 向 协调 器 发 送 acknowledge 7 消息 。 当 协调 器 收 到 所 有 站 
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点 发 来 的 acknowledge 7 消息 时 ， 它 就 把 记录 < complete T> 加 到 日 志 中 
19.4.1.2 故障 处 理 
2PC 协议 对 于 不 同类 型 的 故障 有 不 同方 式 的 反应 : 


参与 站 点 故障 (failure of a participating site) 。 如 果 协 调 器 C, 检测 到 某 个 站 点 发 生 了 故障 ， 它 将 
采取 如 下 行动 : 如 果 站 点 在 用 ready 7 消息 回答 C, 前 发 生 故 障 ， 则 协调 器 假定 该 站 点 是 用 
abort 7 消息 来 回答 的 。 如 果 站 点 在 协调 器 接收 到 从 该 站 点 发 来 的 ready 7 消息 后 发 生 故 障 ， 则 
协调 器 就 按照 通常 的 方式 执行 提交 协议 的 剩余 部 分 ， 忽 略 该 站 点 的 故障 。 

当 参 与 站 点 5; 从 故障 中 恢复 时 ， 它 必须 检查 它 的 日 志 来 决定 故障 发 生 时 正在 执行 中 的 事 

务 的 最 终结 果 。 设 7 是 一 个 这 样 的 事务 。 我 们 考虑 每 种 可 能 的 情况 : 

口 日 志 包 含 <commit 7> 记 录 。 在 这 种 情况 下 ， 该 站 点 执行 redo(7) ， 

口 日 志 包 含 <abort T > 记录。 在 这 种 情况 下 ,该 站 点 执行 undo( T). 

口 日 志 包 含 <ready T > 记录 。 在 这 种 情况 下 ， 该 站 点 必须 询问 C 以 决定 了 的 最 终结 果 。 如 果 
C 正在 工作 ， 它 就 通知 S, 关于 7 是否 提 交 或 中 止 的 信息 。 在 前 一 种 情况 下 ，S5; 执行 redo 
(T); 在 后 一 种 情况 下 ，5, 执行 undo(7) 。 如 果 C, 出 现 故 障 ，5; 就 必须 试图 从 其 他 站 点 找 
到 了 的 最 终结 果 。 它 通过 向 系统 中 所 有 站 点 发 送 querystatus 7 消息 来 进行 这 一 操作 。 站 点 收 
到 这 样 一 条 消息 ， 就 必须 查阅 其 日 志 来 判定 了 是 否 在 该 站 点 上 执行 过 ， 如 果 是 ， 还 要 看 了 是 
否 提交 或 中 止 。 接 着 它 把 这 样 的 结果 告知 5;。 如 果 没 有 站 点 提供 恰当 的 信息 ( 即 7 是否 提交 
或 中 止 )， 那 么 S, 既 不 能 中 止 了 也 不 能 提交 7。 关于 7 的 决定 被 推迟 到 S, 能 得 到 所 需 信 息 时 
Hiko EE, S, 必须 定期 地 向 其 他 站 点 重 发 querystatus 消息 。 它 不 断 这 么 做 ， 直 到 包含 所 
需 信息 的 某 个 站 点 恢复 为 止 。 注 意 C 所 在 站 点 总 会 有 所 需 的 信息 。 

O 日 志 没 有 包含 关于 7 的 控制 记录 (abort、commit、ready) 。 因 此 ， 我 们 知道 S, 在 响应 来 自 
C, 的 prepare 7 消息 前 发 生 了 故障 。 由 于 S, 的 故障 排除 了 发 送 这 样 一 个 响应 的 可 能 性 ， 根 据 
我 们 的 算法 ，C, 必须 中 止 7。 因 此 ，S, 必须 执行 undo( 7). 

协调 器 故障 (failure of the coordinator) 。 如 果 协 调 器 在 为 事务 7 执行 提交 协议 的 过 程 中 发 生 故障 ， 

那 就 必须 由 参与 的 那些 站 点 来 决定 事务 7 的 最 终结 果 。 我 们 将 会 看 到 ， 在 特定 情况 下 ， 参 与 站 

点 不 能 决定 是 否 提交 或 中 止 7， 因 此 这 些 站 点 必须 等 待 发 生 故障 的 协调 器 恢复 。 

O 如 果 活 路 站 点 在 其 日 志 中 包含 <commit 7> 记录 ， 则 7 必须 提交 。 

O 如 果 活 跃 站 点 在 其 日 志 中 包含 <abort T> 记录 ， 则 了 必 须 中 止 。 

O 如 果 某 些 活 路 站 点 在 其 日 志 中 没有 包含 < ready 7 > 记录 ， 则 发 生 故 障 的 协调 器 C 不 可 能 已 
经 决定 将 了 提交 ， 因 为 在 其 日 志 中 没有 < ready 7 > 记录 的 站 点 不 会 已 经 向 C; 发 送 过 ready T 
消息 。 但 是 ， 协 调 器 可 能 已 经 决定 中 止 7 而 不 是 提交 7。 与 等待 C; 恢复 相 比 ， 中 止 了 更 
为 可 取 。 

口 如 果 上 述 情 况 均 不 成 立 ， 则 所 有 活跃 站 点 在 它们 的 日 志 中 都 有 < ready 了 7 > 记录， 但 没有 
别 的 控制 记录 (如 <abort T > 或 < commit 7 > )。 由 于 协调 器 已 发 生 故 障 ， 因 此 不 等 到 
协调 器 恢复 ， 就 不 可 能 确定 是 否 已 经 做 出 决定 ， 就 算 已 做 了 决定 也 不 知道 做 出 的 决定 是 
什么 。 因 此 ,活跃 站 点 必须 等 待 C; 的 恢复 。 由 于 了 的 最 终结 果 仍 然 是 一 个 疑问 ， 因 此 了 
可 能 继续 占用 系统 资源 。 例 如 ， 如 果 使 用 封锁 ，7 可 能 拥有 活跃 站 点 的 数据 上 的 锁 。 这 
种 情况 不 是 所 希望 的 ， 因 为 可 能 需要 数 小 时 或 者 数 天 之 后 C, 才能 重新 变 得 活跃 。 在 这 
段 时 间 内 ， 其 他 事务 可 能 被 迫 等 待 7。 其 结果 是 ， 数 据 项 不 仅 在 发 生 故 障 的 站 点 (C;) 上 
不 可 用 ,而且 在 活跃 站 点 上 也 不 可 用 。 这 种 情况 称 为 阻塞 (blocking) 问题 ， 因 为 了 在 站 
AC, 恢复 的 过 程 中 阻塞 。 

网 络 划分 (network partition) 。 当 网 络 被 划分 时 ， 存 在 两 种 可 能 性 : 

口 协调 器 和 它 的 所 有 参与 者 处 于 一 个 分 区 中 。 这 种 情况 下 ， 故 障 对 提交 协议 没有 影响 。 

O 协调 器 和 它 的 参与 者 属于 几 个 分 区 。 从 其 中 一 个 分 区 的 站 点 的 角度 来 看 ， 就 好 像 其 他 分 区 中 
的 站 点 发 生 了 故障 一 样 。 不 在 协调 器 所 位 于 的 分 区 中 的 站 点 只 需要 执行 协议 来 处 理 协 调 器 的 
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故障 。 协 调 器 以 及 与 协调 器 在 同一 分 区 中 的 站 点 遵循 平常 的 提交 协议 ， 假 设 其 他 分 区 中 的 站 
点 发 生 了 故障 。 

因此 ，2PC 协议 的 主要 缺陷 在 于 协调 器 故障 可 能 导致 阻塞 ， 这 种 情况 下 必须 等 到 C, 恢复 才能 做 出 
提交 或 中 止 7 的 决定 。 

19.4.1.3 恢复 与 并 发 控制 

当 故 障 站 点 重新 启动 时 ， 我 们 可 以 通过 使 用 如 16. 4 节 描 述 的 恢复 算法 来 执行 恢复 。 为 了 处 理 分 布 
式 提交 协议 ， 恢 复 过 程 必须 特殊 对 待 疑问 事务 (in-doubt transaction); 疑问 事务 是 发 现 有 < ready T> H 
志 记 录 ， 但 既 未 发 现 < commit T> 日 志 记 录 ， 也 未 发 现 < abort T> 日 志 记录 的 事务 。 如 同 19. 4. 1. 2 节 
描述 的 那样 ， 恢 复 站 点 必须 通过 与 其 他 站 点 的 联系 来 确定 这 种 事务 的 提交 - 中 止 状 态 。 

但 是 ， 如 果 恢 复 像 刚 才 所 描述 的 那样 执行 ， 该 站 点 上 正常 的 事务 处 理 就 只 有 等 所 有 疑问 事务 提交 
或 回 滚 后 才能 开始 。 找 出 疑问 事务 的 状态 可 能 会 很 慢 ， 因 为 可 能 不 得 不 与 多 个 站 点 进行 联系 。 此 外 ， 
如 果 协 调 器 发 生 故 障 ， 并 且 别 的 任何 站 点 都 没有 关于 未 完成 事务 的 提交 - 中 止 状态 信息 ， 在 使 用 2PC 
时 就 存在 恢复 被 阻塞 的 潜在 可 能 。 其 结果 是 ， 执 行 重 启 恢 复 的 站 点 在 很 长 一 段 时 间 内 都 保持 不 可 使 用 
状态 。 

为 了 防止 这 个 问题 ， 恢 复 算 法 通常 提供 对 在 日 志 中 记载 封锁 信息 的 支持 。( 我 们 在 此 假设 封锁 用 于 
并 发 控制 。) 该 算法 所 写 的 日 志 记录 不 是 <ready 7 > ， 而 是 < ready T, L> 日志 记 录 ， 其 中 也 是 写 人 日 
志 记 录 时 事务 7 持 有 的 所 有 写 锁 的 列表 。 在 恢复 时 ， 在 执行 局 部 恢复 动作 之 后 ， 对 每 个 疑问 事务 7 而 
言 ，<ready T, L> 日 志 记录 (从 日 志 中 读 到 ) 中 所 记载 的 所 有 写 锁 都 需要 重新 获取 。 

当 所 有 疑问 事务 的 封锁 重新 获取 完成 后 ， 即 使 在 疑问 事务 的 提交 - 中 止 状态 确定 之 前 ， 该 站 点 上 
的 事务 处 理 就 可 以 开始 了 。 疑 问 事务 的 提交 或 回 滚 与 新 事务 的 执行 是 并 发 进行 的 。 这 样 ， 站 点 恢复 就 
更 快 了 ， 并 且 不 再 会 阻塞 。 注 意 如 果 新 事务 持 有 的 封锁 与 疑问 事务 持 有 的 任何 写 锁 冲 突 的 话 ， 那么 新 
事务 只 有 等 与 之 冲突 的 疑问 事务 提交 或 回 滚 后 才能 继续 运行 。 
19. 4.2 三 阶段 提交 

三 阶段 提交 (3PC ) 协 议 是 对 两 阶段 提交 协议 的 扩展 ， 它 在 特定 假设 下 避免 了 阻塞 问题 。 特 别 地 ， 
它 假设 不 发 生 网 络 划分 ， 并 且 不 超过 上 个 站 点 发 生 故 障 ， 这 里 的 是 某 个 预先 定义 的 数值 。 在 这 些 假 
设 下 ， 该 协议 通过 引入 一 个 额外 的 第 三 阶段 来 避免 阻塞 ， 在 该 阶段 多 个 站 点 会 涉及 提交 的 决定 。 协 调 
器 不 是 在 其 持久 存储 中 直接 记录 提交 决定 ， 而 是 首先 保证 至 少 有 此 个 其 他 站 点 知道 它 打算 提交 事务 。 
如 果 协 调 器 出 故障 ， 剩 下 的 站 点 首先 选择 一 个 新 的 协调 器 。 这 个 新 的 协调 器 从 剩 下 的 站 点 中 检查 协议 
的 状态 ， 如 果 协 调 器 已 经 决定 提交 ， 那 么 其 他 大 个 被 通知 的 站 点 中 至 少 有 一 个 还 在 工作 而 且 确 保 提交 
决定 会 考虑 。 如 果 一 些 站 点 知道 日 的 协调 器 打算 提交 事务 ， 那 么 新 的 协调 器 重新 开始 协议 的 第 三 阶段 。 
否则 新 的 协调 器 中 止 该 事务 。 

虽然 3PC 协议 有 令 人 满意 的 特性 一 一 它 只 在 个 站 点 故障 时 才 会 阻塞 , 但 是 它 有 一 个 缺点 是 网 络 
划分 会 与 超过 上 个 站 点 发 生 故 障 产 生 同 样 的 效果 ， 而 这 将 导致 阻塞 。 协议 还 必须 小 心地 实现 以 保证 网 
络 划分 (或 者 多 于 上 个 站 点 发 生 故障 ) 不 会 导致 不 一 致 性 ， 即 在 一 个 分 区 中 事务 提交 ， 而 在 男 一 个 分 区 
中 事务 中 止 。 由 于 其 开销 的 原因 ，3PC 协议 没有 广泛 使 用 。 请 参看 文献 注解 中 的 文献 来 了 解 3PC 协议 
的 更 多 细节 。 
19. 4.3， 事 务 处 理 的 可 选择 性 模型 

对 于 许多 应 用 ， 两 阶段 提交 的 阻塞 问题 是 不 可 接受 的 。 这 里 的 问题 是 单个 事务 在 多 个 站 点 上 工作 
的 概念 。 这 一 节 描 述 如 何 使 用 持久 消息 来 避免 分 布 式 提交 的 问题 ， 然 后 简单 概述 工作 流 的 更 大 的 问题 ; 
26. 2 节 将 从 更 多 细节 上 考虑 工作 流 。 

为 了 理解 持久 消息 ， 考 虑 如 何在 两 个 不 同 的 银行 之 间 转 账 资金 ， 其 中 每 个 银行 都 有 它 自己 的 计算 
机 。 一 种 方法 是 产生 一 个 跨越 两 个 站 点 的 事务 ， 并 采用 两 阶段 提交 来 保证 原子 性 。 然 而 ， 该 事务 可 能 
需要 更 新 银行 的 总 余额 ， 并 且 阻 塞 会 对 每 个 银行 的 所 有 其 他 事务 产生 严重 影响 ， 因 为 几乎 银行 中 的 所 
有 事务 都 会 更 新 银行 的 总 余额 。 
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相反 ， 考 虑 如 何 通 过 银行 支票 来 进行 资金 转账 。 银 行 首先 从 可 用 的 余额 里 扣除 支票 金额 ， 并 把 支 
票 打 印 出 来 。 然 后 ， 支 票 被 物理 地 送 到 它 需 要 存 人 的 另 一 家 银行 。 在 审核 支票 之 后 ， 银 行 根据 支票 金 
额 来 增加 本 地 的 余额 。 支 票 就 构成 了 两 家 银行 之 间 的 一 次 消息 传递 。 为 了 使 资金 不 消失 也 不 错误 地 增 
长 ， 支 票 必须 不 能 丢失 、 复 制 或 者 存 人 多 次 。 当 银行 的 计算 机 通过 网 络 相连 时 ， 持 久 消息 就 提供 和 支 
票 同样 的 服务 ( 当然 要 快 得 多 ) 。 
持久 消息 (persistent message) 是 这 样 的 消息 : 如 果 发 送 该 消息 的 事务 提交 ， 则 不 管 是 否 发 生 故障 ， 
它 都 保证 传送 给 接受 者 恰好 一 次 ( 既 不 多 也 不 少 ) ; 如 果 该 事务 中 止 则 持久 消息 保证 不 传送 。 我 们 马上 
将 会 看 到 ， 在 一 般 网 络 通道 的 上 面 ， 采 用 数据 库 恢 复 技术 来 实现 持久 消息 。 相 反 ， 通 常 的 消息 在 某 些 
情况 下 可 能 会 丢失 或 者 甚至 传送 多 次 。 
持久 消息 的 错误 处 理 比 两 阶段 提交 更 复杂 。 例 如 ， 如 果 支 票 要 存 人 的 账户 已 经 关闭 ， 则 支票 必须 
被 送 回 并 且 退 还 到 原来 的 账户 。 因 此 两 个 站 点 都 必须 有 错误 处 理 代码 ， 以 及 处 理 持久 消息 的 代码 。 相 
反 ， 使 用 两 阶段 提交 ， 错 误 可 以 被 事务 检测 到 ， 该 事务 就 不 会 扣除 第 一 家 银行 的 资金 。 
可 能 出 现 的 异常 情况 类 型 取决 于 应 用 ， 因 此 数据 库 系 统 不 可 能 自动 处 理 异常 。 发 送 和 接受 持久 消 
息 的 应 用 程序 必须 包含 处 理 异常 情况 的 代码 ， 并且 可 以 使 系统 恢复 到 一 致 性 状态 。 例 如 ， 如 果 接 受 资 
金 的 账户 已 经 关闭 ， 则 丢失 正在 转账 的 资金 是 不 可 接受 的 : 资金 必须 归还 给 原来 的 账户 ， 并 且 如 果 由 
于 某 些 原因 不 能 这 样 处 理 ， 必 须发 出 警告 来 人 工 解决 这 种 问题 。 
在 许多 应 用 中 消除 阻塞 的 好 处 和 实现 使 用 持久 消息 的 系统 所 需 付 出 的 额外 代价 相 比 是 值得 的 。 事 
实 上 ， 由 于 故障 会 导致 本 地 数据 访问 的 阻塞 ， 因 此 很 少 有 组 织 机 构 会 同意 支持 在 该 组 织 机 构 之 外 发 起 
的 事务 的 两 阶段 提交 。 因 此 持久 消息 在 执行 跨越 组 织 机 构 边 界 的 事务 中 扮演 了 重要 角色 。 
工作 流 提 供 了 一 种 通用 的 事务 处 理 模型 ， 涉 及 多 个 站 点 并 可 能 需要 人 工 处 理 特定 的 步骤 。 例 如 ， 
当 银 行 接收 到 一 个 借贷 申请 时 ， 在 批准 或 者 拒绝 这 个 借贷 申请 之 前 ， 它 必须 经 过 很 多 步 又， 包括 联系 
外 部 信用 检查 代理 。 所 有 步骤 一 起 形成 了 一 个 工作 流 。 我 们 将 在 26. 2 节 学 习 工 作 流 的 更 多 细节 。 我 们 
还 注意 到 持久 消息 在 分 布 式 环境 中 形成 了 工作 流 的 基础 。 
我 们 现在 考虑 持久 消息 的 实现 (implementation ) 。 持 和 久 消 息 可 以 通过 下 面 这 些 协议 在 不 可 靠 的 消息 
传递 基础 架构 之 上 实现 ， 这 种 基础 架构 可 能 丢失 消息 或 多 次 传送 消息 。 
© 发 送 站 点 协议 (sending site protocol): 当 事 务 希望 发 送 持久 消息 时 ， 它 在 专用 关系 messages_to_ 
send 中 写 一 条 包含 消息 的 记录 ， 而 不 是 直接 向 外 发 送 消息 。 这 个 消息 也 被 赋予 一 个 唯一 的 消息 
标识 符 。 
消息 传送 进程 监控 该 关系 ， 当 发 现 一 条 新 消息 时 ， 它 将 消息 发 送 到 其 目的 地 。 通 常 的 数据 
库 并 发 控制 机 制 保证 系统 进程 只 在 写 消息 的 事务 提交 之 后 才能 读 取 消息 ， 如 果 该 事务 中 止 ， 通 
常 的 恢复 机 制 将 从 该 关系 中 删除 消息 。 
消息 传送 进程 只 在 它 收 到 目的 站 点 的 确认 之 后 才 从 该 关系 中 删除 消息 ， 如 果 它 没有 收 到 来 
自 目 的 站 点 的 确认 ， 在 一 段 时 间 之 后 它 将 重 发 消息 。 它 如 此 反复 直到 收 到 确认 为 止 。 万 一 发 生 
永久 故障 ， 系 统 将 在 一 段 时 间 之 后 决定 消息 无 法 传达 。 然 后 调用 由 应 用 程序 提供 的 异常 处 理 代 
码 来 处 理 故 障 。 
在 事务 提交 之 后 才 将 消息 写 到 关系 并 处 理 它 ， 保 证 了 当 且 仅 当 事务 提交 之 后 消息 才 会 传 
送 。 重 复发 送 消息 保证 了 即使 在 (临时 的 ) 系 统 或 者 网 络 故 障 的 时 候 ， 消 息 也 会 传送 。 
© 接收 站 点 协议 (receiving site protocol) 。 当 站 点 接收 到 持久 消息 时 ， 它 运行 一 个 事务 将 消息 加 入 
到 专用 关系 received_messages 中 ， 前 提 是 该 消息 没有 出 现在 该 关系 中 (唯一 的 消息 标识 符 允 许 检 
测 出 重复 ) 。 在 事务 提交 之 后 ， 或 者 消息 已 经 出 现在 该 关系 中 时 ， 接 收 站 点 向 发 送 站 点 发 回 一 
个 确认 。 
注意 到 在 事务 提交 前 发 送 确认 是 不 安全 的 ， 因 为 随后 发 生 的 系统 故障 可 能 导致 消息 的 丢失 。 有 必 
要 检查 消息 是 否 早先 已 经 接收 过 以 避免 消息 的 多 次 传送 。 
在 许多 消息 系统 中 ， 尽 管 随机 的 消息 延迟 很 少 发 生 , 但 是 有 可 能 发 生 。 因 此 ， 为 了 安全 ， 消 息 必 
须 永 不 从 关系 received_messages 中 删除 。 删 除 消息 会 导致 无 法 检测 到 重复 传送 。 但 是 这 样 做 的 结果 会 导 
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致 关系 received_messages 的 无 限 增长 。 为 了 处 理 这 个 问题 ， 每 条 消息 被 赋予 一 个 时 间 稚 ， 并 且 如 果 接 收 


到 的 消息 的 时 间 戳 比 某 个 截止 期 老 ， 则 该 消息 被 丢弃。 在 关系 received_messages 中 记录 的 比 截止 期 老 的 [838 | 


所 有 消息 都 可 以 删除 。 


19.5 分 布 式 数据 库 中 的 并 发 控制 


这 里 说 明 第 15 章 所 讨论 的 某 些 并 发 控制 模式 该 做 何 种 修改 以 使 之 适用 于 分 布 式 环境 。 我 们 假设 每 
个 站 点 都 参与 到 提交 协议 的 执行 中 ， 以 保证 全 局 事务 的 原子 性 。 

本 节 描 述 的 协议 需要 对 数据 项 的 所 有 副本 进行 更 新 。 如 果 任 何 一 个 包含 数据 项 副本 的 站 点 发 生 故 
障 ， 那 么 对 该 数据 项 的 更 新 就 不 能 进行 。19. 6 节 描 述 即使 在 一 些 站 点 或 者 链接 发 生 故 障 时 仍 能 继续 事 
务 处 理 ， 从 而 提供 高 可 用 性 的 一 些 协 议 。 

19.5.1 封锁 协议 

第 15 章 描述 的 各 种 封锁 协议 都 可 用 于 分 布 式 环境 中 。 需 要 做 的 唯一 改变 是 锁 管 理 器 处 理 复 制 数据 
的 方式 。 我 们 给 出 适用 于 数据 能 在 几 个 站 点 上 复制 的 环境 下 的 几 种 可 能 的 模式 。 和 第 15 章 一 样 ， 我 们 
将 假设 存在 共享 和 排他 封锁 模式 。 

19. 5.1.1 单一 锁 管理 器 方式 

在 单一 锁 管理 器 (single lock-manager) 方式 下 ， 系 统 维护 位 于 单个 选 定 站 点 (如 5,;) 中 的 单一 锁 管 理 
器 。 所 有 封锁 和 解锁 请 求 都 在 站 点 5; 上 处 理 。 当 事务 需要 给 数据 项 加 锁 时 ， 它 就 向 S, 发 封锁 请 求 。 锁 
管理 器 决定 锁 是 否 能 够 立即 授予 。 如 果 锁 能 够 授予 ， 锁 管理 器 就 给 发 起 封锁 请 求 的 站 点 发 一 条 告知 此 
结果 的 消息 。 和 否则 ， 请 求 就 推迟 直到 锁 能 授予 为 止 ， 这 时 才能 发 送 消息 给 发 起 封锁 请 求 的 站 点 。 事 务 
可 以 从 该 数据 项 副本 所 在 站 点 中 的 任何 一 个 来 读 取 该 数据 项 。 在 写 情 况 下 ， 所 有 存在 该 数据 项 副本 的 
站 点 都 必须 参与 到 写 操作 中 。 

这 个 模式 有 这 些 优 点 : 

。 实现 简单 (simple implementation) 。 该 模式 处 理 封锁 请 求 需要 两 条 消息 ， 处 理解 锁 请 求 需要 一 条 

消息 。 

e 死 锁 处 理 简 单 (simple deadlock handling) 。 由 于 所 有 封锁 和 解锁 请 求 在 一 个 站 点 上 处 理 ， 因 此 可 

以 直接 运用 第 15 章 讨 论 的 死 锁 处 理 算 法 。 

这 个 模式 的 缺点 是 : 

© 瓶颈 (bottleneck) 。 站 点 5; 成 为 瓶颈 ， 因 为 所 有 请 求 都 必须 在 这 里 处 理 。 

。 Wess (vulnerability), WR S 发 生 故 障 ， 就 会 丢失 并 发 控制 器 。 要 么 必须 停止 处 理 过程 BEA 

必须 像 19. 6. 5 节 描 述 的 那样 使 用 恢复 方案 来 使 一 个 后 备 站 点 从 S 那里 接手 封锁 管理 。 

19. 5. 1.2 分布 式 锁 管 理 器 

通过 分 布 式 锁 管理 器 (distributed lock-manager) 方 法 可 以 达到 优点 和 缺点 之 间 的 一 种 折 中 方案 ， 在 
该 方案 中 封锁 管理 器 功能 分 布 在 多 个 站 点 上 。 

每 个 站 点 维护 一 个 本 地 锁 管 理 器 ， 它 的 功能 是 管理 存储 在 该 站 点 上 的 那些 数据 项 的 封锁 和 解锁 
请 求 。 当 事务 想 要 封锁 数据 项 0( 0 未 复制 ， 且 存储 在 站 点 S 上 ) 时， 就 发 送 一 条 消息 到 站 点 S; 上 的 
锁 管 理 器 来 请 求 一 个 锁 ( 以 特定 的 锁 模 式 ) 。 如 果 数 据 项 0 以 不 相 容 的 模式 封锁 ， 那 么 请 求 就 会 延迟 
到 锁 可 以 授予 为 止 。 一旦 锁 管 理 器 决定 允许 封锁 请 求 ， 就 向 发 起 者 发 消息 来 表明 其 封锁 请 求 已 经 
许可 。 

19. 5. 1.3 ~19. 5. 1. 6 节 将 讨论 处 理 数据 项 复制 的 几 种 可 选 方 法 。 

分 布 式 锁 管 理 器 模式 具有 实现 简单 的 优点 ， 而 且 减 轻 了 协调 者 成 为 瓶颈 的 程度 。 它 有 合理 的 低 开 
销 ， 处 理 封 锁 请 求 需要 两 次 消息 传输 ， 并 且 处 理解 锁 请 求 只 需 一 次 消息 传输 。 但 是 ， 由 于 封锁 和 解锁 
请 求 不 再 在 单个 站 点 上 处 理 ， 因 此 死 锁 处 理 更 加 复杂 : 即使 在 单个 站 点 内 没有 死 锁 ， 仍 可 能 会 在 站 点 
之 间 发 生死 锁 。 为 了 检测 全 局 的 死 锁 ， 第 15 章 讨 论 的 死 锁 处 理 算法 必须 修改 ， 对 此 我 们 将 在 19. 5.4 
节 讨 论 。 
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19. 5. 1.3 主 副 本 
在 系统 使 用 数据 复制 时 ， 我们 可 以 选择 一 个 副本 作为 主 副 本 (primary copy) 。 对 每 个 数据 项 0 而 
，Q 的 主 副本 必然 正好 位 于 一 个 站 点 上 ， 我 们 称 其 为 Q 的 主 站 点 (primary site), 
当 事 务 需要 封锁 数据 项 0 时 ， 它 在 @ 的 主 站 点 上 请 求 封锁 。 和 前 面 一 样 ， 对 该 请 求 的 响应 会 推迟 
到 该 请 求 能 满足 为 止 。 主 副本 使 得 对 已 复制 数据 的 并 发 控制 可 以 像 处 理 未 复制 的 数据 一 样 。 这 种 相似 
性 简化 了 实现 。 然 而 ， 如 果 0 的 主 站 点 发 生 故障 ， 即 使 包含 副本 的 其 他 站 点 是 可 以 访问 的 ，@ 也 不 能 
被 访问 了 。 
19.5.1.4 多 数 协议 
多 数 协议 (majority protocol) 以 这 种 方式 工作 : 如 果 数 据 项 0 在 个 不 同 的 站 点 复制 ， 则 封锁 请 求 
消息 必须 发 送 到 存储 0 的 nn 个 站 点 中 一 半 以 上 的 站 点 。 每 个 锁 管 理 器 (只 要 是 牵涉 的 ) 确 定 锁 是 否 能 立 
即 授予 。 和 前 面 一 样 ， 响 应 推迟 到 该 请 求 能 满足 时 为 止 。 事务 只 有 在 成 功 获得 0 的 多 数 副 本 上 的 锁 之 
后 才能 开始 O 上 的 操作 。 
我 们 暂时 假定 在 所 有 副本 上 执行 写 操作 时 ， 要 求 包含 副本 的 所 有 站 点 都 是 可 用 的 。 但 是 ， 多 数 协 
议 的 主要 优点 是 它 能 扩展 来 处 理 站 点 故障 ， 正 如 我 们 将 在 19. 6. 1 节 中 看 到 的 那样 。 此 协议 还 以 分 散 的 
方式 来 处 理 复 制 的 数据 ， 因 此 避免 了 集中 控制 的 缺点 。 但 是 ， 它 有 这 些 缺 点 : 
© 实现 (implementation)。 多 数 协 议 比 前 面 的 方案 在 实现 上 更 为 复杂 。 它 至 少 需 要 2(n/2+1) 条 消 
息 来 处 理 封锁 请 求 ， 至 少 需要 (n/2 +1) 条 消息 来 处 理解 锁 请 求 。 

© 死 锁 处 理 ( deadlock handling) 。 除 了 因为 使 用 分 布 式 锁 管 理 器 方式 而 产生 的 全 局 死 锁 问题 ， 即 使 
只 有 一 个 数据 项 被 封锁 也 可 能 发 生死 锁 。 作 为 例子 ， 考 查看 一 个 有 4 个 站 点 和 完全 复制 的 系 
统 。 假 设 事务 7 AT, 希望 以 排他 模式 封锁 数据 项 0。 事 务 T, 可 能 在 站 点 S 和 5; 上 成 功 封锁 
Q@， 而 事务 T, 可 能 在 站 点 S, AS, 上 成 功 封锁 0。 然 后 两 个 事务 必须 等 待 获 得 第 三 个 锁 ; 于 是 
就 发 生 了 死 锁 。 幸 运 的 是 ， 通 过 要 求 所 有 站 点 以 相同 的 预定 顺序 来 请 求 数据 项 副本 上 的 封锁 ， 
我 们 可 以 比较 容易 地 避免 这 样 的 死 锁 。 

19.5.1.5 有 偏 协议 

有 偏 协议 (biased protocol ) 是 另 一 种 处 理 复制 的 方法 。 与 多 数 协 议 的 区 别 是 对 共享 锁 请 求 的 待遇 比 
排他 锁 请 求 要 优越 一 些 。 

o 共享 锁 ( shared lock) 。 当 事务 需要 封锁 数据 项 0 时 ， 它 只 需要 向 包含 0 的 副本 的 一 个 站 点 上 的 

锁 管 理 器 请 求 0 上 的 锁 。 
© 排他 锁 (exclusive lock) 。 当 事务 需要 封锁 数据 项 0 时 ， 它 需要 向 包含 Q 的 副本 的 所 有 站 点 上 的 
锁 管 理 器 请 求 0 上 的 锁 。 
和 前 面 一 样 ， 对 请 求 的 响应 推迟 到 该 请 求 能 满足 为 止 。 

有 偏 模式 具有 附加 到 读 (read) 操作 上 的 开销 比 多 数 协议 要 小 的 优点 。 通 常情 况 下 读 (read) 频率 比 
5 (write) 频率 要 高 得 多 ， 这 种 开销 的 节省 就 尤为 明显 。 但 是 ， 写 上 的 额外 开销 是 此 模式 的 一 个 缺点 。 
此 外 ， 有 偏 协议 和 多 数 协议 一 样 具 有 死 锁 处 理 复杂 的 缺点 。 

19.5.1.6 法 定 人 数 同意 协议 

法 定 人 数 同 意 ( quorum consensus) 协议 是 多 数 协议 的 一 种 概 化 。 法 定 人 数 同意 协议 给 每 个 站 点 分 配 
一 个 非 负 的 权重 。 它 为 数据 项 x 上 的 读 和 写 操作 分 配 两 个 整数 ， 称 作 读 法 定 人 数 (read quorum) Q, 和 写 
法 定 人 数 (write quorum) 0, ， 它 们 必须 满足 下 面 的 条 件 ， 其 中 5 是 x 所 在 的 所 有 站 点 的 总 权重 : 

Q,+ Q, > Sand20,>5 

为 了 执行 读 操作 ， 必 须 封 锁 足 够 的 副本 ， 使 它们 的 总 权重 至 少 是 r。 为 了 执行 写 操作 ， 必 须 封 锁 足 
够 的 副本 ， 使 它们 的 总 权重 至 少 是 w, 

法 定 人 数 同意 方法 的 好 处 是 : 通过 合适 地 定义 读 和 写法 定 人 数 ， 它 能 够 选择 性 地 降低 读 或 者 写 封 
锁 的 代价 。 例 如 ， 如 果 读 法 定 人 数 很 小 ， 读 操作 只 须 获得 较 少 的 锁 ， 但 是 写法 定 人 数 就 会 比较 高 ， 因 
此 写 操作 需要 获得 更 多 的 锁 。 当 然 ， 如 果 某 些 站 点 被 分 配 了 较 大 的 权重 ( 例如， 那些 很 少 可 能 发 生 故 障 
的 站 点 ) ， 那 么 在 封锁 请 求 时 需要 访问 的 站 点 会 更 少 一 些 。 事 实 上 ， 通 过 合适 地 设置 权重 和 法 定 人 数 ， 
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法 定 人 数 同意 协议 可 以 模拟 多 数 协 议和 有 偏 协议 。 

和 多 数 协议 一 样 ， 法 定 人 数 同 意 协 议 能 扩展 为 甚至 在 站 点 故障 情况 下 工作 ， 正 如 我 们 将 在 19. 6. 1 
节 中 看 到 的 那样 。 
19.5.2 WER 

15. 4 节 中 的 时 间 戳 模式 后 面 的 基本 思想 是 : 每 个 事务 被 赋予 一 个 唯一 的 时 间 戳 ， 系 统 用 时 间 戳 来 
决定 串 行 化 顺序 。 因 而 ， 在 将 集中 式 模 式 推广 到 分 布 式 模式 时 ， 我 们 的 首要 任务 就 是 设计 一 种 产生 唯 
一 时 间 戳 的 方案 。 这 样 ， 前 面 的 各 种 协议 就 可 以 直接 运用 于 无 复制 的 环境 . 

产生 唯一 时 间 戳 的 方法 主要 有 两 种 ， 一 种 是 集中 式 的 ， 而 另 一 种 是 分 布 式 的 。 在 集中 式 模式 中 ， 
由 单个 站 点 来 分 发 时 间 惟 。 这 个 站 点 可 以 用 逻辑 计数 器 或 其 自身 的 本 地 时 钟 来 达到 此 目的 。 

在 分 布 式 模式 中 ， 每 个 站 点 使 用 逻辑 计数 器 或 本 地 时 钟 来 产生 唯一 的 局 部 时 间 惟 。 通 过 将 唯一 的 
局 部 时 间 惟 和 站 点 标识 符 ( 也 必须 是 唯一 性 的 ) 串 接 起 来 ， 我 们 得 到 了 唯一 的 全 局 时 间 戳 ( 见 图 19-3) 
串 接 的 顺序 是 很 重要 的 ! 我 们 把 站 点 标识 符 放 在 重要 性 低 的 位 置 ， 以 保证 一 个 站 点 上 产生 的 全 局 时 间 
玲 不 会 总 是 比 另 一 个 站 点 上 产生 的 全 局 时 间 戳 大。 请 比较 这 种 产生 唯一 时 间 惟 的 技术 和 19. 2. 3 节 介 绍 
的 产生 唯一 名 称 的 技术 。 


局 部 唯一 
FAS Ta] 


站 点 
标识 符 





全 局 唯一 
标识 符 


图 19-3 ”唯一 时 间 戳 的 产生 


如 果 一 个 站 点 产生 局 部 时 间 戳 的 速率 比 其 他 站 点 高 ， 我 们 仍然 会 遇 到 问题 。 在 这 种 情况 下 ， 快 站 
点 的 逻辑 计数 器 会 比 其 他 站 点 的 大 。 因 此 ， 快 站 点 产生 的 所 有 时 间 惟 会 比 其 他 站 点 产生 的 时 间 戳 大 
我 们 需要 一 种 机 制 来 保证 整个 系统 中 局 部 时 间 戳 能 公平 地 产生 。 我们 在 每 个 站 点 5; 中 定义 一 个 逻辑 时 
钟 (logical clock) (LC;)， 后 者 产生 唯一 的 局 部 时 间 惟 。 逻 辑 时 钟 可 以 用 计数 器 来 实现 ， 每 产生 一 个 新 
的 局 部 时 间 戳 计数 器 就 递增 。 为 了 保证 不 同 的 逻辑 时 钟 是 同步 的 ， 我 们 要 求 无 论 什 么 时 候 ， 只 要 具有 
HERR <x, y> 的 事务 7, 访问 站 点 5; 并 且 x KF LC 的 当前 值 ，$; 就 增 大 其 逻辑 时 钟 。 在 这 种 情况 下 ， 
站 点 5; 将 其 逻辑 时 钟 增 大 到 值 x+1。 

如 果 用 系统 时 钟 来 产生 时 间 戳 ， 只 要 任意 站 点 的 系统 时 钟 都 不 会 运行 过 快 或 过 慢 ， 那 么 时 间 惟 的 
分 配 就 是 公平 的 。 由 于 时 钟 可 能 不 是 完全 精确 的 ， 因 此 必须 采用 和 用 于 逻辑 时 钟 类 似 的 技术 来 保证 没 
有 时 钟 比 另 一 个 时 钟 更 快 或 更 慢 。 
19.5.3 弱 一 致 性 级 别 的 复制 

现在 许多 商用 数据 库 都 支持 某 种 形式 的 复制 。 在 主 从 复制 (master-slave replication) 的 情况 下 ， 数 据 
库 允许 在 主 站 点 上 更 新 ， 并 自动 将 更 新 传播 到 其 他 站 点 上 的 副本 。 事 务 可 以 在 其 他 站 点 上 读 取 副本 ， 
但 是 不 允许 对 它们 更 新 。 . 

这 种 复制 的 一 个 重要 特性 是 事务 在 远程 站 点 上 没有 得 到 锁 。 为 了 保证 运行 在 副本 站 点 上 的 事务 看 
到 数据 库 的 一 致 性 (但 可 能 是 过 期 的 ) 视图 ， 副 本 应 该 反映 主 站 点 上 数据 的 事务 一 致 快照 (transaction- 
consistent snapshot); 即 ， 副 本 应 该 反映 在 串 行 化 顺序 中 先 于 某 个 事务 的 那些 事务 所 做 的 所 有 更 新 ， 而 
不 应 该 反映 在 串 行 化 顺序 中 后 于 该 事务 的 那些 事务 所 做 的 任何 更 新 。 

数据 库 可 能 配置 成 在 主 站 点 发 生 更 新 之 后 马上 传播 更 新 ， 或 者 只 是 周期 性 地 传播 更 新 。 

主 从 复制 对 于 分 发 信息 特别 有 用 ， 例 如 从 一 个 组 织 机 构 的 中 央 办 公 室 到 分 支 办 公 室 。 这 种 复制 形 
式 的 另 一 个 应 用 是 创建 数据 库 的 副本 以 运行 大 的 查询 ， 这 样 查询 就 不 会 与 事务 交互 。 更 新 应 该 周期 性 
地 传播 (例如 ， 每 个 晚上 ) ， 这 样 更 新 传播 就 不 会 影响 到 查询 处 理 。 

Oracle 数据 库 系统 支持 快照 创建 (create snapshot) 语 句 ， 该 语句 可 以 创建 远程 站 点 上 一 个 关系 或 一 
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组 关系 的 事务 一 致 性 快照 副本 。 它 也 支持 快照 刷新 ， 可 以 通过 重新 计算 或 增 量 更 新 快照 来 实现 。Oracle 
支持 自动 刷新 ， 刷 新 可 以 是 连续 的 也 可 以 是 按 周期 性 时 间 间 隔 的 。 
在 多 主 副 本 (multimaster replication) (也 称 为 可 在 任何 地 方 更 新 的 复制 (update-anywhere replication ) ) 
情况 下 ， 人 允许 在 数据 项 的 任何 副本 上 更 新 ， 并 且 自 动 传播 到 所 有 副本 。 这 种 模型 是 用 于 管理 分 布 式 数 
据 库 副本 的 基本 模型 。 事 务 更 新 本 地 的 副本 ， 并 由 系统 透明 地 更 新 其 他 副本 。 
更 新 副本 的 一 种 方法 是 使 用 我 们 见 过 的 一 种 分 布 式 并 发 控制 技术 ， 以 两 阶段 提交 来 实现 立即 更 新 。 
许多 数据 库 系 统 使 用 有 偏 协 议 来 作为 它们 的 并 发 控制 技术 ， 其 中 写 操作 必须 封锁 和 更 新 所 有 副本 ， 且 
读 操作 仅 封锁 和 读 取 任 意 副 本 。 
许多 数据 库 系 统 提供 另 一 种 形式 的 更 新 : 它们 在 一 个 站 点 上 更 新 ， 采 用 延迟 传播 (lazy propagation ) 
将 更 新 传播 到 其 他 站 点 ， 而 不 是 把 更 新 立即 传播 到 所 有 副本 的 操作 作为 事务 执行 更 新 的 一 部 分 。 即 使 
在 一 个 站 点 与 网 络 断 连 时 ， 基 于 延迟 传播 的 方案 仍 允 许 进行 事务 处 理 ( 包 括 更 新 ) ， 因 而 提高 了 可 用 
性 ， 但 遗憾 的 是 ， 这 样 做 是 以 牺牲 一 致 性 为 代价 的 。 在 使 用 延迟 传播 时 ， 以 下 两 种 方法 之 一 通常 被 
采用 : 
。 在 副本 上 的 更 新 被 转化 为 在 主 站 点 上 的 更 新 ， 然 后 延迟 传播 到 所 有 副本 。 这 种 方法 保证 对 数据 
项 的 更 新 以 串 行 化 顺序 进行 ， 但 是 可 能 发 生 可 串 行 化 问题 ， 因 为 事务 可 能 读 取 某 些 其 他 数据 项 
的 旧 值 并 用 它 来 执行 更 新 。 

。 更 新 在 任何 副本 上 执行 ， 并 传播 到 所 有 其 他 副本 。 由 于 同一 个 数据 项 可 能 在 多 个 站 点 并 发 地 更 
新 ， 因 此 这 种 方法 可 能 导致 更 多 的 问题 。 

当 更 新 传播 到 其 他 站 点 (我 们 将 在 25. 5. 4 节 中 看 到 如 何 操 作 ) 时 ， 由 于 缺少 分 布 式 的 并 发 控制 ， 可 
能 会 检测 到 一 些 冲 突 ， 但 是 解决 冲突 涉及 已 提交 事务 的 回 深 ， 这 样 就 无 法 保证 已 提交 事务 的 持久 性 。 
并 且 ， 可 能 需要 人 为 干涉 来 处 理 冲突 。 因 此 上 面 的 方案 应 该 避免 或 者 小 心 使 用 。 

19.5.4 死 锁 处 理 

第 15 章 中 的 死 锁 预防 和 死 锁 检 测算 法 只 要 做 一 些 修改 就 可 以 用 于 分 布 式 系统 中 。 例 如 ， 我 们 可 以 
通过 在 系统 数据 项 之 间 定 义 一 棵 全 局 树 就 可 以 使 用 树 协 议 。 类 似 地 ， 正 如 我 们 在 19.5.2 节 中 看 到 的 那 
样 ， 时 间 戳 排序 方法 可 以 直接 用 于 分 布 式 环境 。 

死 锁 预 防 可 能 导致 不 必要 的 等 待 和 回 滚 。 此 外 ， 特 定 的 死 锁 预 防 技术 与 不 采用 这 些 技 术 的 情况 相 
比 ， 可 能 需要 更 多 站 点 参与 到 事务 的 执行 中 。 

如 果 我 们 允许 发 生死 锁 并 依赖 于 死 锁 检测 ， 那 么 分 布 式 系统 中 的 主要 问题 就 是 决定 如 何 维护 等 待 
图 。 处 理 这 个 问题 的 常用 技术 要 求 每 个 站 点 维护 一 个 局 部 等 待 图 ( local wait-for graph) 。 图 中 的 节点 对 
应 于 目前 占有 或 请 求 该 站 点 上 任何 局 部 数据 项 的 所 有 事务 ( 局 部 的 和 非 局 部 的 ) 。 例 如 ， 图 19-4 描述 了 
一 个 包含 两 个 站 点 的 系统 ， 每 个 站 点 维护 自己 的 局 部 等 竺 图。 注意 事务 7, MT, 在 两 个 图 中 都 出 现 ， 
这 表明 它们 在 两 个 站 点 上 都 有 数据 项 请 求 。 

这 些 局 部 等 待 图 以 一 种 通常 的 方式 来 构造 ， 用 于 表达 局 部 事务 和 数据 项 。 当 站 点 3$ 上 的 事务 7 需 
要 站 点 S, 上 的 资源 时 ， 它 就 向 站 点 8 发 请 求 消息 。 如 果 该 资源 被 事务 T, 占用， 系统 就 把 一 条 也 一 了 
的 边 插 入 到 站 点 S, 的 局 部 等 待 图 中 。 

显然 ， 如 果 任 意 的 局 部 等 待 图 中 存在 环 ， 就 已 经 发 生 了 死 锁 。 另 一 方面 ， 任 意 的 局 部 等 待 图 中 
都 不 存在 环 却 并 不 意味 着 没有 死 锁 。 为 了 说 明 这 个 问题 ， 我 们 考虑 图 19-4 中 的 局 部 等 竺 图。 每 个 等 
待 图 都 是 无 环 的 ; 然而 ， 系 统 中 却 存在 死 锁 ， 因 为 局 部 等 待 图 的 并 包含 一 个 环 。 这 个 图 在 图 19-5 中 
给 出 。 

在 集中 式 死 锁 检 测 ( centralized deadlock detection ) 方 法 中 ， 系 统 在 单个 站 点 中 构造 和 维护 一 个 全 局 
等 待 图 ( global wail-for graph) (所 有 局 部 图 的 并 ) : 该 站 点 是 死 锁 检测 的 协调 器 。 由 于 系统 中 存在 通信 延 
迟 ， 我 们 必须 区 分 两 类 等 待 图 。 真 实 图 描述 了 系统 在 任意 时 刻 真实 的 但 不 为 人 知 的 状态 ， 就 像 无 所 不 
知 的 观察 者 所 能 看 到 的 那样 。 构 造 图 是 控制 器 在 执行 控制 器 算法 中 产生 的 一 种 近似 。 显 然 ， 控 制 器 必 
须 以 下 述 方式 产生 构造 图 : 即 无 论 何 时 调用 检测 算法 ， 报 告 的 结果 都 是 正确 的 。 这 种 情况 下 的 正确 是 
指 : 如 果 存 在 死 锁 ， 会 迅速 报告 它 ; 而 如 果 系 统 报告 了 死 锁 ， 它 就 确实 处 于 死 锁 状态 。 
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图 19-4 局 部 等 待 图 图 19-5 图 19-4 的 全 局 等 待 图 
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全 局 等 待 图 可 以 在 这 些 情况 下 重 构 或 更 新 : 
。 每 当 一 条 新 的 边 插入 到 局 部 等 待 图 或 从 中 删除 一 条 边 时 。 
。 周 期 性 地 ， 当 局 部 等 待 图 中 发 生 大 量 改变 时 。 
。 每 当 协 调 器 需要 调用 环 检测 算法 时 。 
在 协调 器 调用 死 锁 检测 算法 的 时 候 ， 协 调 器 搜索 它 的 全 局 图 。 如 果 它 发 现 环 ， 就 选 出 环 中 的 一 个 
辆 牲 者 去 回 深 。 协 调 器 必须 告知 所 有 站 点 特定 事务 被 选 作 和 辆 牧 者 。 于 是 这 些 站 点 将 该 策 牧 事务 回 深 。 
在 下 述 情况 下 ， 该 方案 可 能 产生 不 必要 的 回 滚 
。 在 全 局 等 待 图 中 存在 假 环 ( false cycle) 。 作 为 例子 ， 考 察 图 19-6 中 的 局 部 等 待 图 所 代表 的 系统 
快照 。 假 设 7, 释放 它 在 站 点 S, 中 所 占用 的 次 ES 
源 ， 导 致 从 S, 中 删除 边 T, >T, REFS T, © © 
请 求 站 点 5, 上 被 所 占用 的 资源 ， 导 致 在 8 
中 增加 边 一 7T,。 如 果 来 自 S, 的 消息 insert 
T, >T, 早 于 来 自 S 的 消息 remove 7,—7,, m a (1) 
协调 器 在 insert 后 (但 在 remove 前 ) 可 能 会 发 现 
假 环 7, 一 7, 一 7,。 死 锁 恢 复 可 能 启动 ， 尽 管 并 
没有 发 生死 锁 。 Sı S3 
注意 假 环 现象 在 两 阶段 封锁 中 是 不 会 发 生 
的 。 假 环 的 可 能 性 通常 足够 小 ， 不 会 导致 严重 Tn) 
的 性 能 问题 。 
当 死 锁 确 已 发 生 且 牺牲 事务 已 经 选 定 ， 但 其 中 
一 个 事务 由 于 与 该 死 锁 无 关 的 原因 而 中 止 。 例 (12) (ts) 
如 ， 假 设 图 19-4 中 站 点 S, 决定 中 止 。 同 时 ， 
协调 器 发 现 了 环 并 选 定 T, 作为 牺牲 者 。 此 时 T, 协调 器 
ALT, 都 回 滚 ， 尽 管 只 有 T 需要 回 滚 。 图 19-6 全 局 等 待 图 中 的 假 环 
死 锁 检 测 可 以 分 布 式 方式 进行 ， 由 几 个 站 点 来 承担 任务 的 几 个 部 分 ， 而 不 是 在 单个 站 点 上 进行 ， 
但 是 ， 这 样 的 算法 会 更 加 复杂 和 更 加 昂贵 。 关 于 这 类 算法 请 参考 文献 注解 中 的 文献 。 


19.6 可 用 性 


使 用 分 布 式 数据 库 的 一 个 目的 是 高 可 用 性 (high availability) ; 即 ， 分 布 式 数据 库 必须 在 几乎 所 有 时 
候 都 能 工作 。 特 别 地 ， 因 为 在 大 型 分 布 式 系统 中 发 生 故 障 的 可 能 性 更 大 ， 即 使 在 各 种 类 型 的 故障 发 生 
的 时 候 ， 分 布 式 数据 库 也 必须 能 继续 工作 。 在 故障 期 间 仍 能 继续 工作 的 能 力 称 为 健壮 性 (robustness) 。 

为 了 使 分 布 式 系统 是 健壮 的 ， 它 必须 检测 故障 ， 能 重新 配置 系统 以 便 继 续 计 算 ， 并 在 处 理 吉 或 链 
路 修复 后 能 进行 恢复 。 

不 同类 型 的 故障 以 不 同方 式 处 理 。 例 如 ， 消 息 丢 失 通 过 重 传 来 处 理 。 对 通过 某 链 路 的 一 条 消息 进 
行 重复 的 重 传 ， 却 接收 不 到 确认 ， 这 常常 是 链 路 故障 的 征兆 。 网 络 通常 会 试图 为 此 消息 寻找 蔡 换 路 径 。 
无 法 找到 这 样 的 路 径 常常 是 网 络 划 分 的 征兆 。 
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但 是 ， 明 确 区 分 站 点 故障 和 网 络 划分 一 般 是 不 可 能 的 。 系 统 通 常 可 以 检测 到 故障 的 发 生 , 但 它 有 
可 能 不 能 识别 出 故障 类 型 。 例 如 ,假设 站 点 5, 不 能 同 5, 通信 。 可 能 是 S, 发 生 了 故障 ,但 男 一 种 可 能 
是 由 于 5, 和 5, 之 间 的 链 路 故障 而 导致 了 网 络 划 分 。 通 过 在 站 点 间 使 用 多 条 链 路 可 以 部 分 解决 这 个 问 
题 ， 这 样 即使 一 条 链 路 发 生 故 障 站 点 仍 能 保持 连接 。 然 而 ， 多 条 链 路 故障 仍 可 能 发 生 ， 因 此 在 有 些 情 
况 下 我 们 无 法 确定 是 发 生 了 站 点 故障 还 是 网 络 划 分 。 
假设 站 点 S 已 经 发 现 有 故障 发 生 。 这 时 S 必须 发 起 一 个 过 程 ， 此 过 程 使 得 系统 可 以 重新 配置 并 
继续 通常 的 操作 模式 。 
。 如 果 在 发 生 故 障 时 ， 事 务 在 故障 或 者 无 法 访问 的 站 点 上 是 活跃 的 ， 则 这 些 事务 就 应 该 中 止 。 最 
好 是 立即 中 止 这 样 的 事务 ， 因 为 它们 可 能 持 有 在 仍然 活路 的 站 点 的 数据 上 的 锁 ; 等 待 发 生 故 障 
或 无 法 访问 的 站 点 变 得 重新 可 访问 可 能 会 阻碍 可 操作 站 点 上 的 其 他 事务 。 然 而 ， 在 某 些 情况 
下 ， 当 数据 对 象 被 复制 后 ， 即 使 有 些 副 本 不 能 访问 ， 它 仍然 可 能 继续 进行 读 和 更 新 。 在 这 种 情 
况 下 ， 当 故障 站 点 恢复 的 时 候 ， 如 果 它 有 任何 数据 对 象 的 副本 ， 它 必须 得 到 这 些 数据 对 象 的 当 
前 值 ， 而 且 必须 确保 它 能 接收 到 所 有 未 来 的 更 新 。 我 们 将 在 19. 6. 1 节 阐 述 这 个 问题 。 
。 如 果 被 复制 的 数据 存储 在 故障 或 者 无 法 访问 的 站 点 上 ， 就 应 更 新 目录 ， 使 得 查询 不 再 引用 该 故 


19.6.3 节 中 看 到 的 那样 。 
© 如 果 故 障 站 点 是 某 些 子 系统 的 中 央 服 务 器 ， 就 必须 进行 选举 来 决定 新 的 服务 器 ( 见 19. 6.5 45) 
中 央 服 务 器 的 例子 包括 名 字 服 务 器 、 并 发 协调 器 或 者 全 局 死 锁 检测 器 。 
由 于 通常 情况 下 ， 不 可 能 区 分 网 络 链 路 故障 和 站 点 故障 ， 因 此 任何 重新 配置 方案 都 必须 设计 成 能 
够 在 网 络 划 分 的 情况 下 正确 运行 。 特 别 地 ， 为 确保 一 致 性 必须 避免 这 些 情况 :; 
。 两 个 或 更 多 的 中 央 服 务 器 在 不 同 的 分 区 中 选 出 。 
。 不 止 一 个 分 区 更 新 某 个 复制 的 数据 项 。 
虽然 传统 数据 库 系统 非常 重视 一 致 性 ,但 是 目前 有 很 多 应 用 比 一 致 性 更 加 看 重 可 用 性 。 为 这 样 的 
系统 设计 的 复制 协议 是 不 同 的 ， 这 点 将 在 19. 6. 6 节 讨 论 。 
19.6.1 基于 多 数 的 方法 
可 以 对 19. 5. 1.4 节 中 基于 多 数 方法 的 分 布 式 并 发 控制 进行 修改 使 其 能 在 发 生 故 障 时 仍 能 工作 。 在 
这 种 方法 中 ， 每 个 数据 对 象 都 存储 它 的 一 个 版 本 号 来 检测 最 后 一 次 写 入 它 的 时 间 。 每 当 事 务 写 对 象 的 
时 候 ， 它 还 要 以 如 下 方式 来 更 新 版 本 号 : 
。 如 果 数 据 对 象 a 被 复制 到 个 不 同 的 站 点 ， 那 么 一 条 锁 请 求 消 息 必须 被 发 送 到 存储 a 的 个 站 
点 中 的 一 半 以 上 。 事 务 直 到 成 功 获得 了 a 的 大 多 数 副 本 上 的 锁 之 后 才 对 a 进行 操作 。 
。 读 操作 检查 所 有 已 经 加 锁 的 副本 ， 并 从 具有 最 高 版 本 号 的 副本 读 取 值 。( 它们 还 可 以 选择 把 该 
值 写 回 到 低 版 本 号 的 副本 。) 写 操作 和 读 操作 一 样 ， 也 要 读 所 有 的 副本 来 找到 最 高 版 本 号 (这 一 
步 通 常 通过 读 操作 在 事务 中 早已 完成 ,并 且 结 果 可 以 重用 )。 新 版 本 号 是 一 个 比 最 高 版 本 号 还 
要 高 的 版 本 号 。 写 操作 写 它 已 获得 封锁 的 所 有 副本 ， 并 将 所 有 副本 的 版 本 号 设置 为 新 的 版 
本 号 。 
在 事务 处 理 中 的 故障 (无 论 是 网 络 划分 还 是 站 点 故障 ) 是 可 以 容忍 的 ， 只 要 : (1) 提交 时 可 用 的 站 点 包 
含 被 写 的 所 有 对 象 的 大 多 数 副 本 ， 同 时 (2) 在 读 取 过 程 中 ， 需 要 读 大 多 数 副 本 来 找到 版 本 号 。 如 果 违 
反 了 这 些 要 求 ， 事 务必 须 中 止 。 只 要 满足 这 些 要 求 ， 两 阶段 提交 协议 就 可 以 像 通常 那样 在 可 用 的 站 点 
上 使 用 。 
在 这 种 模式 中 ， 重 建 就 微不足道 了 ; 什么 都 不 需要 做 。 这 是 因为 写 已 经 更 新 了 大 多 数 副 本 ， 而 读 
会 读 取 大 多 数 副 本 并 找到 至 少 一 个 有 最 新 版 本 号 的 副本 。 
用 于 多 数 协议 的 版 本 编号 技术 也 可 以 用 于 使 法 定 人 数 同意 协议 工作 在 出 现 故障 的 情况 下 。 我 们 把 
(简单 的 ) 细 节 留 给 读者 。 然 而 ， 如 果 某 些 站 点 被 赋予 较 高 的 权重 ， 则 防止 系统 处 理事 务 的 故障 的 危险 
性 也 会 增加 。 
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19.6.2 读 一 个 、 写 所 有 可 用 的 方法 

作为 法 定 人 数 同意 的 特殊 例子 ， 我 们 可 以 将 单位 权重 授予 所 有 站 点 来 实施 有 偏 协议 : 设置 读 法 定 
人 数 为 1， 并 设置 写法 定 人 数 为 n( 所 有 站 点 )。 在 这 种 特殊 情况 下 ， 不 需要 使 用 版 本 号 ; 但 是 ， 即 使 只 
要 容纳 数据 项 的 一 个 站 点 发 生 故 障 ， 对 该 数据 项 的 写 操作 就 不 能 进行 ， 这 是 由 于 写法 定 人 数 不 够 。 因 
为 必须 写 所 有 的 副本 ， 所 以 这 种 协议 被 称 为 读 一 个 、 写 所 有 (read one, write all) 协议 

为 了 使 发 生 故 障 时 工作 能 够 继续 进行 ， 我 们 倾向 于 使 用 读 一 个 、 写 所 有 可 用 (read one，write all 
available) 协议 。 在 这 种 方法 中 ， 读 操作 与 读 一 个 、 写 所 有 (read one, write all) 模 式 一 样 处 理 : 任何 可 
用 副本 都 可 以 读 取 ， 并 在 那个 副本 上 获得 读 锁 。 写 操作 转移 到 所 有 副本 上 ; 并 需要 获得 所 有 副本 上 的 
写 锁 。 如 果 一 个 站 点 宕 机 ， 事 务 管理 器 不 等 待 该 站 点 恢复 而 继续 进行 。 

尽管 这 种 方法 看 起 来 非常 吸引 人 ， 但 它 有 几 个 复杂 的 因素 。 特 别 地 ， 和 暂时 的 通信 故障 会 可 能 使 得 
站 点 表现 为 不 可 用 ， 导 致 写 不 能 执行 ， 但 是 当 链 路 恢复 时 ， 该 站 点 不 会 意识 到 它 必须 执行 一 些 重建 动 
作 来 弥补 它 已 经 丢失 的 写 。 另 外 ， 如 果 发 生 网 络 划分 ， 由 于 认为 在 其 他 划分 中 的 站 点 都 已 经 发 生 故 障 
死机 ， 每 个 划分 可 能 对 相同 的 数据 项 进行 更 新 。 

在 绝 不 会 发 生 网 络 划 分 的 情况 下 ， 可 以 使 用 读 一 个 、 写 所 有 可 用 的 模式 ， 但 是 在 发 生 网 络 划分 的 
情况 下 ， 它 会 导致 不 一 致 性 。 

19. 6.3 站 点 重建 

将 修复 的 站 点 或 链 路 重建 到 系统 中 要 小 心 。 当 故障 站 点 恢复 时 ， 它 必须 发 起 一 个 过 程 来 更 新 其 系 
统 表 ， 使 之 反映 在 该 站 点 宕 机 时 所 发 生 的 变化 。 如 果 该 站 点 有 任何 数据 项 的 副本 ， 它 必须 获得 这 些 数 
据 项 的 当前 值 ， 并 保证 它 能 接收 到 以 后 的 所 有 更 新 。 站 点 重建 绝 不 像 第 一 眼看 起 来 那么 简单 ， 因 为 在 
该 站 点 处 于 恢复 中 时 可 能 存在 对 数据 项 的 更 新 。 

一 种 容易 的 解决 办 法 是 当 故 障 站 点 重新 连 入 时 暂时 停止 整个 系统 。 但 是 ， 在 大 多 数 应 用 中 ， 这 种 
暂时 的 停止 可 能 会 引起 无 法 接受 的 破坏 。 已 经 开发 出 一 些 技术 允许 故障 站 点 在 并 发 执行 对 数据 项 的 并 
发 更 新 的 同时 进行 重建 。 在 对 任意 数据 项 授予 读 或 写 锁 之 前 ， 站 点 必须 确保 它 已 经 更 新 成 为 最 新 的 数 
据 项 。 如 果 一 条 故障 链 路 恢复 ， 两 个 或 更 多 分 区 可 以 重新 连接 起 来 。 由 于 网 络 划分 限制 了 某 些 或 所 有 
站 点 可 允许 的 操作 ， 应 该 将 该 链 路 的 恢复 迅速 通知 给 所 有 站 点 。 有 关 分 布 式 系统 中 恢复 的 更 多 信息 请 
参见 文献 注解 。 

19.6.4 与 远程 备份 的 比较 

我 们 在 16. 9 节 中 学 习 的 远程 备份 系统 和 分 布 式 数据 库 中 的 复制 是 提供 高 可 用 性 的 两 种 可 供 选择 的 
方法 。 这 两 种 方案 的 主要 区 别 是 : 使 用 远程 备份 系统 时 ， 诸 如 并 发 控制 和 恢复 那样 的 操作 在 单个 站 点 
上 执行 ， 并 且 只 有 数据 和 日 志 记录 被 复制 到 其 他 站 点 。 特 别 地 ， 远 程 备份 系统 有 助 于 避免 两 阶段 提交 
及 其 导致 的 开销 。 而 且 ， 事 务 只 须 和 一 个 站 点 ( 主 站 点 ) 联 系 ， 并 因此 避免 了 在 多 个 站 点 运行 事务 代码 
的 开销 。 因 此 远程 备份 系统 提供 了 一 种 比 复制 开销 低 的 高 可 用 性 方法 。 

另 一 方面 ， 通 过 使 用 多 个 可 用 副本 并 使 用 多 数 协议 ， 复 制 可 以 提供 更 高 的 可 用 性 。 

19.6.5 协调 器 的 选择 

我 们 给 出 的 几 种 算法 需要 用 到 协调 器 。 如 果 协 调 器 因为 它 所 位 于 的 站 点 发 生 故 障 而 失效 ， 系 统 只 
有 在 另 一 站 点 重新 启动 一 个 新 协调 器 才能 继续 执行 。 能 够 继续 执行 的 一 种 方法 是 通过 维护 协调 器 的 一 
个 备份 ， 准 备 在 协调 器 失效 时 承担 其 职责 。 

备份 协调 器 (backup coordinator) 是 这 样 的 一 个 站 点 ， 除 了 其 他 任务 以 外 ， 它 在 本 地 维护 足够 的 信 
息 ， 使 它 可 以 在 给 分 布 式 系统 带 来 最 小 限度 干扰 的 情况 下 担当 起 协调 器 的 角色 。 所 有 发 给 协调 器 的 消 
息 会 被 协调 器 及 其 备份 同时 接收 。 备 份 协调 器 同 真实 协调 器 一 样 ， 执 行 相同 的 算法 并 维护 相同 的 内 部 
状态 信息 (例如 ， 对 并 发 协调 器 来 说 是 锁 表 ) 。 协 调 器 和 它 的 备份 之 间 在 功能 上 的 唯一 区 别 在 于 ， 备 份 
不 会 采取 任何 影响 到 其 他 站 点 的 动作 。 这 些 动作 留 给 真实 协调 器 来 执行 。 

在 备份 协调 器 检测 到 事实 协调 器 发 生 故 障 的 情况 下 ， 它 就 担当 起 协调 器 的 角色 。 由 于 备份 协调 器 
拥有 故障 协调 器 具有 的 所 有 可 用 信息 ， 因 此 无 须 中 断 就 可 以 继续 处 理 。 
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备份 方式 的 主要 优点 是 能 立即 将 处 理 继续 下 去 的 能 力 。 如 果 备 份 没有 准备 好 来 承担 协调 器 的 职责 ， 
新 指定 的 协调 器 为 了 执行 协调 任务 ， 就 必须 从 系统 中 的 所 有 站 点 寻找 信息 。 故 障 协调 器 常常 是 某 些 必 
需 信 息 的 唯一 来 源 。 在 这 种 情况 下 ， 可 能 有 必要 中 止 几 个 (或 所 有 ) 活 茎 事务 ， 并 在 新 协调 器 的 控制 下 
重新 启动 它们 。 

因此 ， 备 份 协调 器 方式 避免 了 分 布 式 系统 从 协调 器 故障 恢复 所 需 的 大 量 延 迟 。 其 缺点 在 于 协调 器 
任务 重复 执行 的 开销 。 此 外 ， 协 调 器 及 其 备份 需要 定期 通信 ， 以 保证 它们 的 活动 是 同步 的 。 

简 言 之 ， 备 份 协调 器 方式 引入 正 常 处 理 时 的 开销 来 使 得 系统 可 以 从 协调 器 故障 中 迅速 恢复 。 

在 缺少 指定 的 备份 协调 器 或 者 为 了 处 理 多 种 故障 的 情况 下 ， 可 以 由 活跃 站 点 来 动态 地 选 出 新 的 协 
调 器 。 选 举 算法 (election algorithm) 使 各 站 点 以 分 散 的 方式 选 出 一 个 站 点 作为 新 的 协调 器 。 选 举 算法 需 
要 系统 中 每 个 活跃 站 点 都 关联 一 个 唯一 的 标识 号 。 

用 于 选举 的 威逼 算法 (bully algorithm) 的 工作 过 程 如 下 : 为 了 保持 符号 和 讨论 的 简单 性 ， 假 设 站 点 
S 的 标识 号 为 i， 并 假设 选 出 的 协调 器 总 是 具有 最 大 标识 号 的 活路 站点。 这 样 ， 当 协调 器 发 生 故 障 时 ， 
该 算法 必须 选 出 具有 最 大 标识 号 的 活路 站点。 该 算法 必须 将 该 号 码 送 到 系统 中 的 每 个 活跃 站 点 。 另 外 ， 
该 算法 必须 提供 一 种 能 使 从 甬 溃 中 恢复 的 站 点 识别 出 当前 协调 器 的 机 制 。 假 设 站 点 5; 发 出 的 请 求 在 预 
定 的 时 间 间 隔 了 内 没有 得 到 协调 器 的 回答 。 在 这 种 情况 下 ， 假 设 协 调 器 发 生 了 故障 ， 并 且 S, 试图 选举 
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自己 作为 新 协调 器 的 站 点 。 

站 点 5; 给 每 个 具有 更 大 标识 号 的 站 点 发 一 条 选举 消息 。 接 着 5; 就 等 待 一 个 时 间 间 隔 7， 等 这 些 站 
点 中 的 任何 一 个 作出 回答 。 如 果 在 时 间 了 内 没有 收 到 任何 回答 ， 它 就 假设 具有 大 于 ;的 号 码 的 所 有 站 
点 都 已 经 发 生 故 障 ， 于 是 选举 自己 来 作 新 协调 器 的 站 点 ， 并 给 具有 小 于 i 的 标识 号 的 所 有 活跃 站 点 发 
消息 ， 通 知 这 些 站 点 它 已 成 为 新 协调 器 所 在 站 点 。 

如 果 S 收 到 回答 ， 它 就 开始 一 个 时 间 间 隔 了， 来 接收 通知 自己 一 个 具有 更 大 标识 号 的 站 点 已 选中 
的 消息 。( 某 些 别 的 站 点 正 选举 自己 为 协调 器 ， 并 应 该 在 时 间 7 内 报告 结果 。) 如 果 在 7" 时 间 内 没有 收 
到 消息 ， 那 么 它 就 假设 具有 更 大 标识 号 的 站 点 发 生 了 故障 ， 站 点 $; 重新 开始 该 算法 的 执行 。 

当 故 障 站 点 恢复 后 ， 它 马上 开始 执行 相同 的 算法 。 如 果 没 有 具有 更 大 标识 号 的 活跃 站 点 ,恢复 后 
的 站 点 就 强迫 具有 和 较 小 标识 号 的 所 有 站 点 让 自己 成 为 协调 器 站 点 ， 即 使 当前 有 一 个 具有 较 小 标识 号 的 
活跃 协调 器 。 正 因为 如 此 ， 这 个 算法 称 为 感到 算法。 如 果 出 现 网 络 划 分 ， 威 盘算 法 在 每 个 分 区 中 选举 
出 一 个 独立 的 协调 器 ; 为 了 保证 至 多 选举 出 一 个 协调 器 ， 获 胜 的 站 点 应 该 另外 查证 多 数 站 点 在 它们 的 
分 区 中 。 
19. 6.6 为 可 用 性 而 牺牲 一 致 性 

到 目前 为 止 我 们 所 看 到 的 协议 需要 (加 权 的 ) 大 多 数 站 点 位 于 一 个 分 区 内 以 进行 更 新 。 位 于 少数 分 
区 内 的 站 点 是 不 能 进行 更 新 的 ; 如 果 网 络 故障 造成 了 多 于 两 个 分 区 ， 可 能 没有 分 区 包含 大 部 分 站 点 。 
在 这 种 情况 下 ， 系 统 将 会 完全 无 法 用 于 更 新 ， 并且 根据 读 法 定 人 数 ， 甚 至 可 能 导致 无 法 用 于 读 。 我 们 
前 面 看 到 的 写 全 部 可 用 协议 提供 了 可 用 性 ， 但 不 提供 一 致 性 。 

理想 情况 下 ， 即 使 面 对 划 分 ， 我 们 也 和 希望 获得 一 致 性 和 可 用 性 。 遗 憾 的 是 ， 这 是 不 可 能 的 ， 这 一 
事实 就 是 所 谓 的 CAP 定理 ( CAP theorem) 所 确定 的 ， 它 表明 任何 分 布 式 数据 库 最 多 只 能 具有 以 下 三 个 
性 质 中 的 两 个 : 

o 一 致 性 (consistency)。 

e 可 用 性 (availability ) 。 

o 划分 容忍 性 (partition-tolerance ) 。 

CAP 定理 的 证 明 借 助 于 下 述 复制 数据 上 的 一 致 性 定义 : 如 果 在 复制 数据 上 执行 一 组 操作 ( 读 和 写 ) 
的 结果 与 在 单个 站 点 上 以 某 种 串 行 次 序 执 行 这 些 操作 的 结果 相同 ， 并 且 该 串 行 次 序 与 每 个 进程 (事务 ) 
发 出 操作 的 次 序 相 一 致 ， 那 么 就 称 该 组 操作 在 复制 数据 上 是 一 致 的 。 一 致 性 的 概念 类 似 于 事务 的 原子 
性 ， 只 是 其 中 每 个 操作 被 看 作 一 个 事务 ， 且 弱 于 事务 的 原子 性 性 质 。 

在 任何 大 规模 分 布 式 系统 中 ， 划 分 是 不 可 避免 的 ， 其 结果 是 必须 牺牲 可 用 性 或 者 一 致 性 。 我 们 前 
面 看 到 的 方案 在 面临 划分 时 为 了 一 致 性 而 牺牲 了 可 用 性 。 
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考虑 一 个 基于 Web 的 社交 网 络 系 统 ， 其 数据 被 复制 在 三 台 服 务 器 上 ， 并 且 出 现 了 一 个 网 络 划分 ， 
它 阻止 了 这 些 服务 器 之 间 的 相互 通信 。 由 于 没有 一 个 分 区 包含 大 多 数 站 点 ， 因 此 不 可 能 在 任意 一 个 分 
区 上 执行 更 新 。 如 果 这 些 服务 器 中 的 一 台 与 用 户 在 同一 个 分 区 中 ， 用 户 实际 上 已 经 访问 了 数据 ， 但 会 
无 法 更 新 数据 ， 因 为 另 一 个 用 户 可 能 正在 另 一 个 分 区 中 并 发 更 新 相同 的 对 象 ， 这 将 造成 潜在 的 不 一 致 
性 。 与 银行 数据 库 中 相对 ， 社 交 网 络 系统 中 不 一 致 性 的 风险 要 小 。 这 种 系统 的 设计 者 可 以 决定 一 个 能 
够 访问 系统 的 用 户 应 该 允许 在 可 访问 的 任何 副本 上 执行 更 新 ， 哪 怕 存 在 不 一 致 的 风险 。 

与 需要 满足 ACID 性 质 的 银行 数据 库 那 样 的 系统 不 同 ， 上 述 诸如 社会 网 络 系 统 那 样 的 系统 要 求 满 
Æ BASE 性 质 : 

e 基本 上 可 用 (basically available) 。 

e 软 状态 (soft state) 。 

e 最 终 一 致 性 (eventually consistent) 。 

主要 的 需求 是 可 用 性 ， 哪 怕 以 一 致 性 为 代价 。 即 使 在 出 现 划分 的 情况 下 ， 也 应 该 允许 更 新 ， 下 面 
将 以 写 所 有 可 用 协议 为 例 ( 这 类 似 于 19. 5. 3 节 描 述 的 多 主 站 点 副本 )。 软 状态 指 的 是 数据 库 状态 可 能 不 
能 准确 确定 的 性 质 ， 由 于 网 络 划分 每 个 副本 有 可 能 有 一 定 程度 不 同 的 状态 。 最 终 一 致 性 要 求 ， 当 解决 
划分 之 后 ， 最 终 所 有 副本 之 间 将 形成 一 致 。 

最 后 一 步 要 求 能 够 识别 不 一 致 的 数据 项 副本 ; 如 果 一 个 副本 是 男 一 个 副本 的 更 早 版 本 ,应 该 用 较 
新 的 版 本 取代 更 早 的 版 本 。 然 而 ， 还 是 可 能 出 现 对 一 个 共同 的 基本 副本 进行 独立 更 新 而 产生 的 两 个 版 
本 。 一 种 检测 这 种 不 一 致 更 新 的 方案 叫 版 本 向 量 方案 ， 这 将 在 25. 5. 4 节 描述 。 

应 对 不 一 致 性 更 新 的 一 致 性 恢复 需要 把 各 种 更 新 以 某 种 对 应 用 来 说 有 意义 的 方式 进行 整合 。 此 步 


又 不 能 由 数据 库 来 处 理 ; 相反 ,数据 库 检 测 并 通知 应 用 程序 有 关 不 一 致 性 的 现象 ， 然 后 由 应 用 程序 决 | 


定 如 何 处 理 不 一 致 性 。 


19.7 分 布 式 查询 处 理 


在 第 13 章 中 ,我 们 看 到 计算 一 个 查询 的 结果 有 各 种 方法 。 我 们 调查 了 几 种 技术 来 选择 一 种 处 理 查 
询 的 策略 ， 它 使 得 花费 在 计算 结果 上 的 时 间 总 和 最 小 。 对 集中 式 系统 来 说 ， 衡 量 特定 策略 的 代价 的 基 
本 准则 是 磁盘 访问 量 。 在 分 布 式 系统 中 ， 我 们 必须 考虑 另外 的 几 个 因素 ， 包 括 : 

o 数据 在 网 络 上 的 传输 代价 。 

。 通过 在 几 个 站 点 并 行 处 理 查询 的 一 部 分 而 可 能 得 到 的 性 能 提升 。 

数据 在 网 络 上 传输 和 数据 转 入 和 转 出 磁盘 的 相对 代价 依赖 于 网 络 类 型 和 磁盘 速度 而 变化 很 大 。 因 
此 ， 通 常情 况 下 我 们 不 能 仅仅 注意 磁盘 开销 或 网 络 开 销 。 相 反 ， 我们 必须 在 这 两 者 之 间 取 得 良好 的 
折 中 。 
19.7.1 查询 转换 

考虑 一 个 极其 简单 的 查询 :“ 找 出 account 关系 中 的 所 有 元 组 。 虽然 这 个 查询 很 简单 (实际 上 是 微 
不 足 道 的 ) ， 但 对 它 的 处 理 不 是 微不足道 的 ， 因 为 正如 我 们 在 19. 2 节 中 看 到 的 那样 account 关系 可 能 
分 片 ， 复 制 ， 或 者 既 分 片 又 复制 。 如 果 account 关系 被 复制 ， 我 们 就 需要 选择 副本 。 如 果 所 有 副本 都 没 
有 分 片 ， 我 们 选择 传输 代价 最 小 的 副本 。 但 是 ， 如 果 副 本 分 片 了 ,选择 就 不 那么 容易 了 ， 因 为 我 们 需 
要 计算 一 些 连接 或 并 来 重 构 account 关系 。 在 这 种 情况 下 ， 我 们 这 个 简单 例子 的 策略 可 能 会 很 多 。 在 这 
种 情况 下 ， 通 过 穷 举 所 有 可 能 的 策略 来 对 查询 进行 优化 是 不 现实 的 。 

分 片 透明 性 意味 着 用 户 可 以 书写 这 样 的 查询 : 

© braneh name =" Hilside” ( QCCOUNLt) 
由 于 account 定义 为 : 
account, U account, 
由 名 字 翻 译 模式 产生 的 表达 式 为 : 
O branch name = “Hilside” (@CCount, U account, ) 


采用 第 13 章 的 查询 优化 技术 ， 我 们 可 以 自动 简化 上 述 表 达 式 。 结 果 表 达 式 为 : 


[854 


480 ”第 五 部 分 系统 体系 结构 


855 





O ranch name = "Hillside" (ACCOUNL, ) U Obranch name=*Hiliside" ( ACCOUN, ) 
此 表达 式 包 括 两 个 子 表达 式 。 第 一 个 只 涉及 account; ， 因 此 可 以 在 Hillside 站 点 上 求 值 。 第 二 个 只 涉及 
account,, ， 因 此 可 以 在 Valleyview 站 点 上 求 值 。 
在 对 
© byanch_name =“ Hillside” (@CCOUNE, ) 
求 值 时 还 可 以 进一步 优化 。 由 于 account, 只 包含 属于 Hillside 支行 的 元 组 ， 因 此 我 们 可 以 去 掉 选 择 运 
算 。 在 对 
O jranch_name = “Hillside” ( LCCOUNL, ) 
求 值 时 ， 我 们 可 以 运用 account, 分 片 的 定义 来 得 到 : 
O branch mame = “Hillside” (O branch_name =" Valleyview” ( ACCOUN )) 
AN account 关系 的 内 容 是 什么 ， 此 表达 式 都 是 空 集 。 
因此 ,我 们 最 终 的 策略 就 是 让 Hillside 站 点 返回 account, 作为 查询 结果 。 
19.7.2 简单 的 连接 处 理 
正如 我 们 在 第 13 章 中 看 到 的 那样 ， 选 择 查询 处 理 策 略 的 一 个 主要 决定 就 是 选择 连接 策略 。 考 虑 下 
面 的 关系 代数 表达 式 : 
account M depositor MW branch 
假设 这 三 个 关系 都 既 没 复制 又 没 分 片 ， 且 account 存储 在 站 点 S, E, depositor 存储 在 S, L, branch 存储 
E S, Eo WS, 表示 发 出 查询 的 站 点 。 系 统 需要 在 站 点 $ 产生 结果 。 下 面 是 处 理 这 个 查询 可 以 采取 的 
几 种 策略 : 
。 将 所 有 三 个 关系 的 副本 都 送 到 站 点 5,。 使 用 第 13 章 的 技术 ， 在 站 点 S 上 选择 一 种 本 地 处 理 整 
个 查询 的 策略 。 
© 将 关系 account 的 一 个 副本 送 到 站 点 9 ， 并 在 S, 上 计算 temp, = account MM depositor。 将 temp, 从 
S, 送 到 S, HE S, 上 计算 temp, = temp, Mbranch。 将 结果 temp, 送 到 S, 。 
© 设计 和 前 一 种 类 似 的 策略 ， 只 是 交换 S,. S,. S; 的 角色 。 
没有 一 种 策略 总 是 最 好 的 。 必 须 考 虑 的 因素 中 包括 传输 的 数据 量 、 在 一 对 站 点 间 传 输 数 据 块 的 代 
价 以 及 各 个 站 点 上 处 理 的 相对 速度 。 考 虑 上 面 列 出 的 前 两 种 策略 。 假 设 9 AS, 上 的 索引 对 于 计算 连 
接 是 有 用 的 。 如 果 我 们 将 所 有 三 个 关系 都 送 到 站 点 % ， 我 们 要 么 需要 在 % 上 重新 创建 这 些 索引 ， 要 么 
使 用 不 同 的 但 可 能 更 昂贵 的 连接 策略 。 重 新 创建 索引 必须 承担 额外 的 处 理 开销 和 额外 的 磁盘 访问 。 在 
使 用 第 二 种 策略 的 情况 下 ， 一 个 可 能 很 大 的 关系 (account p depositor) 必须 从 S, 送 到 5S;。 此 关系 中 ， 客 
户 每 拥有 一 个 账户 ， 其 名 字 就 要 重复 一 次 。 因 此 ， 同 第 一 种 策略 相 比 ， 第 二 种 策略 可 能 导致 额外 的 网 
络 传输 。 
19.7.3 半 连 接 策略 
假设 我 们 希望 计算 表达 式 7, Mr,， 其 中 7 和 7 分别 存储 在 站 点 S, AS, Eo Sr 和 的 模式 为 R, 
和 R,。 假 设 我 们 希望 在 站 点 S 得 到 结果 。 如 果 r, 中 有 许多 元 组 不 能 和 7, 中 的 任何 元 组 相连 接 ， 那 么 
JE r 送 到 5, 就 必须 传输 那些 对 结果 毫 无 贡献 的 元 组 。 我 们 和 希望 能 在 把 数据 送 到 S, 以 前 去 掉 这 样 的 元 
组 ,特别 是 在 网 络 代价 高 的 时 候 。 
为 了 实现 所 有 这 些 ， 一 种 可 能 的 策略 是 : 
1. 在 5, 计算 temp Illrar (n) o 
2. 将 temp M S, 送 到 S, . 
3. 在 S, 计算 temp, +r, temp, o 
4. 将 temp, SAS, 送 到 5,。 
5. Æ S, 计算 rm temp,。 产 生 的 关系 和 7 Wr, 一样。 
在 考虑 这 种 策略 的 效率 之 前 ， 让 我 们 来 验证 此 策略 能 计算 出 正确 的 结果 。 在 第 3 步 中 ，temp, 是 
n M Menr (rn) 的 结果 。 在 第 5 步 中 ， 计 算 : 


第 19 章 ”分布 式 数据 库 481 


ri 网 六 网 Irar (T) 
由 于 连接 是 可 结合 并 且 可 交换 的 ， 因 此 可 以 将 此 表达 式 重 写 为 : 
(ri X Mirar) (1) Ar 

HF r MW Deane.) (nn) =r,， 因 此 这 个 表达 式 事实 上 等 于 7m7,， 此 表达 式 就 是 我 们 要 计算 的 表达 式 。 

当 7, 中 有 相对 较 少 的 元 组 对 连接 有 贡献 时 ， 这 种 策略 的 优势 尤其 明显 。 如 果 7, 是 一 个 涉及 选择 的 
关系 代数 表达 式 的 结果 ， 这 种 情况 就 可 能 发 生 。 在 这 种 情况 下 ，temp, 的 元 组 数 可 能 明显 少 于 7,。 这 种 
策略 节省 的 开销 源 于 只 须 将 temp, 而 不 是 r 的 全 部 送 到 5,。 增 加 的 开销 源 于 将 temp, 送 到 S, i ，[856 | 
中 对 连接 有 贡献 的 元 组 比例 足够 小 ， 传输 temp, 的 开销 就 远 小 于 只 1 传输 中 的 部 分 元 组 而 节省 的 开销 。 

这 种 策略 称 为 半 连 接 策略 ( semijoin strategy) ， 以 关系 代数 中 的 半 连 接 运算 符 来 命名 ， 记 为 Xx。r, 和 
n FERRA r xr,， 即 : 

IMr (ry Mra) 

因此 , r 区 疡 选 出 了 关系 六 中 对 7 Mr, 有 贡献 的 那些 元 组 。 在 第 3 AEP, temp, = r xr. 

对 于 几 个 关系 的 连接 来 说 ， 这 种 策略 可 扩展 到 一 系列 的 半 连 接 步 又 。 一 个 关于 将 半 连 接 用 于 查询 
优化 的 坚实 的 理论 体系 已 经 发 展 起 来 。 这 方面 的 一 些 理论 在 文献 注解 中 有 引用 。 
19.7.4 利用 并 行 性 的 连接 策略 

考察 对 4 个 关系 的 一 个 连接 : 

ni rad T3 mr 

其 中 关系 7; 存储 在 站 点 $;。 假 设 结果 必须 在 站 点 $ 给 出 。 有 很 多 可 能 的 并 行 求 值 策略 。( 第 18 
章 详细 研究 过 并 行 查询 处 理 的 问题 )。 在 一 种 这 样 的 策略 中 ,将 7 送 到 5,， 并 在 3$5 上 计算 mn Mn 
同时 ， 将, XAS, FES, 上 计算 Wns。 在 计算 mn 的 过 程 中 站 点 5, 就 可 以 把 已 经 计算 出 的 元 
组 送 到 5, ， 而 不 是 等 到 整个 连接 计算 完 。 同 样 ，5s 也 可 以 这 样 把 (r; ms) 中 元 组 送 到 S$ 。 采 用 
12. 7.2.2 节 的 流水 线 连接 技术 ,一 旦 (7 Mr) AC, Mr ) 的 元 组 到 达 5,， 就 可 以 开始 计算 (r, mr,)m 
(nm Mn)。 因 此 ，5, 上 最 终 连接 结果 的 计算 可 以 同 S 上 (7 M7) 的 计算 以 及 5, Er, M7) 的 计算 并 
行 地 进行 。 


19.8 异 构 分 布 式 数据 库 


很 多 新 的 数据 库 应 用 需要 来 自 各 种 先前 存在 的 数据 库 中 的 数据 ， 这 些 数据 库 位 于 异 构 的 硬件 及 软 
件 环 境 的 集合 中 。 操 纵 位 于 异 构 分 布 式 数据 库 中 的 信息 需要 在 已 有 数据 库 系 统 之 上 增加 一 个 软件 层 。 
这 个 软件 层 称 为 多 数据 库 系统 (multidatabase system) 。 局 部 的 数据 库 系 统 可 以 采用 不 同 的 逻辑 模型 以 及 
数据 定义 和 数据 操纵 语言 ， 并 可 以 在 它们 的 并 发 控制 和 事务 管理 机 制 上 存在 差异 。 多 数据 库 系 统 构造 
了 逻辑 上 集成 数据 库 的 一 种 虚拟 ， 而 不 需要 将 数据 库 在 物理 上 集成 。 
将 异 构 系 统 完全 集成 为 一 个 同 构 的 分 布 式 数 据 库 通常 是 困难 的 或 不 可 能 的 : [857 ] 
© 技术 上 的 困难 (technical difficulty) 。 基 于 已 有 数据 库 系统 的 应 用 程序 的 投资 可 能 是 巨大 的 ， 而 
将 这 些 应 用 进行 转化 的 代价 可 能 高 不 可 及 。 
© 组 织 上 的 困难 (organizational difficulty) 。 即 使 集成 在 技术 上 是 可 能 的 ， 它 在 政策 上 可 能 是 不 可 行 
的 ， 因 为 已 有 数据 库 系统 属于 不 同 的 公司 或 组 织 。 在 这 种 情况 下 ， 对 多 数据 库 系 统 来 说 ， 人 允许 
局 部 数据 库 系统 在 局 部 数据 库 及 其 数据 上 运行 的 事务 方面 保持 高 度 自治 (autonomy ) 是 很 重 
要 的 。 
由 于 这 些 原因 ， 多 数据 库 系统 带 来 的 显著 优势 超出 了 它们 的 开销 。 本 节 从 数据 定义 和 查询 处 理 的 
立场 ， 给 出 构造 多 数据 库 环 境 所 面临 的 挑战 的 一 个 概览 。 
19.8.1 数据 统一 视图 
每 个 本 地 数据 库 管 理 系统 可 能 使 用 不 同 的 数据 模型 。 比 如 ， 有 些 可 以 采用 关系 模型 ， 而 另 一 些 可 
能 采用 更 早 的 数据 模型 ， 如 网 状 模型 ( 见 附录 D) 或 层次 模型 ( 见 附录 下 ) 。 
由 于 多 数据 库 系统 需要 提供 虚拟 的 、 集 成 的 单一 数据 库 系统 ， 因 此 必须 使 用 一 个 公共 的 数据 模型 。 
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一 种 通用 的 选择 是 关系 模型 ， 并 将 SQL 作为 公共 查询 语言 。 事 实 上 ,现在 存在 多 个 系统 使 SQL 查询 能 
应 用 到 非 关 系 的 数据 库 管 理 系统 之 上 。 
另 一 个 困难 是 提供 公共 的 概念 模式 。 每 个 局 部 系统 都 提供 它 自己 的 概念 模式 。 多 数据 库 系统 必须 
将 这 些 独立 的 模式 集成 为 一 个 公共 模式 。 模 式 集 成 是 一 项 复杂 的 任务 ， 主 要 是 由 于 语义 的 差异 . 
模式 集成 不 是 在 数据 定义 语言 之 间 简 单 地 直接 转换 。 相 同 的 属性 名 可 能 出 现在 不 同 的 局 部 数据 库 
中 但 具有 不 同 的 含义 。 在 一 个 系统 中 使 用 的 数据 类 型 可 能 不 被 另 一 个 系统 支持 ， 而 且 类 型 之 间 的 转换 
可 能 也 不 简单 。 即 使 对 于 相同 的 数据 类 型 ， 也 可 能 由 于 数据 的 物理 表示 而 出 现 问题 : 一 个 系统 可 能 用 
8 位 ASCI， 而 另 一 个 用 16 位 Unicode， 另 外 还 可 能 用 EBCDIC; 浮 点 表示 可 能 不 同 ; 整数 可 以 用 高 位 
在 前 或 低位 在 前 的 形式 表示 。 在 语义 层 ， 一 个 系统 中 表示 长 度 的 整数 值 可 能 是 英寸 而 男 一 个 系统 中 可 
能 是 毫米 ， 因 此 造成 整数 相等 只 能 是 一 种 近似 概念 这 样 的 尴 丛 境地 ( 正如 浮 点 数 通常 的 情况 一 样 ) 。 相 
同 的 称 字 可 能 出 现在 不 同系 统 的 不 同 语言 中 。 例如， 美国 的 系统 可 能 表示 城市 “Cologne”， 而 德国 的 系 
统 表示 “Koln”。 
所 有 这 些 看 似 细 小 的 区 别 必须 正确 记录 到 公共 全 局 概念 模式 中 。 必 须 提供 转换 函数 。 必 须 为 与 系 
858] 统 相关 的 行为 (例如 ， 非 字母 字符 的 排序 在 ASCII 中 和 在 EBCDID 中 是 不 同 的 ) 附注 索 引 。 正 如 我 们 前 
面 已 经 注意 到 的 ， 另 一 种 将 各 个 数据 库 转换 为 一 种 公共 格式 的 方法 在 不 废弃 已 有 应 用 程序 的 前 提 下 是 
行 不 通 的 。 
19. 8.2 查询 处 理 
异 构 数 据 库 的 查询 处 理会 比较 复杂 。 有 以 下 一 些 问题 : 
。 给 定 一 个 在 全 局 模式 上 的 查询 ， 该 查询 可 能 必须 翻译 成 需要 执行 查询 的 每 个 站 点 的 本 地 模式 上 
的 查询 。 查 询 结果 必须 翻译 回 全 局 模式 。 
通过 为 每 个 数据 源 书 写 包装 器 ( wrapper) 可 以 简化 该 任务 ， 包 装 器 提供 一 种 全 局 模式 中 的 本 
地 数据 的 视图 。 包 装 器 也 将 全 局 模式 上 的 查询 翻译 成 本 地 模式 上 的 查询 ， 并 将 结果 翻译 回 全 局 模 
式 。 包 装 器 可 以 由 单独 站 点 来 提供 ， 或 者 也 可 以 作为 多 数据 库 系统 的 一 部 分 来 单独 书写 。 
包装 器 甚至 可 用 于 为 非 关 系数 据 源 提供 关系 视图 ， 例 如 网 页 (可 能 具有 表单 界面 ) 、 平 面 文 
件 、 层 次 和 网 状 数据 库 ， 以 及 目录 系统 。 
e 某 些 数据 源 可 能 仅 提供 有 限 的 查询 能 力 : 例如 ， 它 们 可 能 支持 选择 ， 但 不 支持 连接 。 它 们 甚至 
可 能 限制 选择 的 形式 ， 人 允许 选择 仅 在 特定 域 上 进行 ;， 具有 表单 界面 的 Web 数据 源 就 是 这 种 数据 
源 的 一 个 例子 。 查 询 因 此 可 能 必须 分 开 执 行 ， 使 得 部 分 在 数据 源 执行 ， 部 分 在 发 出 查询 的 站 点 
上 执行 。 
。 一 般 来 说 ， 为 了 回答 给 定 查询 可 能 需要 访问 不 止 一 个 站 点 。 可 能 必须 处 理 从 这 些 站 点 获得 的 结 
果 以 去 除 重 复 。 假 设 一 个 站 点 包含 满足 选择 条 件 balance < 100 的 account 元 组 ， 而 另 一 个 站 点 包 
含 满 足 balance > 50 的 account 元 组 。 在 整个 account 关系 上 的 查询 将 需要 访问 这 两 个 站 点 ， 并 去 
除 由 余额 在 50 ~ 100 之 间 的 元 组 (这 些 元 组 在 两 个 站 点 重复 存在 ) 所 导致 的 重复 答案 。 
在 异 构 数 据 库 中 的 全 局 查询 优化 是 困难 的 ， 因 为 查询 执行 系统 可 能 不 知道 可 选 的 查询 计划 在 不 
同 站 点 上 执行 的 代价 。 通 常 的 解决 方案 是 只 依靠 本 地 级 别 的 优化 ， 而 且 仅仅 在 全 局 级 别 使 用 启 
发 式 策略 。 
中 间 件 (mediator) 系 统 是 集成 多 个 异 构 数 据 源 、 提 供 数据 的 一 个 集成 的 全 局 视图 并 提供 在 全 局 视图 
上 的 查询 工具 的 系统 。 不 像 成 熟 的 多 数据 库 系 统 ， 中 间 件 系统 不 会 干扰 事务 处 理 。( 中 间 件 和 多 数据 库 
这 两 个 术语 经 常 可 以 交换 使 用 ， 并 且 称 为 中 间 件 的 系统 可 能 支持 受 限 形式 的 事务 。) 术 语 虚 拟 数据 库 
( virtual database ) 用 来 指 代 多 数据 库 /中 间 件 系统 ， 因 为 这 两 种 系统 提供 了 具有 全 局 模式 的 单一 数据 库 
的 表象 ， 尽 管 数据 是 以 本 地 模式 存在 于 多 个 站 点 上 。 
19.8.3 多 数据 库 中 的 事务 管理 


多 数据 库 系 统 支持 两 种 事务 类 型 : 
1. 局 部 事务 (local transaction) 。 这 些 事务 由 每 个 本 地 数据 库 系 统 执行 ， 不 受 多 数据 库 系 统 的 控制 。 
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2. 全 局 事务 ( global transaction) 。 这 些 事务 是 在 多 数据 库 系 统 的 控制 下 执行 的 。 

多 数据 库 系统 知道 局 部 事务 可 能 运行 在 本 地 站 点 上 的 这 一 事实 ,但 它 不 知道 正在 执行 的 是 什么 样 
的 特定 事务 , 或 者 它们 可 能 访问 什么 样 的 数据 。 

要 确保 每 个 数据 库 系统 的 局 部 自治 性 ， 要 求 数 据 库 系统 自身 的 软件 不 能 发 生变 化 。 因 此 在 一 个 站 
点 上 的 数据 库 系 统 不 能 与 在 其 他 任何 站 点 上 的 数据 库 系统 直接 通信 ， 以 同步 执行 在 几 个 站 点 上 活跃 的 
全 局 事务 。 

由 于 多 数据 库 系统 不 能 控制 本 地 事务 的 执行 ， 因 此 每 个 本 地 系统 必须 使 用 并 发 控制 方案 (例如 ， 两 
阶段 锁 或 时 间 戳 ) 来 确保 它 的 调度 是 可 串 行 化 的 。 此 外 ,在 使 用 封锁 的 情况 下 ， 本 地 系统 必须 能 够 提防 
本 地 死 锁 的 可 能 性 。 

保证 局 部 可 串 行 化 并 不 足以 确保 全 局 可 串 行 化 。 举 个 例子 ,考虑 两 个 全 局 事务 T, 和  ， 每 个 都 访 
问 并 更 新 分 别 位 于 S, 和 5, 站 点 上 的 两 个 数据 项 4 和 B。 假设 本 地 调度 是 可 串 行 化 的 。 仍 然 可 能 出 现 这 
种 情况 : 在 站 点 S,, T, 在 7 之 后 执行 ， 而 在 站 点 5,， T ET, 之 后 执行 ， 这 就 导致 了 全 局 调度 的 不 可 
串 行 化 。 事 实 上 ， 即 使 全 局 事务 之 间 不 是 并 发 的 (也 就 是 说 ， 全 局 事务 只 有 在 它 前 面 的 事务 提交 或 中 止 
之 后 才能 提交 ) ， 局 部 可 串 行 化 也 不 足以 保证 全 局 可 串 行 化 ( 见 实践 习题 19. 14) 。 

根据 本 地 数据 库 系统 的 实现 ， 全 局 事务 可 能 不 能 控制 其 本 地 子 事务 的 精确 封锁 行为 。 因 此 ， 即 使 
所 有 本 地 数据 库 系 统 都 遵循 两 阶段 封锁 ， 它 也 可 能 只 能 确保 每 个 局 部 事务 是 遵循 协议 规则 的 。 例 如 ， 
一 个 本 地 数据 库 系统 可 能 提交 其 子 事务 并 释放 封锁 ， 而 在 另 一 个 本 地 系统 中 的 子 事务 仍 在 执行 。 如 果 
本 地 系统 允许 控制 封锁 行为 ， 并 且 所 有 系统 都 遵循 两 阶段 封锁 ， 那 么 多 数据 库 系统 可 以 确保 全 局 事务 
以 两 阶段 方式 封锁 ， 进 而 冲突 事务 的 锁 点 能 够 决定 它们 的 全 局 串 行 化 次 序 。 但 是 ， 如 果 不 同 的 本 地 系 
统 采用 不 同 的 并 发 控制 机 制 ， 这 种 直观 的 全 局 控制 方法 就 行 不 通 了 。 

尽管 在 多 数据 库 系统 中 并 发 执行 全 局 事务 和 局 部 事务 ， 但 是 有 很 多 确保 一 致 性 的 协议 。 有 些 协议 
是 基于 施加 足够 的 条 件 来 确保 全 局 可 串 行 性 。 其 他 的 仅 保 证 一 种 弱 于 可 串 行 性 的 一 致 性 ， 但 通过 较 少 
的 限制 手段 来 实现 这 种 一 致 性 。26. 6 节 描 述 不 带 可 串 行 性 的 一 致 性 方法 ; 在 文献 注解 中 引用 了 其 他 的 
方法 。 

早期 的 多 数据 库 系统 将 全 局 事务 限制 为 只 读 事 务 。 它 们 由 此 避免 全 局 事务 给 数据 带 来 不 一 致 性 的 
可 能 性 ， 但 是 没有 作出 足够 的 限制 来 确保 全 局 可 串 行 性 。 的 确 可 以 得 到 这 种 全 局 调度 并 开发 一 套 方案 
来 保证 全 局 可 串 行 性 ,我们 将 在 实践 习题 19. 15 中 让 你 们 去 实现 这 两 种 设想 。 

有 很 多 通用 方案 用 于 确保 在 可 以 执行 更 新 和 只 读 事 务 的 环境 中 的 全 局 可 串 行 性 。 几 种 这 样 的 方案 
是 基于 标签 (ticket) 思想 的 。 称 作 标签 的 特殊 数据 项 在 每 个 本 地 数据 库 系 统 中 创建 。 访 问 站 点 上 数据 的 
每 个 全 局 事务 必须 在 该 站 点 上 写 标 签 。 此 要 求 确 保全 局 事务 在 它们 所 访问 的 站 点 上 发 生 直接 的 冲突 。 
进而 ， 全 局 事务 管理 器 可 以 通过 控制 被 访问 标签 的 次 序 来 控制 全 局 事务 的 串 行 化 顺序 。 文 献 注解 中 有 
对 这 类 方案 的 引用 。 

如 果 我 们 要 在 每 个 站 点 都 不 会 产生 直接 的 本 地 冲突 的 环境 中 保证 全 局 可 串 行 化 ， 那 就 必须 作出 一 
些 关于 本 地 数据 库 系 统 所 人 允许 的 调度 的 假设 。 例 如 ， 如 果 本 地 调度 是 那些 提交 次 序 与 串 行 化 次 序 总 保 
持 一 致 的 调度 ， 我 们 可 以 通过 只 控制 事务 的 提交 次 序 来 确保 可 串 行 化 。 

在 多 数据 库 系 统 中 的 一 个 相关 问题 是 全 局 的 原子 性 提交 。 如 果 所 有 本 地 系统 都 遵循 两 阶段 提交 协 
议 ， 该 协议 便 可 用 于 实现 全 局 的 原子 性 。 然 而 ， 如 果 本 地 系统 不 是 作为 分 布 式 系 统 的 一 部 分 来 设计 的 
话 ， 就 可 能 无 法 参与 到 这 样 的 协议 中 。 即 使 本 地 系统 能 够 支持 两 阶段 提交 ， 但 拥有 该 系统 的 组 织 机 构 
可 能 不 愿意 允许 在 发 生 阻 塞 的 情况 下 等 待 。 在 这 种 情况 下 ， 可 能 会 作出 允许 在 特定 的 失效 模式 中 不 遵 
守 原 子 性 的 妥协 。 文 献 中 有 对 这 些 问 题 的 进一步 讨论 (参见 文献 注解 ) 。 


19.9 基于 云 的 数据 库 


A tH (cloud computing) 是 在 20 世纪 90 年 代 末 和 21 世纪 出 现在 计算 领域 中 的 一 个 相对 新 的 概念 ， 
开始 命名 为 软件 即 服务 ( software as a service) 。 最 初 的 软件 服务 供应 商 提供 的 是 驻 留 在 他 们 自己 的 机 器 
上 的 、 特 定 的 、 可 定制 的 应 用 程序 。 随 着 软件 供应 商 开 始 提供 通用 的 计算 机 来 作为 服务 ， 并 且 客 户 可 
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以 在 这 些 计算 机 上 运行 他 们 所 选 的 应 用 软件 ， 云 计算 的 概念 也 随 之 发 展 。 客 户 可 以 与 云 计 算 供应 商 达 


成 协议 来 获得 具有 特定 能 力 和 特定 数据 存储 量 的 特定 数量 的 机 器 。 机 器 数量 和 存储 容量 都 可 以 根据 需 
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要 来 增加 和 缩减 。 除 了 提供 计算 服务 ， 很 多 供应 商 还 提供 其 他 服务 ， 比 如 数据 存储 服务 、 地 图 服务 以 
及 能 够 通过 使 用 Web 服务 应 用 编程 接口 来 访问 的 其 他 服务 。 

很 多 企业 正在 寻找 云 计 算 与 服务 的 双赢 模式 。 它 免除 了 企业 客户 维护 一 个 大 型 的 系统 支撑 团队 的 
需要 ， 并 人 允许 新 的 企业 不 必 在 计算 系统 上 进行 大 量 的 前 期 资本 投入 就 可 以 开始 运作 。 进 而 ， 随 着 企业 
需求 的 增长 ， 可 用 按 需 添加 更 多 的 资源 (计算 和 存储 ) ; 云 计算 供应 商 通常 拥有 很 大 的 计算 机 集群 ， 使 
得 他 们 能 够 容易 地 按 需 分 配 资源 。 

很 多 供应 商都 提供 云 服务 。 其 中 包括 传统 的 计算 供应 商 以 及 正在 寻找 利用 它们 拥有 的 大 规模 基础 
设施 来 代替 它们 的 核心 业务 的 公司 ， 比 如 Amazon 和 Google, 

需要 为 非常 大 量 的 用 户 (范围 从 数 百 万 到 数 亿 ) 存 储 和 检索 数据 的 Web 应 用 已 经 成 为 基于 云 的 数据 
库 的 主要 驱动 者 。 这 些 应 用 的 需求 同 传统 数据 库 应 用 是 不 同 的 ， 因 为 它们 比 一 致 性 更 看 重 可 用 性 和 扩 
展 性 。 近 年 来 已 经 开发 出 几 种 基于 云 的 数据 存储 系统 来 满足 这 类 应 用 的 需求 。19. 9. 1 节 将 讨论 在 云 上 
创建 这 种 数据 存储 系统 的 问题 。 

在 19. 9. 2 45, 我们 考虑 在 云 上 运行 传统 数据 库 系统 的 问题 。 基 于 云 的 数据 库 同时 具备 同 构 和 异 构 
系统 的 特点 。 虽 然 数据 被 某 个 组 织 ( 客 户 ) 拥 有 并 且 是 某 个 统一 的 分 布 式 数 据 库 的 一 部 分 ， 但 底层 的 计 
算 机 被 男 一 个 组 织 ( 服 务 供应 商 ) 拥 有 和 管理 。 计 算 机 距离 客户 的 位 置 很 还， 是 通过 Internet 访问 的 。 
因此 ， 异 构 分 布 式 系统 的 一 些 挑战 依然 存在 ， 特 别 是 考虑 到 事务 处 理 的 情况 。 尽 管 如 此 ， 异 构 系 统 的 
很 多 组 织 性 和 政治 性 挑战 是 可 以 避免 的 。 

最 后 ，19. 9. 3 节 将 讨论 云 数 据 库 目 前 面临 的 几 种 技术 性 和 非 技 术 性 挑战 。 

19. 9. 1 云 上 的 数据 存储 系统 

Web 上 的 应 用 有 极 高 的 可 扩展 性 要 求 。 常 见 的 应 用 具有 数 亿 用 户 ， 并 且 许 多 应 用 在 一 年 之 内 ， 甚 
至 在 几 个 月 之 内 ， 它 们 的 负载 就 成 倍增 长 。 要 满足 这 类 应 用 对 数据 管理 的 需求 ， 数 据 必 须 在 数 千 个 处 
理 器 上 进行 划分 。 

在 过 去 几 年 中 已 经 开发 并 部 署 了 在 云 上 的 许多 数据 存储 系统 来 满足 这 类 应 用 对 数据 管理 的 需求 。 
它们 包括 Google 的 Bigtable; X H Amazon 的 Simple Storage Service( S3)， 它 给 Dynamo 提供 了 Web 接口 ， 
是 一 种 码 - 值 存储 系统 ; 来 自 FaceBook 的 Cassandra, © F Bigtable 类 似 ; 来 自 雅 虎 的 Sherpa/PNUTS; 
来 自 微软 的 Azure 环境 的 数据 存储 组 件 ; 以 及 其 他 几 个 系统 。 

本 节 提 供 对 这 些 数据 存储 系统 的 体系 架构 的 概览 。 虽 然 一 些 人 把 这 些 系统 称 作 分 布 式 数据 库 系统 ， 
但 它们 并 不 提供 被 认为 是 目前 数据 库 系 统 标准 的 很 多 特性 ， 比 如 对 SQL 的 支持 ， 或 者 对 具有 ACID 性 
质 的 事务 的 支持 。 

19.9.1.1 数据 表示 

作为 Web 应 用 对 数据 管理 需求 的 例子 ， 考 虑 用 户 的 个 人 简介 ， 由 一 家 组 织 机 构 运 行 的 很 多 不 同 的 
应 用 需要 访问 用 户 简历 。 简 历 包含 各 种 属性 ， 并 且 会 频繁 添加 存储 在 简历 中 的 属性 。 某 些 属 性 可 能 包 
含 复杂 的 数据 。 简 单 的 关系 表示 往往 不 足以 表示 这 些 复杂 数据 。 

一 些 基于 云 的 数据 存储 系统 支持 用 于 表示 这 种 复杂 数据 的 XML( 将 在 第 23 章 介绍 ) 。 另 一 些 支 持 
JavaScript 对 象 表示 法 (JavaScript Object Notation, JSON) 表示 ， 越 来 越 多 地 接受 ISON 来 表示 复杂 数据 。 
XML 和 JSON 表示 提供 了 一 条 记录 所 包含 的 属性 集 以 及 这 些 属性 类 型 的 灵活 性 。 然 而 还 有 一 些 系统 ， 
比如 Bigtable， 为 复杂 数据 定义 了 它们 自己 的 数据 模型 ， 包括 支持 具有 非常 多 的 可 选 列 的 记录 。 本 节 后 
面 再 来 探讨 Bigtable 数据 模型 。 

此 外 ， 很 多 这 样 的 Web 应 用 要 么 并 不 需要 全 面 的 查询 语言 支持 ， 要 么 至 少 在 没有 这 样 的 支持 下 可 
以 进行 管理 。 主 要 的 数据 访问 模式 是 存储 具有 相关 码 的 数据 ， 并 根据 这 个 码 检索 数据 。 在 上 述 用 户 简 
历 的 例子 中 ， 用 户 简历 数据 的 码 可 以 是 用 户 的 标识 符 。 有 一 些 应 用 在 概念 上 需要 连接 , 但 通过 视图 物 
化 的 形式 来 实现 连接 。 比 如 ， 在 一 个 社交 网 络 应 用 中 ， 每 个 用 户 应 该 可 以 看 到 来 自 其 所 有 朋友 的 新 邮 
件 。 遗 憾 的 是 ， 当 数据 分 布 在 很 多 机 器 上 时 ， 找 到 朋友 的 集合 然后 查询 每 个 人 来 找到 他 们 的 邮件 会 带 
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来 很 大 的 延迟 。 一 种 替代 的 方式 如 下 : 只 要 一 个 用 户 发 送 邮件 ， 就 向 该 用 户 的 所 有 朋友 发 送 一 条 消息 ， 
并 且 用 新 邮件 的 摘要 来 更 新 与 每 个 朋友 相关 联 的 数据 。 当 该 用 户 检查 更 新 时 ， 所 有 所 需 数据 已 经 在 某 
个 地 方 可 用 并 可 以 快速 检索 。 
因此 ， 云 数据 存储 系统 的 核心 是 基于 两 个 基本 函数 : 用 于 存储 具有 相关 码 的 值 的 put( key, value) 
和 用 于 检索 与 特定 码 关联 的 存储 值 的 get( key) 。 一 些 系 统 额外 提供 码 值 上 的 范围 查询 ， 比 如 Bigtable, 
在 Bigtable 中 ， 一 条 记录 不 会 作为 单个 值 来 存储 ， 而 是 划分 成 组 成 属性 来 分 开 存 储 。 因 此 ， 一 个 
属性 值 的 码 在 概念 上 由 (记录 标识 符 、 属 性 名 ) 组成。 每 个 属性 值 在 Bigtable 中 只 是 一 个 字符 串 。 要 获 [863 | 
得 一 条 记录 的 所 有 属性 ， 需 要 使 用 范围 查询 或 者 仅 由 记录 标识 符 构 成 的 更 精确 的 前 缀 匹配 查询 。get( ) 
函数 返回 属性 名 和 对 应 的 值 。 为 了 高 效 地 检索 出 一 条 记录 的 所 有 属性 ， 存 储 系 统 按 码 的 次 序 存 放 各 个 
项 ， 这 样 一 条 特定 记录 的 所 有 属性 值 就 是 聚集 在 一 起 的 。 


JSON 
JavaScript 对 象 表示 法 或 JSON 是 复杂 数据 类 型 的 文本 表示 方式 ， 它 广泛 用 于 应 用 之 间 的 数据 传 
输 ， 以 及 复杂 数据 存储 。JSON 支持 基本 数据 类 型 ， 如 整数 、 实 数 和 字符 串 类 型 ， 以 及 数组 类 型 和 
“对 象 " ， 对 象 是 (属性 名 、 值 ) 对 的 集合 。JSON 对 象 的 一 个 例子 是 : 


| " firstname" : "n Hans" 4 " lastname" i " Einstein" P 
| "firstname" : "Eduard" , "lastname" ; "Einstein" | 


上 面 的 例子 说 明 对 象 包含 (属性 名 、 值 ) 对， 并 且 数 组 是 用 方 括号 界定 的 。JSON 可 以 看 成 是 
XML 的 一 种 简化 形式 ; XML 将 在 第 23 章 介绍 。 

开发 了 一 些 库 用 FÆ JSON 表示 和 用 在 JavaSeript 和 PHP 脚本 中 以 及 其 他 编程 语言 中 的 对 象 表示 
之 间 的 数据 转换 。 


实际 上 ， 记 录 标 识 符 本 身 可 以 层次 化 构造 ， 尽 管 对 于 Bigtable 自身 来 说 ， 记 录 标 识 符 只 是 一 个 字 
符 串 。 例 如 ， 一 个 存放 通过 网 络 息 忠 抓 取 到 的 页 面 的 应 用 可 以 把 如 下 形式 的 URL: 

www. cs. yale. edu/people/silberschatz. html 
映射 到 记录 标识 符 : 

edu. yale. cs. www/people/silberschatz. html [864 | 
这 样 页 面 就 按照 有 用 的 顺序 聚集 起 来 。 作 为 另 一 个 例子 ， 在 ISON 例子 ( 见 ISON 的 示例 框 ) 中 的 记录 可 
用 具有 “22222” 标 识 符 的 记录 来 表示 ， 它 有 多 个 属性 名 ， 比 如 “name. lastname”、“deptname”、“children 
[1]. firstname” 或 “children[ 2 |. lastname” 。 

此 外 ， 通 过 在 记录 标识 符 前 面 简单 地 加 上 应 用 名 和 表 名 作为 前 级 ， 单 个 Bigtable 实例 可 以 为 多 个 
应 用 存储 数据 ， 每 个 应 用 具有 多 个 表 。 

数据 存储 系统 基本 上 都 允许 存储 数据 项 的 多 个 版 本 。 版 本 号 往往 采用 时 间 戳 来 标识 ， 但 也 可 以 通 
过 一 个 整数 值 标识 的 方式 来 代替 ， 每 创建 一 个 数据 项 的 新 版 本 时 该 整数 值 就 递增 。 查 找 可 以 指定 数据 
项 的 所 需 版 本 ,或 者 挑选 版 本 号 最 高 的 版 本 。 比 如 ， 在 Bigtable 中 ， 码 实际 上 由 三 部 分 组 成 : (记录 标 
识 符 、 属 性 名 、 时 间 惟 ) 。 

19.9. 1.2 划分 与 检索 数据 

当然 ， 数 据 划 分 是 数据 存储 系统 中 处 理 超大 规模 数据 的 关键 。 和 常规 并 行 数据 库 不 同 ， 它 常常 不 
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可 能 提前 决定 划分 函数 。 此 外 ， 如 果 负 载 增加 ， 就 需要 增加 更 多 的 服务 器 ， 并 且 每 个 服务 器 应 该 能 够 
增 量 式 地 承担 部 分 负载 。 

为 了 解决 这 两 种 问题 ， 数 据 存储 系统 通常 把 数据 划分 成 相对 小 的 单元 (在 这 种 系统 上 的 小 可 能 意 
味 着 数 MB 的 量 级 ) 。 这 种 划分 通常 叫 表 块 (tablet) ， 反 映 了 每 个 表 块 作为 表 中 一 部 分 的 事实 。 数 据 划 
分 应 该 根据 搜索 码 来 进行 ， 这 样 对 特定 码 值 的 请 求 就 定位 到 单个 表 块 ; 否则 每 个 请 求 需要 在 多 个 站 点 
上 处 理 ， 大 大 增加 了 系统 负载 。 有 两 种 方法 可 以 使 用 : 或 者 在 码 上 直接 使 用 范围 划分 ， 或 者 在 码 上 应 
用 散 列 函 数 并 且 在 散 列 函数 的 结果 上 应 用 范围 划分 。 

表 块 所 在 的 站 点 作为 该 表 块 的 主 站 点 。 所 有 更 新 通过 该 站 点 路 由 ， 然 后 把 更 新 传播 到 表 块 的 副本 
上 。 查 找 也 发 送 到 相同 的 站 点 ， 这 样 读 与 写 才 是 一 致 的 。 

WR PR ABR 

表 划分 / 表 块 的 
主 副本 映射 





路 由 器 表 块 控制 器 








表 块 服务 器 
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把 数据 划分 到 表 块 上 并 不 是 预先 确定 好 的 ， 而 是 动态 进行 的 。 随 着 数据 的 插入 ， 如 果 表 块 变 得 过 
大 ， 就 会 分 裂 成 更 小 的 部 分 。 此 外 ， 即 使 表 块 没有 达到 分 裂 的 指标 ， 如 果 在 这 个 表 块 上 的 负载 (获取 / 
上 传 操 作 ) 过 大 ， 这 个 表 块 也 可 能 拆 分 成 更 小 的 表 块 ， 这 些小 的 表 块 可 以 分 布 在 两 个 或 多 个 站 点 上 来 分 
担负 载 。 通 常 表 块 的 数量 远 多 于 站 点 数量 ， 其 原因 与 并 行 数 据 库 中 使 用 虚拟 划分 一 样 。 

知道 整个 系统 中 哪个 站 点 负责 特定 表 块 是 非常 重要 的 。 这 可 以 通过 表 块 控制 器 站 点 来 实现 ， 此 站 
点 跟踪 划分 函数 ， 以 便 把 get( ) 请 求 映射 到 一 个 或 多 个 表 块 ， 此 外 还 跟踪 从 表 块 到 站 点 的 映射 函数 ， 
以 找到 哪个 站 点 负责 哪个 表 块 。 进 入 系统 的 每 个 请 求 必 须 路 由 到 正确 的 站 点 ; 如 果 只 有 一 个 表 块 控制 

器 站 点 负责 此 项 任务 ， 那 么 它 很 快 就 会 过 载 。 相 反 ， 了 映射 信息 可 复制 到 路 由 器 站 点 集 上 ， 这 些 路 由 器 

站 点 把 请 求 路 由 到 具有 相应 表 块 的 站 点 上 。 当 拆 分 或 移动 表 块 时 ， 用 于 更 新 映射 信息 的 协议 被 设计 成 
不 使 用 封锁 的 方式 ; 其 结果 是 请 求 可 能 在 错误 的 站 点 上 结束 。 对 此 问题 的 处 理 是 通过 检测 该 站 点 不 再 
负责 请 求 所 指定 的 码 ， 并 根据 最 新 的 映射 信息 来 重新 路 由 请 求 。 

图 19-7 描述 了 云 数 据 存储 系统 的 体系 结构 ， 它 大 致 基于 PNUTS 架构 。 其 他 系统 也 提供 了 类 似 的 功 
能 ， 尽 管 它们 的 体系 结构 可 能 有 变化 。 例 如 ，Bigtable 并 没有 独立 的 路 由 器 ; 划分 和 表 块 - 服务 器 的 映 
射 信息 是 存放 在 Google 文件 系统 中 的 ， 客 户 端 从 文件 系统 中 读 取 信息 ， 并 决定 向 何 处 发 送 它们 的 
请 求 。 

19.9.1.3 事务 和 复制 

云 上 的 数据 存储 系统 通常 不 完全 支持 事务 的 ACID 。 两 阶段 提交 的 代价 太 高 ， 而 且 两 阶段 提交 可 能 
在 失效 发 生 时 导致 堵塞 ， 这 是 典型 的 Web 应 用 不 能 接受 的 。 这 就 意味 着 这 种 系统 通常 甚至 不 支持 事务 
一 致 性 的 二 级 索引 : 二 级 索引 可 能 按照 与 存储 数据 所 使 用 的 码 不 同 的 属性 进行 划分 ， 从 而 插入 或 更 新 
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就 需要 更 新 两 个 站 点 ， 这 就 需要 两 阶段 提交 。 在 最 好 情况 下 ， 这 样 的 系统 支持 在 单个 表 块 内 数据 上 的 
事务 ,通过 单个 主 站 点 来 控制 。Sherpa/PNUTS 还 提供 测试 与 设置 函数 ， 人 允许 在 数据 项 当前 版 本 与 指定 
版 本 号 相同 的 情况 下 对 数据 项 进行 更 新 。 如 果 数 据 项 的 当前 版 本 号 比 指定 版 本 号 要 新 ， 那 么 更 新 就 不 
会 执行 。 应 用 可 以 用 测试 与 设置 函数 来 实现 一 种 受 限 形式 的 基于 有 效 性 检查 的 并 发 控制 ， 其 有 效 性 检 
查 被 限制 在 单个 表 块 中 的 数据 项 上 。 

在 具有 数 千 个 站 点 的 系统 中 ， 几 乎 可 以 肯定 在 任何 时 间 都 会 有 几 个 站 点 宕 机 。 云 上 的 数据 存储 系 
统 必须 在 即使 有 很 多 站 点 宕 掉 的 情况 下 也 能 够 继续 正常 的 处 理 。 这 种 系统 把 数据 ( 比如 表 块 ) 复制 到 同 
一 个 集群 中 的 多 台 机 器 上 ， 这 样 哪怕 一 个 集群 中 的 某 些 机 器 宕 掉 ， 这 些 数据 的 副本 还 可 能 是 可 用 的 。 
(集群 (cluster) 是 在 一 个 数据 中 心 的 机 器 的 集合 。) 比如 ， 谷 歌 文件 系统 (Google File System, GFS) 是 一 
个 分 布 式 容错 的 文件 系统 ， 它 把 所 有 文件 系统 块 复制 到 一 个 集群 中 的 三 个 或 多 个 结 点 上 。 只 要 至 少 有 
一 个 数据 副本 可 用 ， 正 常 的 操作 就 可 以 继续 (关键 的 系统 数据 ， 比 如 文件 到 结 点 的 映射 ， 复 制 到 更 多 的 
站 点 上 ， 其 中 的 大 部 分 必须 可 用 ) 。 此 外 ， 副 本 还 可 以 在 地 理 上 分 布 的 集群 之 间 使 用 ， 至 于 其 原因 我 们 
很 快 就 会 看 到 。 

由 于 每 个 表 块 只 由 单个 主 站 点 控制 ， 如 果 这 个 站 点 失效 ,那么 表 块 应 该 重新 指派 给 具有 该 表 块 副 
本 的 一 个 不 同 的 站 点 ， 该 站 点 就 成 为 该 表 块 新 的 主 站 点 。 对 表 块 的 更 新 记录 为 日 志 ， 并 且 日 志 本 身 也 
备份 。 当 站 点 失效 时 ， 该 站 点 上 的 表 块 指派 给 其 他 站 点 ; 每 个 表 块 新 的 主 站 点 负责 执行 恢复 动作 ， 使 
用 日 志 来 使 其 表 块 副本 达到 最 新 的 一 致 性 状态 ， 此 后 可 以 在 该 表 块 上 执行 更 新 和 查找 。 

比如 ,在 Bigtable 中 映射 信息 存储 在 一 个 索引 结构 中 ， 并 且 这 个 索引 和 实际 的 表 块 数据 一 起 存储 
在 文件 系统 中 。 表 块 数据 的 更 新 并 没有 立即 执行 ， 但 日 志 数 据 是 。 文 件 系统 确保 文件 系统 数据 被 复制 
而 且 面 对 集群 中 的 几 个 站 点 失效 时 依然 可 用 。 因 此 ， 当 一 个 表 块 被 重新 指派 时 ， 该 表 块 新 的 主 站 点 能 
够 访问 到 最 新 的 日 志 数据 。 另 一 个 方面 ， 雅 虎 的 Sherpa/PNUTS 系统 显 式 地 把 表 块 复制 到 集群 中 的 多 个 
结 点 上 ， 而 不 是 使 用 分 布 式 文件 系统 ， 并 且 采 用 可 靠 的 分 布 式 消息 系统 来 实现 高 可 用 性 日 志 。 

遗憾 的 是 ， 整 个 数据 中 心 变 得 不 可 用 并 非 是 不 常见 的 一 一 例如 ， 由 于 自然 灾害 或 者 火灾 。 因 此 对 
于 高 可 用 性 而 言 ， 远 程 站 点 的 备份 是 非常 重要 的 。 对 于 很 多 Web 应 用 ， 在 远 距 离 网 络 上 的 往返 延迟 会 
严重 影响 性 能 ， 在 使 用 Ajax 应 用 中 这 个 问题 会 更 加 严重 ，Ajax 应 用 需要 在 浏览 器 和 应 用 之 间 进 行 多 轮 
通信 。 为 了 处 理 这 个 问题 ， 用 户 连 接 到 地 理 上 离 他 们 最 近 的 应 用 服务 器 ， 并 且 数 据 在 多 个 数据 中 心 进 
行 备份 ， 这 样 其 中 一 个 副本 可 能 靠近 应 用 服务 器 。 

但 是 ， 其 结果 是 网 络 划 分 的 危险 增加 了 。 假 设 大 多 数 Web 应 用 对 可 用 性 的 重视 超过 了 一 致 性 ， 云 
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上 的 数据 存储 系统 通常 允许 即使 在 发 生 划 分 时 也 执行 更 新 ， 并 提供 对 随后 恢复 一 致 性 的 支持 ， 正 如 之 [867 


前 在 19. 6.6 节 介 绍 的 那样 。 我 们 在 19.5.3 节 看 到 的 具有 更 新 的 延迟 传播 的 多 主 复制 常常 用 于 处 理 更 
新 。 延 迟 传播 意味 着 更 新 并 不 作为 更 新 事务 的 一 部 分 来 传播 给 副本 ， 尽 管 通常 采用 消息 传递 基础 设施 
尽 可 能 快 地 传播 它们 。 

除了 对 数据 项 副本 的 更 新 传播 ， 对 二 级 索引 的 更 新 ， 或 者 对 特定 类 型 物化 视图 (比如 之 前 在 
19. 9. 1. 1 节 我 们 看 到 的 社交 网 络 应 用 中 ,来自 好 友 的 更 新 ) 的 更 新 ， 都 可 以 使 用 消息 传递 基础 设施 来 
进行 发 送 。 二 级 索引 本 质 上 是 表 ， 和 正常 的 表 一 样 基于 索引 搜索 码 划 分 ; 对 表 中 一 条 记录 的 更 新 可 以 
映射 到 表 上 二 级 索引 中 的 一 个 或 多 个 表 块 的 更 新 。 对 这 种 二 级 索引 或 物化 视图 的 更 新 没有 事务 性 保证 ， 
只 是 尽 最 大 努力 保证 更 新 尽快 到 达 其 目的 地 。 
19. 9.2 云 上 的 传统 数据 库 

我 们 现在 考虑 在 云 上 实现 一 个 支持 ACID 特性 和 查询 的 传统 分 布 式 数据 库 系 统 的 问题 。 

计算 工具 是 一 个 老 概念 ， 可 以 追溯 到 20 世纪 60 年 代 。 此 概念 的 首次 出 现 是 在 分 时 系统 中 ， 其 中 
多 个 用 户 共 享 地 访问 单 台 大 型 计算 机 。 后 来 ,在 20 世纪 60 年 代 末 ， 出 现 了 虚拟 机 (virtual machine) 的 
概念 ， 在 此 概念 中 用 户 在 感觉 上 好 像 拥有 私人 计算 机 ， 但 实际 上 是 单 台 计 算 机 在 模拟 多 台 虚 拟 机 。 

云 计算 充分 利用 了 虚拟 机 的 概念 来 提供 计算 服务 。 虚 拟 机 提供 了 很 大 的 灵活 性 ， 因 为 客户 可 以 选 
择 他 们 自己 的 软件 环境 ， 不仅 包括 应 用 软件 ， 而 且 包 括 操作 系统 。 如 果 客 户 的 计算 需求 较 低 ， 多 个 客 
户 的 虚拟 机 可 以 运行 在 单 台 物理 计算 机 上 。 另 一 方面 ， 如 果 客 户 的 虚拟 机 负载 很 高 ， 整 台 计 算 机 可 以 
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分 配给 一 个 客户 的 每 台 虚 拟 机 。 客 户 可 以 请 求 多 台 虚 拟 机 ， 用 于 在 其 上 运行 应 用 程序 。 通 过 简单 地 增 
加 或 释放 虚拟 机 ， 这 使 得 随 着 负载 的 增加 和 缩减 来 添加 或 削减 计算 能 力 变 得 简单 。 

拥有 一 组 虚拟 机 非常 适合 易于 并 行 化 的 应 用 。 数 据 库 系统 ， 正 如 我 们 所 看 到 的 ， 都 属于 这 一 类 。 
每 台 虚 拟 机 可 以 在 本 地 运行 数据 库 系统 代码 ， 并 且 表 现 方式 类 似 于 在 一 个 同 构 分 布 式 数据 库 系 统 中 的 
站 点 。 

19.9.3 ”基于 云 的 数据 库 的 挑战 

与 从 头 构建 一 个 计算 基础 设施 相 比 ， 基 于 云 的 数据 库 当 然 有 几 个 重要 的 优势 ， 并 且 对 特定 应 用 来 
说 实际 上 是 必 不 可 少 的 。 

然而 ， 基 于 云 的 数据 库 系 统 也 有 一 些 缺 点 ， 对 此 我 们 现在 来 探讨 。 与 单纯 的 、 很 大 限度 上 独立 运 
行 并 行 计 算 的 计算 应 用 不 同 ， 为 了 下 述 目的 ， 分 布 式 数据 库 系 统 需要 在 站 点 之 间 进 行 频繁 通信 与 协调 : 

。 访问 在 另 一 台 物 理 机 器 上 的 数据 ， 要 么 是 因为 另 一 台 虚 拟 机 拥有 该 数据 ， 要 么 是 因为 数据 存储 

在 独立 于 该 虚拟 机 主机 的 存储 服务 器 上 。 

。 获取 远程 数据 上 的 封锁 。 

。 通过 两 阶段 提交 确保 原子 性 事务 的 提交 。 

在 早期 的 分 布 式 数据 库 的 研究 中 ,我 们 ( 隐 式 地 ) 假 定数 据 库 管理 员 能 够 控制 数据 的 物理 位 置 。 在 
云 系统 中 ， 数 据 的 物理 位 置 由 供应 商 控制 ， 并 不 是 客户 。 因 此 ， 数 据 的 物理 放置 就 通信 代价 方面 来 说 
可 能 不 是 最 理想 的 ， 并 且 这 可 能 导致 大 量 的 远程 封锁 请 求 和 虚拟 机 之 间 的 大 量 数据 传送 。 高 效 的 查询 
优化 要 求 优化 器 能 够 准确 度量 操作 的 代价 。 由 于 缺乏 数据 的 物理 放置 知识 ， 因 此 优化 器 不 得 不 依赖 于 
可 能 非常 不 准确 的 估计 ， 导 致 低劣 的 执行 策略 。 因 为 远程 访问 相 比 本 地 访问 要 慢 ， 所 以 这 些 问 题 可 能 
会 对 性 能 产生 重大 影响 。 

上 述 问 题 对 于 在 云 上 实现 传统 数据 库 应 用 是 一 个 特别 的 挑战 ， 虽 然 对 于 简单 数据 存储 系统 来 说 没 
有 多 大 挑战 。 接 下 来 讨论 的 几 种 挑战 可 以 同样 地 应 用 于 这 两 种 应 用 场景 。 

复制 问题 进一步 加 剧 了 基于 云 的 数据 管理 的 复杂 性 。 云 系统 为 了 可 用 性 而 复制 客户 数据 。 事 实 上 ， 
如 果 没 有 维护 特定 级 别 的 可 用 性 ， 许 多 合约 都 有 条 款 对 供应 商 施 加 处 罚 。 供 应 商 实现 这 种 复制 时 是 不 
具备 对 于 应 用 的 特定 知识 的 。 由 于 复制 是 在 云 控制 之 下 的 ， 并 不 在 数据 库 系 统 的 控制 之 下 ， 因 此 当 数 
据 库 系统 访问 数据 时 必须 小 心 ， 以 确保 读 取 的 是 数据 的 最 新 版 本 。 如 果 不 能 正确 考虑 这 些 问题 可 能 导 
致 原子 性 或 隔离 性 特性 的 损失 。 在 目前 许多 云 数 据 库 应 用 中 ， 应 用 本 身 可 能 需要 为 一 致 性 承担 一 些 
责任 。 

云 计 算 用 户 必须 愿意 接受 他 们 的 数据 被 另 一 家 组 织 机 构 掌握 的 事实 。 这 可 能 会 带 来 在 安全 性 和 法 
律 责任 方面 的 各 种 风险 。 如 果 云 供应 商 遭 受 安全 性 攻击 ， 客 户 数据 可 能 泄露 ， 导 致 客户 面临 来 自 其 用 
户 的 法 律 挑战 。 然 而 客户 不 能 直接 控制 云 供应 商 的 安全 性 。 如 果 云 供应 商 选 择 将 数据 (或 数据 的 副本 ) 
存储 在 其 他 国家 ， 这 些 问 题 将 变 得 更 加 复杂 。 各 种 法 律 司 法 权 在 它们 的 隐私 法 中 是 不 同 的 。 例 如 ， 如 


[869] 果 一 家 德国 公司 的 数据 被 复制 到 纽约 的 服务 器 上 ， 那 么 将 采取 美国 的 隐私 法 律 ， 而 不 是 德国 的 或 欧盟 


的 隐私 法 律 。 云 供应 商 可 能 需要 把 客户 数据 发 布 给 美国 政府 ， 尽 管 客户 从 不 知道 其 数据 将 会 卷 人 美国 
司法 权 管 辖 之 内 。 

特定 的 云 供应 商 向 它们 的 客户 提供 对 他 们 的 数据 如 何 分 布 和 复制 的 各 种 程度 的 控制 。 一 些 供应 商 
直接 向 它们 的 客户 提供 数据 库 服务 ， 而 不 需要 客户 为 在 原始 存储 和 虚拟 机 上 运行 他 们 自己 的 数据 库 系 
统 而 签订 合约 。 

云 服务 市 场 持续 快速 发 展 ,但 很 显然 签订 云 服 务 合约 的 数据 库 管 理 员 必须 考虑 各 种 技术 、 经 济 和 
法 律 方面 的 问题 ， 以 确保 数据 的 隐私 和 安全 ， 保 证 ACID 特性 (或 可 接受 的 近似 性 质 ) ， 以 及 足够 的 性 
能 ， 尽 管 数据 可 能 分 布 在 广泛 的 地 理 区 域 上 。 文 献 注解 提供 了 一 些 有 关 这 些 主题 的 当前 见解 。 许 多 新 
的 文献 可 能 在 未 来 几 年 出 现 ， 云 数据 库 中 的 许多 当前 问题 正 由 研究 团体 设法 解决 。 


19. 10 ”目录 系统 
考虑 一 家 组 织 机 构 ， 它 希望 建立 对 该 机 构 中 各 种 人 都 可 用 的 、 有 关 其 员工 的 数据 ; 这 类 数据 的 例 
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子 包 括 名 称 、 头 衔 、 员 工 号 、 地 址 、 电 子 邮 箱 地 址 、 电 话 号 码 、 传 真 号 码 等 。 在 计算 机 化 以 前 ,组 织 
机 构 会 创建 物理 的 员工 目录 并 把 它们 分 发 到 机 构 中 。 其 至 在 现在 ， 电 话 公司 仍 建立 物理 的 客户 目录 . 
一 般 而 言 ， 目 录 是 关于 某 些 类 别 的 对 象 ( 例 如 人 ) 的 信息 列表 。 目 录 可 用 于 寻找 有 关 特 定 对 象 的 信 
息 ， 或 者 反方 向 找到 满足 特定 需求 的 对 象 。 在 物理 电话 目录 范围 内 ， 满 足 前 向 查找 的 目录 叫 白 页 
(white page) ， 而 满足 反 向 查找 的 目录 称 为 黄页 (yellow page) 。 
在 当今 的 网 络 时 代 ， 仍 然 存 在 对 目录 的 需求 ， 如 果 有 什么 不 同 的 话 ， 那 就 是 变 得 更 重要 了 。 然而， 
当今 的 目录 需要 在 计算 机 网 络 中 是 可 用 的 ， 而 不 是 在 一 种 物理 ( 纸张) 形式 中 
19. 10.1 目录 访问 协议 
目录 信息 可 以 通过 Web 界面 使 用 ， 许 多 机 构 都 是 这 么 做 的 ， 尤 其 是 电话 公司 。 这 样 的 界面 是 适合 
于 人 的 。 然 而 ， 程 序 也 需要 访问 目录 信息 。 目 录 可 用 于 存储 其 他 类 型 的 信息 ， 很 像 文件 系统 目录 。 例 
如 ， 网 络 浏览 器 可 以 在 目录 系统 中 存储 个 人 书签 和 其 他 浏览 器 设置 。 这 样 用 户 可 以 从 多 个 地 方 (例如 在 
家 或 在 工作 室 ) 来 访问 同样 的 设置 ， 而 不 需要 共享 文件 系统 。 
已 经 开发 出 几 种 目录 访问 协议 ( directory access protocol ) 来 提供 访问 目录 中 数据 的 标准 化 方式 。 其 
中 ， 现 在 使 用 最 广泛 的 是 轻 量 级 目录 访问 协议 (Lightweight Directory Access Protocol, LDAP) 。 
显然 在 例子 中 的 所 有 类 型 的 数据 都 可 以 方便 地 存 人 数据 库 系统 ， 并 通过 诸如 JDBC 或 ODBC 这 样 
的 协议 来 访问 。 这 样 就 有 一 个 问题 : 为 什么 要 提出 一 种 特殊 协议 用 于 访问 目录 信息 呢 ? 对 这 个 问题 至 
少 有 两 个 答案 。 
。 首先 ， 目 录 访 问 协议 是 迎合 有 限 类 型 的 数据 访问 的 简化 协议 。 它 们 与 数据 库 访问 协议 是 并 行 发 
展 的 。 
。 其 次 ， 而 且 也 是 更 重要 的 ， 类 似 于 文件 系统 目录 名 称 ， 目 录 系 统 以 一 种 分 层 的 方式 提供 一 种 简 
单 的 对 象 命名 机 制 ， 可 用 于 分 布 式 目录 系统 中 来 指明 每 台 目 录 服 务 器 中 存储 了 何 种 信息 。 例 
如 ， 一 台 特 定 的 目录 服务 器 可 能 存储 了 贝尔 实验 室 在 Murray Hil 的 员工 信息 ， 而 另 一 台 可 能 存 
储 了 贝尔 实验 室 在 Bangalore 的 员工 信息 ， 并 给 两 个 站 点 控制 它们 的 本 地 数据 的 自治 权 。 目 录 
访问 协议 可 用 于 通过 网 络 从 两 个 目录 中 获取 数据 。 更 重要 的 是 ， 目 录 系 统 可 以 设置 成 在 没有 用 
户 干 预 的 情况 下 自动 地 将 一 个 站 点 上 所 做 的 查询 转发 到 另 一 个 站 点 上 。 
因为 这 些 原因 ， 一 些 机 构 利 用 目录 系统 ， 使 得 通过 目录 访问 协议 可 以 在 线 获得 机 构 信 息 。 机 构 目 
录 中 的 信息 可 用 于 各 种 目的 ， 例 如 查找 人 的 地 址 、 电 话 号 码 或 邮件 地 址 ， 查 找 人 们 所 在 的 部 门 ， 以 及 
跟踪 部 门 的 层次 结构 。 目 录 也 可 用 于 鉴别 用 户 身 份 : 应 用 可 以 收集 鉴别 信息 ， 例 如 用 户 输入 的 密码 ， 
并 利用 目录 鉴别 它们 。 
正如 可 能 预期 的 那样 ， 几 种 目录 的 实现 证 明 ， 使 用 关系 数据 库存 储 数据 是 有 利 的 ， 而 不 是 创建 特 
殊 目的 的 存储 系统 。 


19.10.2 LDAP: 轻 量 级 目录 访问 协议 

为 多 个 客户 端 服 务 的 目录 系统 通常 作为 一 台 或 多 台 服 务 器 来 实现 。 客 户 端 使 用 由 目录 系统 定义 的 
应 用 编程 接口 与 目录 服务 器 通信 。 目 录 访 问 协议 还 定义 了 数据 模型 和 访问 控制 。 

由 国际 标准 化 组 织 (ISO ) 定 义 的 X. 500 目录 访问 协议 (X. 500 directory access protocol ) 是 访问 目录 信 
息 的 标准 。 但 是 ， 此 协议 相当 复杂 ， 没 有 广泛 使 用 。 轻 量 级 目录 访问 协议 (Lightweight Directory Access 
Protocol ，LDAP) 提 供 了 X. 500 的 许多 特性 ， 但 复杂 性 降低 了 ， 并 广泛 使 用 。 本 节 剩 余 的 部 分 将 概述 
LDAP 的 数据 模型 和 访问 协议 的 细节 。 

19.10.2.1 LDAP 数据 模型 

在 LDAP 中 目录 存储 的 是 类 似 于 对 象 的 条 目 (entry) 。 每 个 条 目 必 须 有 可 区 别名 称 ( Distinguished 
Name，DN) ， 它 唯一 地 标识 了 这 个 条 目 。DN 又 由 相对 可 区 别名 称 (Relative Distinguished Name, RDN) 
的 序列 组 成 。 例 如 ， 一 个 条 目 可 能 具有 如 下 可 区 别名 称 : 

cn = Silberschatz, ou = Computer Science，o = Yale University, c = USA 

如 你 所 看 到 的 那样 ， 在 这 个 例子 中 的 可 区 别名 称 是 名 称 和 (组 织 机 构 的 ) 地 址 的 组 合 ， 以 人 名 开始 ， 然 
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后 给 出 组 织 部 门 (ou) 、 组 织 (0) 和 国家 (c)。 可 区 别名 称 的 构成 顺序 和 通常 的 邮件 地 址 顺序 一 致 ， 而 不 
是 在 为 文件 指定 路 径 名 时 采用 的 相反 的 顺序 。 用 于 一 个 DN 的 RDN 集合 由 目录 系统 的 模式 来 定义 的 。 

条 目 也 可 以 有 属性 。LDAP 提供 二 进 制 、 字 符 串 和 时 间 类 型 ， 男 外 还 有 用 于 电话 号 码 的 tel 类 型 ， 
以 及 用 于 地 址 的 PostalAddress 类 型 ( 行 间 用 $ 字符 分 开 )。 与 关系 模型 中 的 属性 不 同 ， 这 里 的 属性 默认 
为 多 值 的 ， 因 此 可 能 为 一 个 条 目 存 储 多 个 电话 号 码 或 者 地 址 。 

LDAP 允许 定义 带 有 属性 名 和 类 型 的 对 象 类 (object class) 。 在 定义 对 象 类 时 可 以 使 用 继承 。 而 且 ， 
可 以 指定 条 目 属于 一 个 或 多 个 对 象 类 。 定 义 条 目 所 属 的 一 个 最 特殊 的 对 象 类 是 不 必要 的 。 

条 目 按照 它们 的 可 区 别名 称 组 织 成 一 棵 目录 信息 树 ( Directory Information Tree ，DIT) 。 树 的 叶 级 条 
目 通常 表示 特定 的 对 象 。 作 为 内 部 结 点 的 条 目 表 示 如 组 织 部 门 、 组 织 或 国家 这 样 的 对 象 。 一 个 结 点 的 
子 结 点 具有 包含 其 父 结 点 所 有 RDN 的 DN， 以 及 一 个 或 多 个 附加 的 RDN。 例 如 ， 一 个 内 部 结 点 可 能 有 
— DN: e=USA， 在 它 以 下 的 所 有 条 目 对 RDN c 都 有 USA 这 个 值 : 

完整 的 可 区 别名 称 不 必 存 储 在 条 目 中。 系统 可 以 通过 从 条 目 向 上 遍历 DIT， 收 集 RDN = value 的 成 
分 以 产生 完整 的 可 区 别名 称 的 方式 来 产生 一 个 条 目的 可 区 别名 称 。 

条 目 可 以 有 不 止 一 个 可 区 别名 称 一 一 例如 ， 对 于 一 个 在 不 止 一 家 组 织 机 构 中 的 人 的 条 目 。 为 了 处 
理 这 种 情况 ，DIT 的 叶 结 点 可 以 是 别名 (alias) ， 它 指向 树 的 另 一 个 分 支 中 的 条 目 。 

19. 10.2.2 数据 操纵 

与 SQL Ale], LDAP 既 没 有 定义 数据 定义 语言 ， 也 没有 定义 数据 操纵 语言 。 然 而 ，LDAP 定义 了 一 
种 用 于 执行 数据 定义 和 操纵 的 网 络 协 议 。LDAP 的 用 户 既 可 以 使 用 应 用 编程 接口 ， 也 可 以 使 用 由 不 同 
厂商 提供 的 工具 来 执行 数据 的 定义 和 操纵 。LDAP 还 定义 了 一 种 文件 格式 ， 称 为 LDAP 数据 交换 格式 

872 | (LDAP Data Interchange Format，LDIF) ， 它 可 用 于 存储 和 交换 信息 。 

LDAP 中 的 查询 机 制 十 分 简单 ， 只 有 选择 和 投影 ， 没 有 连接 。 查 询 必 须 指定 以 下 几 点 : 

。 一 个 基 一 一 DIT 中 的 一 个 结 点 通过 给 出 其 可 区 别名 称 ( 从 根 结 点 到 该 结 点 的 路 径 ) 。 

。 一 个 搜索 条 件 ， 可 以 是 各 个 属性 上 的 条 件 的 布尔 组 合 。 支 持 相等 、 通 配 符 匹 配 和 近似 相等 ( 近 

似 相 等 的 精确 定义 因 具 体系 统 而 异 ) 。 

。 一 个 范围 ， 可 以 就 是 基 ， 也 可 以 是 基 和 它 的 子 基 ， 或 者 是 基 以 下 的 整 棵 子 树 。 

。 要 返回 的 属性 。 

。 结果 和 资源 消耗 的 数量 限制 。 
查询 还 可 以 指定 是 否 自动 取消 引用 别名 ; 如 果 关 闭 了 取消 引用 别名 ， 则 别名 条 目 可 以 作为 答案 返回 。 

查询 LDAP 数据 源 的 一 种 方式 是 使 用 LDAP URL, LDAP URL 的 例子 是 : 

Idap:: //codex. cs. yale. edu/o = Yale University, c = USA 

Idap:: //codex. cs. yale. edu/o = Yale University, c =USA?? sub? cn = Silberschatz 
第 一 个 URL 返回 具有 组 织 机 构 为 Yale University 并 且 国 家 为 USA 的 服务 器 上 所 有 条 目的 所 有 属性 。 第 
二 个 URL 在 具有 可 区 别名 称 o = Yale University, ¢ = USA 的 结 点 的 子 树 上 执行 搜索 查询 (选择 ) cn = 
Silberschatz。URL 中 的 问号 分 隔 开 不 同 的 域 。 第 一 个 域 是 可 区 别名 称 ， 这 里 是 o = Yale University 、 
c=USA。 第 二 个 域 是 待 返回 的 属性 列表 ， 这 里 为 空 ， 意 味 着 返回 所 有 属性 。 第 三 个 属性 (sub ) 指定 待 
搜索 的 整 棵 子 树 。 最 后 的 参数 是 搜索 条 件 。 

查询 LDAP 目录 的 第 二 种 方式 是 使 用 应 用 编程 接口 。 在 图 19-8 中 显示 了 用 于 连接 到 一 台 LDAP 服 
务 器 并 在 该 服务 器 上 运行 查询 的 一 段 C 代码 。 这 段 代 码 首先 通过 ldap_open 和 ldap_bind 来 打开 与 LDAP 
服务 器 的 连接 。 然 后 通过 ldap_search_s 来 执行 查询 。Idap_sereach_s 的 参数 包括 LDAP 连接 句柄 、 搜 索 
执行 的 基 的 DN、 搜 索 范围 、 搜 索 条 件 、 待 返回 的 属性 列表 和 一 个 称 为 attrsonly 的 属性 ， 该 属性 如 果 设 
置 为 1， 将 导致 只 返回 结果 的 模式 ， 而 没有 实际 元 组 。 最 后 的 参数 是 输出 参数 ， 它 将 查询 结果 作为 
LDAPMessage 结构 返回 。 

第 一 个 for 循环 反复 迭代 并 输出 结果 中 的 每 个 条 目 。 注 意 一 个 条 目 可 能 有 多 个 属性 ， 第 二 个 for 循 
环 输出 每 个 属性 。 由 于 LDAP 中 的 属性 可 以 是 多 值 的 ， 因 此 第 三 个 for 循环 输出 属性 的 每 个 值 。 调 用 

ldap_msgfree 和 ldap_value_free 来 释放 由 LDAP 库 分 配 的 内 存 空间 。 图 19-8 没有 显示 用 于 处 理 错误 条 
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件 的 代码 。 
LDAP API 也 包含 创建 、 更 新 和 删除 条 目的 函数 ， 同 时 包含 DIT 上 的 其 他 操作 。 每 个 函数 调用 的 行 
为 就 像 一 个 单独 的 事务 ; LDAP 不 支持 多 个 更 新 的 原子 性 。 





#include <stdio.h> 
#include <Idap.h> 
main() { 
LDAP “Id; 
LDAPMessage “res, “entry; 
char “dn, “attr, *attrList]] = {“telephoneNumber’, NULL}; 
BerElement “ptr; 
int vals, i; 
Id = Idap_open(“‘codex.cs.yale.edu”, LDAP_PORT); 
Idap_simple_bind(Id, “avi”, “avi-passwd”) ; 
Idap_search_s(Id, “o=Yale University, c=USA”, LDAP_SCOPE_SUBTREE, 
“cn=Silberschatz’”, attrList, /‘attrsonly*/ 0, &res); 
printf(“found %d entries”, Idap_count_entries(Id, res)); 
for (entry=Idap_first_entry(Id, res); entry != NULL; 
entry = Idap_next_entry(Id, entry)) 
{ 





dn = Idap_get_dni(ld, entry); 
printf(“dn: %s”, dn); 


Idap_memfree(dn); 
for (attr = Idap_first_attribute(Id, entry, &ptr); 
attr ! NULL; 
attr = Idap_next_attribute(Id, entry, ptr)) 
{ 
printf(“%s: *, attr); 
vals = Idap_get_values(Id, entry, attr); 
for (i=0; vals[i] != NULL; i++) 
printf(*%s, ”, vals[i]); 
Idap_value_free(vals); 
} 


Idap_msgfree(res); 
Idap_unbind(Id); 





} 





图 19-8 用 C 编写 的 LDAP 代码 示例 
19. 10. 2.3 分 布 式 目 录 树 


有 关 一 家 组 织 机 构 的 信息 可 以 分 成 多 个 DIT， 其 中 每 个 存储 关于 某 些 条 目的 信息 。DIT 的 后 缀 [874 | 


(suffix) Æ RDN = value 对 的 序列 ， 用 于 识别 DIT 存储 了 何 种 信息 ， 这 些 对 串 接 到 其 余 的 由 从 条 目 到 根 
的 遍历 所 产生 的 可 区 别名 称 上 。 例 如 ， 某 个 DIT 的 后 组 可 能 是 o = Lucent、c = USA ， 而 另 一 个 的 后 绥 
可 能 是 o=Lucent、c = India, DIT 可 以 按 组 织 机 构 和 地 理 位 置 来 分 开 。 

DIT 中 的 结 点 可 能 包含 对 另 一 个 DIT 中 另 一 个 结 点 的 引用 (referral); 例如 ,在 o=Lucent、c= 
USA 下 的 组 织 机 构 部 门 贝尔 实验 室 可 以 有 它 自己 的 DIT， 在 这 种 情况 下 ， 对 于 o =Lucent、c= USA 的 
DIT 将 有 一 个 结 点 ou = Bell Labs， 表 示 指 向 贝尔 实验 室 的 DIT 的 引用 。 

引用 是 有 助 于 把 分 布 的 目录 集合 组 织 成 一 个 集成 系统 的 关键 构件 。 当 服务 器 得 到 在 DIT 上 的 查询 
时 ， 它 可 以 返回 一 个 引用 给 客户 端 ， 然 后 客户 端 在 引用 的 DT 上 发 布 查 询 。 访 问 引 用 的 DIT 是 透明 的 ， 
用 户 无 须知 道 过 程 。 另 一 种 方式 是 ， 服 务 器 本 身 可 以 给 引用 的 DIT 发 布 查 询 并 与 本 地 计算 结果 一 起 返 
回 查询 结果 。 

LDAP 使 用 的 分 层 命名 机 制 有 助 于 突破 对 一 家 组 织 机 构 的 组 成 部 分 上 的 信息 的 控制 。 进 而 ， 引 用 
机 制 有 助 于 将 一 家 组 织 机 构 中 的 所 有 目录 集成 到 单个 虚拟 目录 中 。 

组 织 机 构 经 常 选择 通过 地 理 (例如 ， 一 家 组 织 机 构 可 能 为 具有 该 组 织 的 大 机 构 的 每 个 站 点 维护 一 
个 目录 ) 或 者 通过 组 织 结构 (例如 ， 每 家 组 织 单位 ， 比 如 部 门 ， 维 持 它 自 己 的 目录 ) 来 分 割 信息 ， 虽 然 
这 并 不 是 LDAP 的 要 求 。 

虽然 复制 不 是 当前 LDAP 版 本 3 标准 的 一 部 分 ， 但 很 多 LDAP 实现 支持 DIT 的 主 从 和 多 主 副 本 。 在 
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LDAP 中 对 复制 的 标准 化 工作 正在 进行 中 。 


19. 
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1 BS 


分 布 式 数据 库 系统 由 站 点 的 集合 构成 ， 每 个 站 点 维护 一 个 本 地 数据 库 系统 。 各 个 站 点 能 够 处 理 局 部 
BF, 这 些 事务 访问 的 数据 仅 位 于 该 单个 站 点 上 。 此 外 ， 站 点 可 以 参与 到 全 局 事务 的 执行 中 : 这 些 
全 局 事务 访问 多 个 站 点 上 的 数据 。 全 局 事务 的 执行 需要 在 站 点 之 间 进 行 通信 。 
分 布 式 数据 库 可 能 是 同 构 的 ， 其 中 所 有 站 点 拥有 共同 的 模式 和 数据 库 系 统 代 码 ， 或 者 是 异 构 的 ， 其 
中 模式 和 系统 代码 可 能 不 同 。 
关于 在 分 布 式 数据 库 中 存储 关系 涉及 几 个 问题 ， 包 括 复制 和 分 片 。 系 统 应 尽量 减 小 用 户 需要 了 解 关 
系 如 何 存储 的 程度 ， 这 是 非常 重要 的 。 
分 布 式 系 统 可 能 遭受 与 集中 式 系统 相同 类 型 的 故障 。 但 是 ， 分 布 式 环境 中 还 有 另 一 些 需 要 处 理 的 故 
障 ， 包 括 站 点 故障 、 链 路 故障 、 消 息 丢 失 以 及 网 络 划分 。 在 分 布 式 故障 恢复 模式 的 设计 中 需要 考虑 
每 个 这 样 的 问题 。 
为 了 保证 原子 性 ， 执 行事 务 7 了 的 所 有 站 点 必须 在 执行 的 最 终结 果 上 取得 一 致 。7 要 么 在 所 有 站 点 上 
提交 ， 要 么 在 所 有 站 点 上 中 止 。 为 了 保证 这 一 特性 ，7 的 事务 协调 器 必须 执行 一 种 提交 协议 。 使 用 
最 广泛 的 提交 协议 是 两 阶段 提交 协议 。 
两 阶段 提交 协议 可 能 导致 阻塞 ， 在 这 种 情况 下 ， 事 务 的 命运 必须 等 到 故障 站 点 (协调 器 ) 恢复 后 才能 
确定 。 为 了 减少 阻塞 的 可 能 性 ， 可 以 使 用 三 阶段 提交 协议 。 
持久 消息 为 分 布 式 事务 处 理 提供 了 一 种 可 选 模式 。 该 模式 将 单个 事务 拆 分 成 在 不 同 数据 库 执 行 的 多 
个 部 分 。 持 久 消息 (无 论 是 否 发 生 故 障 ， 都 保证 正好 只 传送 一 次 ) 被 传送 到 需要 采取 动作 的 远程 站 
点 。 虽 然 持 久 消息 避免 了 阻塞 问题 ， 但 是 应 用 程序 开发 者 必须 编写 代码 来 处 理 各 种 类 型 的 故障 。 
在 集中 式 系统 中 使 用 的 各 种 并 发 控制 方案 修改 后 可 用 于 分 布 式 环境 。 
就 封锁 协议 而 言 ， 须 做 的 唯一 改变 是 锁 管理 器 的 实现 方式 。 这 里 有 各 种 不 同 的 方式 。 可 以 采 
用 一 个 或 多 个 中 央 协 调 器 。 而 如 果 采 用 分 布 式 锁 管理 器 方式 ， 复 制 的 数据 就 必须 特殊 对 街 。 
O 处 理 已 复制 数据 的 协议 包括 主 副本 协议 、 多 数 协 议 、 有 偏 协议 和 法 定 人 数 同意 协议 。 它们 在 
开销 方面 和 在 发 生 故 障 时 工作 的 能 力 方面 各 有 不 同 的 取舍 权衡 。 
口 就 时 间 惟 和 有 效 性 验证 方案 而 言 ， 所 需 的 唯一 修改 是 开发 一 种 产生 全 局 唯一 性 时 间 惟 的 
机 制 。 
许多 数据 库 系 统 支持 延迟 复制 ， 其 中 更 新 被 传播 到 执行 更 新 的 事务 的 范围 之 外 的 副本 。 这 样 
的 工具 必须 小 心 使 用 ， 因 为 它们 可 能 导致 不 可 串 行 化 的 执行 。 
分 布 式 锁 管理 器 环境 中 的 死 锁 检 测 需 要 多 个 站 点 之 间 的 合作 ， 因 为 甚至 在 没有 局 部 死 锁 的 情况 
下 也 可 能 有 全 局 死 锁 。 
为 了 提供 高 可 用 性 ， 分 布 式 数据 库 必 须 检 测 故障 ， 重 构 系 统 以 使 计算 能 够 继续 进行 ， 并 在 处 理 
器 或 链 路 修复 之 后 能 够 恢复 。 由 于 要 在 网 络 划分 和 站 点 故障 之 间 进 行 区 分 是 很 困难 的 ， 因 此 这 
个 任务 就 变 得 非常 复杂 。 

通过 使 用 版 本 号 ， 可 以 对 多 数 协议 进行 扩展 使 其 在 即使 存在 故障 的 情况 下 仍 允 许 进行 事务 
处 理 。 虽 然 该 协议 代价 昂贵 ， 但 它 无 论 在 何 种 类 型 的 故障 下 都 能 工作 。 可 以 使 用 较 小 代价 的 协 
议 来 处 理 站 点 故障 ， 但 是 它们 假设 不 会 发 生 网 络 划分 。 
一 些 分 布 式 算法 需要 使 用 协调 器 。 为 了 提供 高 可 用 性 ， 系 统 必 须 维护 一 个 准备 好 在 协调 器 故障 
时 能 继续 其 职责 的 备份 副本 。 另 一 种 方法 是 在 协调 器 发 生 故 障 后 选 出 新 的 协调 器 。 确 定 哪个 站 
点 应 该 作为 协调 器 的 算法 称 为 选举 算法 。 
分 布 式 数据 库 上 的 查询 可 能 需要 访问 多 个 站 点 。 可 以 使 用 几 种 优化 技术 来 识别 需要 访问 的 最 佳 
站 点 集 。 查 询 可 以 依据 关系 的 分 片 来 自动 重 写 ， 然 后 可 以 在 每 个 分 片 的 副本 之 间 做 出 选择 。 可 
以 应 用 半 连 接 技术 减少 跨 不 同 站 点 的 关系 (或 相应 的 分 片 或 副本 ) 连 接 中 所 涉及 的 数据 传输 。 
异 构 分 布 式 数据 库 允许 站 点 有 它们 自己 的 模式 和 数据 库 系统 代码 。 多 数据 库 系 统 提 供 了 一 种 环 
境 ， 在 其 中 新 的 数据 库 应 用 可 以 访问 位 于 多 种 异 构 软 硬件 环境 的 各 个 先前 存在 数据 库 中 的 数 
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据 。 局 部 数据 库 系统 可 以 采用 不 同 的 逻辑 模型 以 及 数据 定义 和 数据 操纵 语言 ， 并 且 可 以 在 它们 
的 并 发 控制 和 事务 管理 机 制 上 存在 差别 。 多 数据 库 系统 虚拟 了 逻辑 上 的 数据 库 集成 ， 不 需要 物 


理 上 的 数据 库 集 成 。 
为 了 响应 超大 规模 Web 应 用 对 数据 存储 的 需求 ， 近 年 来 在 云 上 构建 了 大 量 数据 存储 系统 。 这 些 


数据 存储 系统 允许 扩展 到 地 理 上 分 布 的 数 千 个 结 点 上 ， 而 且 具 有 高 可 用 性 。 然 而 ， 它 们 并 不 支 
持 通常 的 ACID 特性 ， 而 且 在 划分 时 以 副本 一 致 性 为 代价 来 获得 可 用 性 。 当 前 的 数据 存储 系统 
还 不 支持 SQL， 而 且 只 提供 简单 的 put( )/get( ) 接口 。 即 使 对 于 传统 数据 库 云 计算 也 是 有 吸引 
力 的 ， 但 因为 缺乏 对 数据 存放 和 地 理 副 本 的 控制 ， 也 面临 一 些 挑战 。 
。 目录 系统 可 视 为 一 种 特殊 形式 的 数据 库 ， 其 中 信息 按照 一 种 分 层 的 方式 组 织 ， 类 似 于 文件 系统 
中 文件 的 组 织 方式 。 目 录 通 过 标准 化 目录 访问 协议 (例如 LDAP) 来 访问 。 目 录 可 以 分 布 到 多 个 [877 
站 点 上 来 提供 对 各 个 站 点 的 自治 。 目 录 可 以 包含 对 其 他 目录 的 引用 ， 这 有 助 于 建立 集成 视图 ， 
背 此 查询 被 发 送 给 单个 目录 ， 并 且 在 所 有 相关 目录 上 透明 地 执行 。 


术语 回顾 


© 同 构 分 布 式 数据 库 
。 异 构 分 布 式 数据 库 
。 数据 复制 
。 主 副本 
。 数据 分 片 
ACES} He 
D EHA 
。 数据 透明 性 
口 分 片 透明 性 
口 复制 透明 性 
口 位 置 透明 性 
。 名 字 服 务 器 
。 别 名 
。 分 布 式 事务 
O 局 部 事务 
全 局 事务 
事务 管理 器 
事务 协调 器 
系统 故障 模式 
网 络 划分 
提交 协议 
两 阶段 提交 协议 (2PC) 
D 就 绪 状态 
D 疑问 事务 
口 阻塞 问题 


实践 习题 
































三 阶段 提交 协议 (3PC ) 
持久 消息 

并 发 控制 
单 锁 管理 器 

分 布 式 锁 管理 器 
副本 协议 

口 主 副本 

口 多 数 协议 

有 偏 协 议 

口 法 定 人 数 同意 协议 
FAY fa] FER 

主 从 复制 

多 主 (任意 地 方 更 新 ) 复 制 
事务 一 致 性 快照 
延迟 传播 

死 锁 处 理 

口 局 部 等 待 图 

O 全 局 等 待 图 

口 假 环 

可 用 性 

健壮 性 

口 基于 多 数 的 方法 
口 读 一 个 、 写 所 有 
口 读 一 个 、 写 所 有 可 用 
口 站 点 重 构 
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协调 器 选择 

备份 协调 器 

选举 算法 

威逼 算法 

分 布 式 查询 处 理 

半 连 接 策略 

多 数据 库 系 统 

口 自治 

中 间 件 

口 局 部 事务 

口 全 局 事务 

O 确保 全 局 可 串 行 化 
口 标签 

云 计算 

云 数 据 存储 

表 块 

目录 系统 

LDAP: 轻 量 级 目录 访问 协议 
口 可 区 别名 称 (DN ) 
O 相对 可 区 别名 称 (RDN ) 
口 目录 信息 树 (DIT) 
分 布 式 目录 树 

O DIT 前 绥 

口 引用 

















19. 1 为 局 域 网 设计 的 分 布 式 数据 库 与 为 广域网 设计 的 分 布 式 数据 库 会 有 哪些 区 别 ? 
19.2 ”要 建立 一 个 高 可 用 性 的 分 布 式 系统 ， 你 必须 知道 会 发 生 什么 类 型 的 故障 。 
a. 列 出 分 布 式 系统 中 可 能 的 故障 类 型 。 


b. 在 你 的 a 小 题 列表 中 的 哪些 故障 也 可 能 出 现在 集中 式 系统 中 ? 
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19.3 


19. 4 


19.5 


19.6 
19.7 
19.8 


19.9 


19. 10 


19. 11 


19; 12 


考虑 在 事务 的 2PC 中 发 生 的 故障 。 对 你 在 实践 习题 19. 2a 中 列 出 的 每 种 可 能 的 故障 ， 解 释 尽 管 存 在 故 
障 ，2PC 怎样 保证 事务 的 原子 性 。 

考虑 一 个 有 两 个 站 点 4 和 B 的 分 布 式 系 统 。 站 点 4 能 区 别 出 下 列 情况 吗 ? 

。B iti. 

。 A 和 B 之 间 的 连接 断 开 。 

© B 极度 过 载 ， 并 且 响 应 时 间 比 正常 情况 下 长 100 倍 。 
你 的 答案 对 于 分 布 式 系统 中 的 恢复 有 何 启示 ? 
本 章 描述 的 持久 消息 模式 依赖 于 时 间 惟 ， 并 结合 了 丢弃 接收 到 的 过 于 陈旧 的 消息 。 给 出 一 个 基于 序列 
号 而 不 是 时 间 戳 的 替代 方案 。 
给 出 读 一 次 、 写 所 有 可 用 方法 导致 错误 状态 的 一 个 例子 。 
解释 在 分 布 式 系 统 中 的 数据 复制 和 维护 远程 备份 站 点 之 间 的 差异 。 
给 出 一 个 即使 更 新 时 得 到 了 主要 的 ( 主 ) 副 本 上 的 排他 锁 ， 延迟 复制 仍 能 够 导致 数据 库 状 态 不 一 致 的 
例子 。 
考虑 下 面 的 死 锁 检 测算 法 。 当 站 点 S 上 的 事务 T, 请 求 站 点 Ss 上 来 自 事务 7 的 资源 时 ， 发 送 带 时 间 
Bon KERKE. ACT, T, n) RAR 5, 的 局 部 等 待 图 中 。 仅 当 了 7 已 接收 到 请 求 消息 但 不 能 立即 
授予 所 请 求 的 资源 时 ， 才 把 边 (7T,，7T,, n) 插 入 到 5; 的 局 部 等 待 图 中 。 同 一 站 点 上 从 事务 7, 到 7 的 
请 求 按照 通常 的 方式 处 理 ; 边 (7,，7,) 上 不 与 时 间 惟 相关 联 。 中 央 协 调 器 通过 对 系统 中 的 每 个 站 点 发 
送 初 始 化 消息 来 调用 检测 算法 。 

一 旦 接收 到 这 样 的 消息 ， 站 点 就 发 送 它 自己 的 局 部 等 待 图 给 协调 器 。 注 意 此 图 包含 该 站 点 所 拥有 

的 关于 真实 图 状态 的 所 有 局 部 信息 。 等 待 图 反映 了 站 点 的 瞬间 状态 ， 但 是 它 没有 与 任何 其 他 站 点 同步 。 
当 控 制 者 从 每 个 站 点 都 接收 到 回答 后 ， 它 构造 如 下 的 图 : F 

。 对 于 系统 中 的 每 个 事务 ， 该 图 包含 一 个 顶点 。 

。 ZAAW(T,, 7) 当 且 仅 当 : 
在 某 个 等 待 图 中 有 边 (7,,，7,)。 
OT, T, n) JEE n) ENE-S ERR h A, 
证 明 ， 如 果 在 构造 的 图 中 有 环 ， 那 么 系统 处 于 死 锁 状态 ， 并 且 如 果 在 构造 的 图 中 没有 环 ， 那 么 
系统 在 该 算法 开始 执行 时 没有 处 于 死 锁 状 态 。 

考虑 按 plant_number 水 平分 片 的 关系 : 

employee (name, address, salary, plant_number ) 

假设 每 个 分 片 有 两 个 副本 : 一 个 存在 New York 站 点 ， 且 另 一 个 存在 本 地 的 工厂 站 点 。 为 下 述 
在 San Jose 站 点 提出 的 查询 设计 一 种 好 的 处 理 策略 。 

a. 找 出 Boca 厂 的 所 有 员工 。 

b. 找 出 所 有 员工 的 平均 工资 。 

ce 找 出 在 以 下 每 个 站 点 薪酬 最 高 的 员工 : Toronto, Edmonton, Vancouver, Montreal, 

d. 找 出 公司 中 薪酬 最 低 的 员工 。 

对 图 19-9 中 的 关系 计算 rKs。 
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图 19-9 ”实践 习题 19. 11 中 的 关系 
给 一 个 在 云 上 的 理想 化 的 应 用 程序 的 例子 ， 再 给 另 一 个 很 难 在 云 上 成 功 实现 的 例子 ， 解 释 你 的 
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19. 13 
19. 14 


19. 15 


19. 21 


19. 22 
19. 23 


19. 24 


19. 25 
19. 26 


19. 27 


19. 28 
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假设 LDAP 的 功能 可 以 在 数据 库 系 统 之 上 实现 ,那么 LDAP 标准 需要 什么 ? 

考虑 一 个 多 数据 库 系统 ， 它 保证 在 任何 时 候 最 多 只 有 一 个 全 局 事务 是 活跃 的 ， 并 且 每 个 本 地 站 
点 保证 局 部 可 串 行 化 。 

a. 给 出 多 数据 库 系 统 可 以 保证 在 任何 时 候 最 多 只 有 一 个 活跃 的 全 局 事务 的 方法 。 

b. 举例 说 明 尽 管 有 上 述 假设 ， 还 是 有 可 能 导致 不 可 串 行 化 的 全 局 调度 。 

考虑 一 个 多 数据 库 系统 ， 其 中 每 个 本 地 站 点 保证 局 部 可 串 行 化 ,并且 所 有 全 局 事务 都 是 只 
读 的 。 

a. 举例 说 明 在 这 样 的 系统 中 可 能 产生 不 可 串 行 化 的 执行 。 

b. 说 明 你 如 何 使 用 标签 机 制 来 保证 全 局 可 串 行 化 。 


讨论 集中 式 数据 库 和 分 布 式 数据 库 的 相对 优点 。 
解释 下 述说 法 有 何 区 别 : 分 片 透 明 性 、 复 制 透明 性 、 位 置 透明 性 。 
数据 复制 和 分 片 何 时 有 用 ? 解释 你 的 答案 。 
解释 透明 性 和 自治 的 概念 。 为 什么 从 人 的 因素 的 角度 来 看 这 些 概 念 是 需要 的 ? 
如 果 我 们 把 第 15 章 中 多 粒度 协议 的 分 布 式 版 本 应 用 于 分 布 式 数据 库 ， 负 责 DAG 根 结 点 的 站 点 
可 能 成 为 瓶颈 。 假 设 我 们 修改 协议 如 下 : 
。 根 结 点 上 只 允许 有 意向 模式 的 锁 。 
。 所 有 事务 被 自动 授予 根 结 点 上 所 有 可 能 的 意向 模式 锁 。 
说 明 这 些 修改 可 以 无 须 允 许 任 何 非 串 行 化 调度 来 减轻 这 个 问题 。 
研究 并 总 结 你 正 使 用 的 数据 库 系 统 为 处 理由 于 更 新 的 延迟 传播 而 导致 的 不 一 致 性 状态 而 提供 的 
TH. 
讨论 19. 5. 2 节 介 绍 的 用 来 产生 全 局 唯一 性 时 间 戳 的 两 种 方法 的 优 缺点 。 
考虑 关系 : 
employee( name, address, salary, plant_number) 
machine( machine_number, type, plant_number ) 
假设 employee 关系 按 plant_number 水 平分 片 ， 且 每 个 片 片 本 地 存储 在 它 所 对 应 的 工厂 站 点 。 假 
设 整个 machine 关系 存在 Armonk 站 点 。 为 以 下 每 个 查询 设计 一 种 好 的 处 理 策略 。 
a 找 出 包含 机 器 号 1130 的 工厂 的 所 有 员工 。 
b. 找 出 包含 机 器 类 型 为 “milling machine” 的 工厂 的 所 有 员工 。 
c 找 出 Almaden 工厂 的 所 有 机 器 。 
d. 找 出 employee machine, 
对 习题 19. 23 的 每 种 策略 ,说 明 你 选择 的 策略 如 何 依赖 于 下 列 因 素 : 
a. 查询 提出 的 站 点 。 
b. 需要 结果 的 站 点 。 
表达 式 r; Xr; 必然 等 于 7 Xr; 吗 ? 在 什么 条 件 下 7; Xr = 7 Kr? 
如 果 使 用 云 数 据 存储 服务 来 存储 两 个 关系 r+ 和 s， 而 且 我 们 需要 对 + Al 进行 连接 ， 为 什么 将 此 
连接 作为 物化 视图 来 维护 可 能 是 有 用 的 ? 在 你 的 答案 中 ,务必 区 分 出 “有 用 ”的 各 种 含义 : 整体 
吞吐 量 、 空 间 使 用 效率 ， 以 及 对 用 户 查 询 的 响应 时 间 。 
为 什么 云 计算 服务 通过 使 用 虚拟 机 的 方式 能 最 好 地 支持 传统 数据 库 系统 ， 而 不 是 通过 直接 在 服 
务 供应 商 的 实际 机 器 上 运行 的 方式 ? 
描述 如 何 使 用 LDAP 来 提供 对 数据 的 多 层 分 层 视图 ， 而 不 用 复制 基础 级 数据 。 


文献 注解 
教材 中 关于 分 布 式 数据 库 的 讨论 由 0zsu 和 Valduriez[ 1999 | 提供 。Breitbart 等 [ 1999b | 提供 了 对 分 
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布 式 数据 库 的 概述 。 

分 布 式 数据 库 中 事务 概念 的 实现 由 Gray[ 1981 ] 和 Traiger 等 [ 1982 ] 给 出 。2PC 协议 由 Lampson 和 
Sturgis[ 1976] 开 发 。 三 阶段 提交 协议 来 自 Skeen[ 1981], Mohan 和 Lindsay[ 1983 ] 讨论 了 2PC 的 两 种 修 
改版 ， 叫 做 假设 提交 和 假设 中 止 ， 它 们 通过 考虑 事务 命运 、 定 义 默 认 假设 来 减少 2PC 的 开销 。 

19. 6. 5 节 中 的 威 通 算 法 来 自 Garcia-Molina[ 1982 ] 。 分 布 式 时 钟 同步 在 Lamport[ 1978 ] 中 讨论 。 分布 
式 并 发 控制 由 Bernstein 和 Goodman[ 1981 | 介绍。 

R -的 事务 管理 器 在 Mohan 等 [1986] 中 描述 。 分 布 式 并 发 控制 模式 的 验证 技术 由 Schlageter[ 1981 | 
和 Bassiouni[ 1988 ] 描述。 

Gray 等 [1996 ] 在 数据 仓库 环境 中 再 讨论 了 复制 数据 的 并 发 更 新 间 题 。Anderson 等 [1998 ] 讨论 了 关 
于 延迟 复制 和 一 致 性 的 问题 。Breitbart 等 [1999a ] 描 述 了 用 于 处 理 复制 的 延迟 更 新 协议 。 

各 种 数据 库 系统 的 用 户 手册 提供 了 它们 如 何 处 理 复 制 和 一 致 性 的 详细 信息 。Huang 和 Garcia-Molina 
[2001 ] 阐述 了 复制 消息 系统 中 恰好 一 次 的 语义 。 

Knapp| 1987 | 综述 了 分 布 式 死 锁 检测 的 文献 。 实 践 习题 19. 9 KA Stuart 等 [1984 |, 

Epstein 等 [1978 ] 、Hevner 和 Yao[ 1979 ] 讨 论 了 分 布 式 查询 处 理 。Daniels 等 [1982 ] 讨 论 了 R' 采 用 
的 分 布 式 查询 处 理 方法 。 - 

Ozcan 等 [1997 ] 曾 述 了 多 数据 库 中 的 动态 查询 优化 。Adali 等 [1996 ] 和 Papakonstantinou 等 | 1996 | 
描述 了 中 间 件 系统 中 的 查询 优化 问题 。 

Mehrotra 等 [2001 ] 讨 论 了 多 数据 库 系统 中 的 事务 处 理 。Georgakopoulos 等 [ 1994 ] 介绍 了 标签 方案 。 
Mehrotra 等 [1991 | 介绍 了 2LSR。 

在 Ooi 和 S. Parthasarathy [ 2009 ] 中 有 一 组 关于 云 系统 上 数据 管理 的 论文 。Chang 等 [2008 ] 描述 了 
Google 的 Bigtable 的 实现 ， 而 Cooper 等 [2008 ] 描 述 了 雅虎 的 PNUTS 系统 。Brantner 等 [ 2008 | 介绍 了 使 
用 Amazon 的 S3 基于 云 的 存储 来 构建 数据 库 的 经 验 。Lomet 等 [2009 ] 介 绍 了 在 云 系统 中 使 事务 正确 工 
作 的 方法 。Brewer[2000] 推 测 了 CAP 定理 ， 并 由 Gilbert 和 Lynch[ 2002 ] 形 式 化 及 证 明 。 

Howes 等 [1999 ] 提供 了 涵盖 LDAP 的 教材 。 
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Part 6 


数据 仓库 、 数 据 控 据 与 信息 检索 





数据 库 查 询 通常 设计 为 提取 特定 信息 ， 例 如 账户 的 余额 或 者 客户 账户 余额 的 总 和 。 然 而 ， 
为 帮助 制定 公司 策略 而 设计 的 查询 通常 需要 访问 来 自 多 个 数据 源 的 大 量 数据 

数据 仓库 是 从 多 个 数据 源 中 进行 数据 采集 ， 并 以 一 种 共同 的 、 统 一 的 数据 库 模 式 进行 存 
储 的 数据 仓储 。 存 放 在 数据 仓库 中 的 数据 将 用 于 各 种 复杂 聚集 和 统计 分 析 。 常 常 为 数据 分 析 
而 开发 SQL 结构 ， 正 如 我 们 在 第 5 章 所 见 。 此 外 ， 知 识 发 现 技术 也 用 于 尝试 发 现 数 据 中 的 规 
则 和 模式 。 例 如 ， 零 售 商 可 能 发 现 特定 产品 往往 一 起 购买 ， 就 可 以 利用 这 样 的 信息 来 形成 营 
销 策 略 。 这 种 从 数据 中 发 现 知识 的 过 程 称 为 数据 挖掘。 第 20 章 将 益 述 数据 仓库 和 数据 挖 据 的 
问题 。 

在 到 目前 为 止 的 讨论 中 ， 我 们 集中 在 相对 简单 的 、 结 构 完 整 的 数据 上 。 然 而 ， 在 互联 网 
上 在 组 织 机 构 的 内 网 上 以 及 在 个 人 用 户 的 电脑 上 都 存在 大 量 非 结构 化 的 文本 数据 。 用 户 希 望 
从 这 些 庞 大 的 、 大 部 分 是 文本 的 信息 中 用 诸如 关键 字 查询 那样 的 简单 查询 机 制 来 发 现 相关 的 
信息 。 信 息 检索 领域 处 理 这 类 非 结 构 化 数据 的 查询 ， 并 特别 关注 查询 结果 的 排序 。 尽 管 该 领 [885 
域 的 研究 已 有 数 十 年 历史 ， 但 随 着 万 维 网 的 发 展 它 仍 在 飞速 成 长 。 第 21 章 给 出 了 对 信息 检索 |886 
领域 的 介绍 。 
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企业 已 开始 对 不 断 增 长 的 数据 进行 联机 发 掘 ， 以 对 其 商业 贸易 活动 做 出 更 好 的 决策 ， 比 如 采购 
何 种 货物 以 及 如 何 最 好 地 定位 客户 群 以 增加 销售 额 。 挖 掘 这 些 数据 有 两 个 方面 的 问题 。 第 一 个 方面 
是 把 来 自 各 个 数据 源 的 数据 汇集 到 一 个 中 心 仓库 中 ， 这 个 中 心 仓 库 叫 做 数据 仓库 。 与 数据 仓库 相关 
的 问题 包括 处 理 脏 数 据 ( 即 带 有 某 些 错误 的 数据 ) 的 技术 ， 以 及 对 大 量 数据 的 高 效 存 储 和 索引 的 技术 。 

第 二 个 方面 是 分 析 收 集 到 的 数据 来 发 现 可 以 成 为 商务 决策 基础 的 信息 或 者 知识 。 某 些 类 型 的 数 
据 分 析 可 以 通过 使 用 针对 联机 分 析 处 理 (OLAP) 的 SQL 结构 (我 们 已 在 5.6 节 ( 第 5 章 ) 中 见 到 过 ) 来 
实现 ， 还 可 以 通过 使 用 OLAP 的 工具 和 图 形 界面 来 实现 。 另 一 种 从 数据 中 获得 知识 的 方法 是 使 用 数 
4646 4k (data mining) ， 其 目标 是 在 大 量 数 据 中 检测 出 各 类 类 型 的 模式 。 数 据 挖掘 是 对 具有 类 似 目 标 
的 各 种 类 型 的 统计 技术 的 补充 。 


20. 1 决策 支持 系统 


数据 库 应 用 可 广义 地 划分 为 事务 处 理 和 决策 支持 系统 。 事 务 处 理 系统 是 用 来 记录 有 关 事务 的 信 
息 的 系统 ， 比 如 公司 的 产品 销售 信息 ， 或 者 大 学 的 课程 注册 和 成 绩 信 息 。 事 务 处 理 系统 现今 已 得 到 
广泛 应 用 ,组 织 机 构 已 经 积累 了 由 这 类 系统 产生 的 大 量 信息 。 决 策 支 持 系统 的 目标 是 从 事务 处 理 系 
统 存储 的 细节 信息 中 提取 出 高 层次 的 信息 ， 并 利用 这 些 高 层次 信息 来 做 出 各 种 决策 。 决 策 支 持 系统 
帮助 经 理 决 定 商店 该 采购 什么 产品 ， 工 厂 该 生产 什么 产品 ， 或 者 大 学 该 录取 哪些 申请 者 。 

887 例如 ， 公 司 数据 库 常常 包含 大 量 关 于 客户 和 交易 的 信息 。 所 需 的 信息 存储 规模 可 能 高 达 数 百 
GB， 对 于 大 型 零售 连锁 店 甚至 达到 TB 级 。 零 售 商 的 交易 信息 可 能 包括 顾客 姓名 或 标识 ( 比如 信用 卡 
号 ) 、 购 买 的 商品 、 支 付 的 价钱 以 及 购买 日 期 。 所 购 商 品 信息 可 能 包括 商品 名 称 、 生 产 商 、 型 号 、 颜 
色 和 大 小 。 顾 客 信息 可 能 包括 信贷 历史 、 年 薪 、 住 址 、 年 龄 ， 甚 至 教育 背景 。 

这 种 大 型 数据 库 可 以 作为 制定 商业 务 决策 的 信息 宝库 ， 壁 如 要 采购 什么 商品 或 者 提供 多 少 折 
扣 。 例 如 ， 一 家 零售 公司 可 能 发 现在 太平 洋 西北 部 突然 盛行 购买 法 兰 绒 衬 衫 ， 意 识 到 了 这 是 可 能 
的 趋势 ， 就 可 能 开始 在 该 地 区 的 商店 储备 大 量 的 这 种 衬衫 。 作 为 另 一 个 例子 ， 一 家 汽车 公司 在 查 
询 其 数据 库 时 可 能 发 现 ， 其 大 多 数 跑 车 是 由 年 薪 超 过 50 000 美元 的 年 轻 妇 女 购 买 的 。 该 公司 可 能 
调整 其 市 场 定 位 ， 以 吸引 更 多 这 类 妇女 来 购买 它 的 小 型 跑车 ， 并 且 可 以 避免 把 经 费 浪 费 在 试图 吸 
引 其 他 人 群 来 购买 这 种 汽车 上 。 在 这 两 个 例子 中 ,公司 识别 出 了 客户 行为 的 模式 并 利用 该 模式 来 
制定 商业 务 决策 。 
用 于 决策 支持 的 数据 存储 和 检索 带 来 了 几 个 问题 : 
。 尽管 许多 决策 支持 查询 可 以 用 SQL 书写 ， 但 另 一 些 要 么 无 法 用 SQL 表示 ， 要 么 无 法 简单 地 用 
SQL 来 表示 。 为 此 已 经 提出 了 几 种 SQL 扩展 以 便 更 易于 进行 数据 分 析 。5.6 节 介 绍 了 用 于 数据 
分 析 和 联机 分 析 处 理 ( OLAP) 技 术 的 SQL 扩展 。 
© 数据 库 查 询 语言 并 不 适合 对 数据 执行 详细 的 统计 分 析 ( statistical analyse) 。 有 几 种 软件 包 ， 例 如 
SAS 和 S++ ， 有 助 于 统计 分 析 。 这 些 软件 包 与 数据 库 通过 界面 连接 ， 人 允许 将 大 量 数据 存储 到 数 
据 库 中 并 且 可 以 高 效 地 检索 以 用 于 分 析 。 统 计 分 析 领 域 本 身 是 一 个 大 的 学 科 ， 更 多 信息 可 参见 
文献 注解 中 的 参考 文献 。 
。 大 型 公司 拥有 形式 多 样 的 数据 源 用 于 制定 商务 决策 。 这 些 数据 源 可 能 按 不 同 模式 存储 数据 。 基 
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于 性 能 因素 (也 基于 管理 控制 因素 ) ， 数 据 源 通常 不 允许 公司 其 他 部 门 检 索 所 需 数据 。 
为 了 能 够 在 这 些 不 同 的 数据 上 高 效 执行 查询 ， 一 些 公司 已 创建 了 数据 仓库 。 数 据 仓库 位 于 
一 个 单独 的 节点 上 ， 使 用 统一 的 模式 从 多 个 数据 源 收集 数据 。 因 此 ， 它 们 给 用 户 提 供 一 个 单独 
的 、 统 一 的 数据 接口 。20. 2 节 研 究 创建 和 维护 数据 仓库 的 问题 。 
© 知识 发 现 技术 试图 从 数据 中 自动 发 现 统计 规则 和 模式 。 数 据 挖 握 领 域 将 人 工 智能 研究 者 和 统计 
分 析 家 发 明 的 知识 发 现 技术 结合 起 来 ， 同 时 采用 高 效 的 实现 技术 使 它们 能 够 用 于 超大 型 数据 
库 。20. 3 节 将 讨论 数据 挖掘 。 
决策 支持 ( decision support ) 领域 在 广义 上 可 以 看 作 和 覆盖 了 了 上述 所 有 领域 ， 尽管 有 些 人 狭义 地 使 用 这 
个 术语 ， 排 除了 统计 分 析 和 数据 挖掘 。 


20.2 数据 仓库 


大 公司 在 许多 地 方 都 有 分 支 ， 每 个 分 支 都 可 能 产生 大 量 数据 。 例 如 ， 大 型 零售 连锁 店 拥有 成 百 上 
千家 商店 ， 而 保险 公司 可 能 拥有 来 自 上 千 个 各 地 分 支 机 构 的 数据 。 而 且 ， 大 型 组 织 机 构 有 复杂 的 内 部 
组 织 结构 ， 因 此 不 同 的 数据 可 能 位 于 不 同 的 地 点 ， 或 者 在 不 同 的 操作 系统 中 ， 或 者 具有 不 同 的 模式 。 
例如 ， 生 产 问题 数据 和 顾客 意见 数据 可 能 存储 在 不 同 的 数据 库 系 统 中 。 组 织 机 构 经 常 从 外 部 数据 源 购 
买 数 据 ( 比如 用 于 产品 推广 的 邮件 列表 ,或 由 信用 机 构 提 供 的 消费 者 的 信用 评分 )， 用 于 决定 用 户 的 
fiw, © 

企业 决策 者 需要 访问 来 自 多 个 这 种 数据 源 的 信息 。 在 各 个 数据 源 上 建立 查询 既 麻烦 又 低 效 。 而 且 ， 
数据 源 可 能 只 存储 当前 数据 ， 而 决策 者 可 能 还 需要 访问 历史 数据 ; 例如 ， 有 关 在 去 年 里 购买 模式 是 如 
何 改变 的 信息 可 能 非常 重要 。 数 据 仓库 对 这 些 问题 提供 了 一 种 解决 方案 。 

数据 仓库 ( data warehouse) 是 一 个 将 从 多 个 数据 源 中 收集 来 的 信息 以 统一 模式 存储 在 单个 站 点 上 的 
仓储 (或 归档 ) 。 一 旦 收集 完毕 ， 数 据 会 存储 很 长 时 间 ， 人 允许 访问 历史 数据 。 因 此 ， 数 据 仓 库 给 用 户 提 
供 了 一 个 单独 的 、 统 一 的 数据 接口 ， 易 于 决策 支持 查询 的 书写 。 而 且 ， 通 过 从 数据 仓库 里 访问 用 于 文 
持 决策 的 信息 ， 决 策 者 可 以 保证 在 线 的 事务 处 理 系 统 不 受 决策 支持 负载 的 影响 。 


20. 2.1 数据 仓库 成 分 


888 


图 20-1 显示 了 一 个 典型 的 数据 仓库 的 架构 ， 并 阐明 了 数据 收集 、 数 据 存储 以 及 查询 和 对 数据 分 析 [889 | 


的 支持 。 下 面 是 创建 数据 仓库 时 需要 说 明 的 一 些 问 题 : 


| 
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数据 产 n eal 


图 20-1 数据 仓库 架构 


© 何 时 和 如 何 收集 数据 。 在 收集 数据 的 源 驱动 架构 ( source-driven architecture) 中 ， 数 据 源 连续 地 
(发 生 事务 处 理 时 ) 或 周期 性 地 (例如 ， 每 个 晚上 ) 传输 新 的 信息 。 在 目标 驱动 架构 ( destination- 





加 ”信用 机 构 是 一 种 公司 ， 它 从 多 个 数据 源 收 集 消费 者 信息 ， 并 为 每 个 消费 者 计算 信誉 程度 。 
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driven architecture) 中 ， 数 据 仓 库 周期 地 给 数据 源 发 送 需 要 新 数据 的 请 求 。 

除非 数据 源 更 新 通过 两 阶段 提交 的 方式 在 数据 仓库 中 复制 ， 否 则 数据 仓库 不 会 与 数据 源 保 
持 同步 更 新 。 两 阶段 提交 代价 十 分 昂贵 ,通常 不 作为 一 个 种 可 选 方案 ， 所 以 数据 仓库 通常 会 有 
稍微 过 期 的 数据 。 然 而 这 对 于 决策 支持 系统 通常 不 是 问题 。 

。 使 用 何 种 模式 。 单 独 构造 的 各 个 数据 源 很 可 能 具有 不 同 模式 。 事 实 上 ， 它 们 甚至 可 能 使 用 不 同 
的 数据 模型 。 数 据 仓库 的 部 分 任务 就 是 进行 模式 整合 ， 并 将 数据 转化 成 整合 后 的 模式 后 再 进行 
存储 。 其 结果 是 ， 存 储 在 数据 仓库 中 的 数据 可 看 作 是 数据 源 数据 的 一 个 物化 视图 ， 而 不 单单 是 
数据 源 数据 的 一 个 拷贝 。 

。 数据 转换 和 清理 。 对 数据 的 纠正 和 预 处 理 任务 称 作 数据 清理 (data cleansing) 。 数 据 源 经 常 传送 

量具 有 略微 不 一 致 性 的 数据 ， 这 种 不 一 致 性 是 可 以 纠正 的 。 例 如 ， 姓 名 经 常 拼 错 ， 地 址 中 可 
能 有 街道 、 地 区 或 者 城市 名 称 的 拼写 错误 ， 或 者 邮编 输入 错误 。 这 些 可 以 通过 参考 有 关 每 个 城 
市 的 街道 名 和 邮编 的 数据 库 来 进行 合理 纠正 。 这 种 任务 所 需要 的 数据 大 致 匹配 称 为 模糊 查找 
(fuzzy lookup) 。 

从 多 个 数据 源 收集 的 地 址 列表 可 能 具有 重复 ， 需 要 在 合并 — 清除 操作 (merge-purge operation) 
中 消除 这 些 重复 (这 种 操作 也 称 作 去 重 ( deduplication) ) 。 一 所 住宅 中 多 个 人 的 记录 可 以 组 合 为 一 
组 ， 这 样 每 所 住宅 只 须 投 递 一 封 邮件 ， 此 操作 称 作 住宅 操作 (householding) 。 

数据 除了 要 清理 ， 可 能 还 需要 采用 多 种 方式 进行 转换 (transform ) ， 例 如 改变 度量 单位 ， 或 
者 通过 将 来 自 多 个 源 关系 的 数据 进行 连接 从 而 将 数据 转换 为 一 种 不 同 的 模式 。 数 据 仓库 一 般 有 
图 形 工具 来 支持 数据 转换 。 这 些 工具 允许 将 转换 表示 为 框 ， 通 过 在 框 之 间 连 上 边 来 表示 数据 的 
流动 。 条 件 框 能 把 数据 引 至 转换 过 程 中 合适 的 下 一 步 。 图 30-7 给 出 了 一 个 例子 ， 它 使 用 微软 
SQL Server 提供 的 图 形 工具 来 指定 转换 。 

。 如 何 传播 更 新 。 数 据 源 中 关系 的 更 新 必须 传播 到 数据 仓库 。 如 果 数 据 仓库 中 的 关系 与 数据 源 中 

的 完全 一 样 ， 那 么 传播 就 直截了当 了 。 如 果 不 一 致 ， 更 新 传播 问题 基本 上 就 是 视图 维护 问题 ， 

此 问题 已 在 13. 5 节 讨 论 过 了 。 

汇总 何 种 数据 。 事 务 处 理 系统 产生 的 原始 数据 可 能 量 非常 大 ， 无 法 在 线 存储 。 然 而 ， 通 过 只 维 

护 由 关系 上 的 聚集 得 到 的 汇总 数据 ， 而 不 是 维护 整个 关系 ， 我 们 就 可 以 回答 许多 查询 。 例 如 ， 

我 们 可 以 存储 按 商品 名 和 类 别 汇 总 的 服装 销售 总 额 ， 而 不 是 存储 服装 销售 的 所 有 数据 。 

假设 关系 r 由 汇总 关系 : 取代 。 仍 然 可 以 允许 用 户 提出 查询 请 求 ， 就 像 关系 > 是 可 以 在 线 得 到 的 一 

样 。 如 果 查 询 只 需要 汇总 数据 ， 则 有 可 能 利用 * 将 其 转化 为 一 种 等 价 的 形式 ， 见 13.5 节 。 

将 数据 存 人 数据 仓库 所 涉及 的 不 同步 又 称 为 抽取 (extract) 、 转 换 (transform ) 和 加 载 (load ) ， 或 者 称 

为 ETL 任务 ; 抽取 指 的 是 从 源 收 集 数 据 ， 而 加 载 指 的 是 把 数据 装 和 数据 仓库 中 。 


20.2.2 数据 仓库 模式 

典型 的 数据 仓库 具有 为 数据 分 析 而 设计 的 模式 ， 使 用 诸如 OLAP 的 工具 。 因 此 ， 数 据 通常 是 多 维 
数据 ， 具 有 维 属 性 和 度量 属性 。 包 含 多 维 数据 的 表 称 作 事 实 表 (fact table) ， 它 通常 很 大 。 一 个 记录 零 
售 商店 销售 信息 的 表 就 是 事实 表 的 一 个 典型 例子 ， 其 中 每 个 元 组 对 应 一 个 售 出 商品 。sales 表 的 维 可 以 
包括 何 种 商品 (通常 是 商品 标识 ， 比 如 条 形 码 中 使 用 的 标识 ) 、 商 品 售 出 日 期 、 商 品 售 出 地 点 (商店 )、 
哪个 顾客 购买 该 商品 等 。 度 量 属性 可 能 包括 售 出 商品 数量 及 商品 价格 ， 

为 了 最 小 化 存储 需求 ， 维 属性 通常 是 一 些 短 的 标识 ， 作 为 参照 其 他 称 作 维 表 ( dimension table) 的 表 
的 外 码 。 例 如 ， 事 实 表 sales 可 能 有 属性 item_id, store_id, customer_id 和 date， 以 及 度量 属性 number 和 
price。 属 性 store_id 是 参照 维 表 store 的 外 码 ， 表 store 含有 其 他 属性 ， 比 如 商店 位 置 (城市 、 州 、 国 家 ) 。 


sales 表 的 item_id 属性 是 参照 维 表 item_info 的 外 码 ， 表 item_info 还 含有 一 些 信息 ， 比 如 商品 名 称 、 商 品 
所 属 类 别 以 及 其 他 的 商品 细节 信息 ， 如 颜色 和 尺寸 。 属 性 customer_id 是 参照 customer 表 的 外 码 ， 表 


customer 含有 诸如 顾客 姓名 和 地 址 那样 的 属性 。 我 们 还 可 以 将 date 属性 看 作 参 照 date_info 表 的 外 键 ， 
表 date_info 给 出 了 每 个 日 期 的 月 、 季 和 年 的 信息 。 
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20-2 给 出 了 结果 模式 。 这 种 具有 一 个 事实 表 、 多 个 维 表 以 及 从 事实 表 到 维 表 的 外 码 的 模式 称 为 
星 型 模式 ( star schema ) 。 更 复杂 的 数据 仓库 设计 可 能 含有 多 级 维 表 ; 例如 ，item _info 表 可 能 有 
manufacturer_id 属性 ， 它 是 参照 给 出 厂商 细节 信息 的 另 一 个 表 的 外 码 。 这 种 模式 称 作 雪 花 模 式 
(snowflake schema) 。 复 杂 数 据 仓库 设计 也 可 能 有 不 止 一 个 事实 表 。 
20.2.3 面向 列 的 存储 

传统 数据 库 把 元 组 的 所 有 属性 存储 在 一 起 ， 再 把 元 组 存放 在 文件 中 。 这 种 存储 方式 称 为 面向 行 的 
存储 (row-oriented storage) 。 相 反 ， 在 面向 列 的 存储 (column-oriented storage) 中 ， 关 系 的 每 个 属性 存储 在 
单独 的 文件 中 , 来 自 相 邻 元 组 的 值 存 放 在 文件 中 连续 的 位 置 上 。 假 设 数 据 类 型 的 大 小 固定 ， 一 个 关系 
的 第 i 个 元 组 在 属性 4 上 的 取 值 可 以 通过 访问 与 属性 4 对 应 的 文件 并 读 取 偏 移 量 为 (i -1) 倍 属性 4 的 
值 大 小 (以 字 节 为 单位 ) 处 的 值 而 得 到 。 

面向 列 的 存储 和 面向 行 的 存储 对 比 ， 至 少 有 两 个 主要 优势 : 

L 当 查询 只 需要 访问 一 个 包含 大 量 属性 的 关系 中 的 几 个 属性 时 ， 其 余 属 性 并 不 需要 从 磁盘 提取 到 
内 存 中 。 相 反 ， 在 面向 行 的 存储 中 ， 如 果 一 些 属 性 和 查询 所 用 的 属性 相 邻 存储 ， 那 么 不 仅 要 把 这 些 不 
相干 的 属性 提取 到 内 存 中 ， 而 且 它 们 还 可 能 被 预 取 到 处 理 器 高 速 缓 存 中 ,浪费 了 缓存 空间 和 内 存 的 
带宽 。 

2. 把 相同 类 型 的 值 存储 在 一 起 提高 了 压缩 效率 ; 压缩 不 仅 可 以 大 大 降低 磁盘 存储 的 成 本 ， 而 且 减 
少 了 从 磁盘 检索 数据 的 时 间 。 

另 一 方面 ， 面 向 列 的 存储 的 缺点 是 存储 或 读 取 单 个 元 组 需要 多 次 VO 操作 。 

根据 上 述 折 中 的 结果 ， 面 向 列 的 存储 没有 广泛 用 于 事务 处 理应 用 。 然 而 ， 面 向 列 的 存储 在 数据 仓 
库 应 用 中 获得 了 越 来 越 多 的 认可 ， 因 为 数据 仓库 应 用 很 少 访问 单个 元 组 ， 而 是 需要 扫描 和 聚合 多 个 
元 组 。 

Sybase 1Q 是 早期 使 用 面向 列 存储 的 产品 之 一 ， 但 现在 有 几 个 研究 项 目 和 公司 已 经 开发 了 基于 面向 
列 存储 系统 的 数据 库 。 这 些 系统 已 证 明 能 够 显著 增加 许多 数据 仓库 应 用 的 性 能 。 关 于 如 何 实现 面向 列 
的 存储 以 及 在 这 种 存储 方式 上 如 何 优化 和 处 理 查询 ， 请 参考 文献 注解 中 的 文献 。 


20.3 数据 挖掘 


术语 数据 挖 扎 ( data mining) 泛 指 半自动 地 分 析 大 型 数据 库 以 发 现 有 用 模式 的 处 理 过 程 。 类 似 于 人 
工 智 能 里 的 知识 发 现 (也 叫 机 器 学 习 ) 或 统计 分 析 ， 数 据 挖掘 试图 从 数据 中 发 现 规则 和 模式 。 然 而 ， 数 
据 挖掘 与 机 器 学 习 和 统计 的 不 同 在 于 ， 它 处 理 主要 存储 在 磁盘 上 的 大 量 数据 。 也 就 是 说 ， 数 据 挖掘 处 
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理 “ 数 据 库 中 的 知识 发 现 ”。 

从 数据 库 中 发 现 的 某 些 类 型 的 知识 可 以 用 一 个 规则 (mle) 集 来 表示 。 下 面 是 一 个 非 正 式 地 描述 的 
规则 的 例子 :“ 年 收入 超过 50 000 美元 的 年 轻 妇 女 是 最 有 可 能 购买 小 型 跑车 的 人 。" 当然 ， 这 样 的 规则 
并 不 总 是 正确 的 ， 就 像 我 们 将 要 看 到 的 那样 ， 它 具有 “支持 度 " 和 “置信 度 "。 其 他 类 型 的 知识 可 用 将 不 

BOS] 同 变量 相互 联系 起 来 的 等 式 来 表达 ， 或 者 利用 其 他 一 些 在 已 知 某 些 变量 值 的 条 件 下 预测 结果 的 机 制 来 
表达 。 

可 能 有 用 的 模式 的 可 能 类 型 是 多 样 的 ， 找 到 不 同类 型 的 模式 可 采用 不 同 的 技术 。 我 们 将 研究 一 些 
模式 的 例子 ， 看 看 从 一 个 数据 库 中 如 何 自动 导出 它们 。 

数据 挖 据 通常 具有 人 工 的 成 分 ， 包 括 预 处 理 数据 使 之 成 为 算法 可 接受 的 形式 ， 以 及 将 发 现 的 模式 
进行 后 期 处 理 ， 以 找 出 其 中 有 用 的 异常 模式 。 从 给 定数 据 库 中 发 现 的 模式 可 能 不 止 一 种 类 型 ， 可 能 需 
要 人 工交 互 以 选 出 有 用 的 模式 类 型 。 由 于 这 个 原因 ， 数 据 挖 气 在 现实 生活 中 确实 是 一 种 半自动 的 处 理 
过 程 。 然 而 ， 在 描述 中 ， 我们 重点 集中 在 挖 气 的 自动 化 方面 。 

所 发 现 的 知识 有 大 量 应 用 。 最 广泛 的 应 用 是 那些 需要 某 种 形式 的 预测 ( prediction) 的 应 用 。 例 如 ， 
当 一 个 人 申请 信用 卡 时 ， 信 用 卡 公司 要 预测 这 个 人 是 否 有 好 的 信用 风险 。 预 测 基于 这 个 人 的 已 知 属性 ， 
比如 年 龄 、 收 入 、 债 务 以 及 过 去 的 债务 偿还 历史 。 做 出 预测 的 规则 来 源 于 过 去 和 现在 的 信用 卡 持 有 人 
的 相同 属性 以 及 他 们 所 查 到 的 行为 ， 比 如 他 们 是 否 未 履行 信用 卡 付款 责任 。 其 他 类 型 的 预测 包括 : H 
测 哪些 客户 可 能 转 到 竞争 者 那里 去 (可 以 给 这 些 客户 提供 特别 的 折扣 吸引 他 们 不 离开 ) ， 预 测 哪些 人 有 
可 能 对 推销 邮件 (“垃圾 邮件 ”) 做 出 反应 ， 或 者 预测 使 用 哪 种 方式 的 电话 卡 可 能 是 欺诈 。 

另 一 类 应 用 是 寻找 关联 (association) ， 比 如 可 能 会 一 起 购买 的 书籍 。 如 果 某 位 顾客 购买 了 一 本 书 ， 
在 线 书店 可 以 建议 购买 其 他 的 相关 书籍 。 如 果 某 人 购买 了 一 架 照 相机 ， 系 统 可 以 建议 可 能 需要 同 照相 
机 一 起 购买 的 附件 。 好 的 销售 人 员 知 道 这 样 的 模式 并 利用 它们 来 进行 额外 的 销售 。 挑 战 在 于 这 个 过 程 
的 自动 化 。 其 他 类 型 的 关联 可 能 导致 发 现 因果 关系 。 例 如 ， 发 现 某 种 新 引进 的 药 与 心脏 病 之 间 的 意外 
联系 导致 发 现 这 种 药 可 能 会 在 某 些 人 群 中 引发 心脏 病 。 然 后 将 这 种 药 从 市 场 上 撤 出 。 

关联 是 描述 性 模式 ( descriptive pattem) 的 一 个 例子 。 聚 类 (cluster) 是 这 种 模式 的 另 一 个 例子 。 例 
如 ， 一 百 多 年 前 在 一 口水 井 周围 发 现 了 一 连 串 的 伤寒 病症 ， 这 使 人 们 发 现 水 并 中 的 水 受到 了 污染 并 正 
在 传播 伤寒 病菌 。 疾 病 聚 类 检测 甚至 在 现在 也 一 直 保持 其 重要 性 。 
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894 如 20.3 节 所 提 到 的 ， 预测 是 数据 挖掘 中 最 重要 的 类 型 之 一 。 我 们 介绍 分 类 ， 学 习 用 于 创建 一 种 称 
作 决 策 树 分 类 器 的 技术 ， 然 后 研究 其 他 一 些 预 测 技术 。 

抽象 地 说 ， 分 类 ( classification) 问题 是 这 样 的 : 给 出 属于 某 几 个 类 之 一 的 项 ， 并 给 出 项 的 过 去 实例 
(叫做 训练 实例 (training instance) ) 以 及 它们 所 属 的 类 ， 问 题 是 预测 一 个 新 项 所 属 的 类 。 因 为 新 实例 的 
类 是 未 知 的 ， 所 以 必须 使 用 该 实例 的 其 他 属性 来 预测 它 所 属 的 类 。 

通过 寻找 能 够 把 给 定数 据 分 成 互 不 相交 的 组 的 规则 ， 可 以 实现 分 类 。 例 如 ， 假 设 信用 卡 公司 要 决 
定 是 否 给 一 个 申请 者 发 放 信用 卡 。 该 公司 有 关于 这 个 人 的 各 种 信息 ， 如 她 的 年 龄 、 教 育 背景 、 年 收入 
和 当前 债务 情况 ， 这 些 信息 可 用 来 做 出 决策 。 

这 些 信息 中 有 些 与 申请 者 的 信誉 程度 有 关 ， 而 有 些 可 能 无 关 。 为 了 做 出 决策 ， 公 司 根据 每 个 客户 
的 付款 历史 给 当前 客户 样本 集中 的 每 个 客户 指定 一 个 优 、 良 、 中 或 差 的 信誉 等 级 。 然 后 ， 公 司 尝试 找 
出 规则 ， 根 据 有 关 个 人 的 信息 而 不 是 根据 实际 的 付款 历史 ( 对 于 新 客户 无 法 得 到 这 类 信息 )， 将 它 的 当 
前 客户 分 成 优 、 良 、 中 或 差 。 让 我 们 只 考虑 两 个 属性 : 教育 水 平 ( 拥 有 的 最 高 学 历 ) 和 收入 。 规 则 可 能 
是 下 面 的 形式 : 


Y person P, P. degree = masters and P. income > 75, 000 
= P.credit = excellent 
Y person P, P. degree = bachelors or 
(P. income > 25, 000 and P. income < 75, 000) =  P. credit = good 


对 于 其 他 信誉 等 级 (中 和 差 ) 也 可 用 类 似 的 规则 来 表示 。 
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创建 分 类 器 的 过 程 开 始 于 数据 样本 ， 称 作 训练 集 (training set) 。 对 训练 集中 的 每 个 元 组 ， 其 所 属 的 
类 是 已 知 的 。 例 如 ， 信 用 卡 应 用 的 训练 集 可 以 是 已 有 的 客户 ， 他 们 的 信誉 程度 已 根据 其 付款 历史 得 到 。 - 
实际 的 数据 或 人 群 可 能 由 所 有 人 组 成 ， 包 括 那些 不 存在 的 客户 。 我 们 将 看 到 ， 创 建 一 个 分 类 器 有 多 种 
的 方式 。 
20. 4.1 决策 树 分 类 器 

决策 树 分 类 器 是 一 种 广泛 使 用 的 分 类 技术 。 顾 名 思 义 ， 决 策 树 分 类 器 (decision tree classifier ) 使 用 
一 棵 树 : 每 个 叶 结 点 有 一 个 相关 联 的 类 ， 每 个 内 部 结 点 有 一 个 与 其 关联 的 谓词 (或 者 更 一 般 地 说 是 一 个 
函数 ) 。 图 20-3 显示 了 决策 树 的 一 个 例子 。 
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图 20-3 分 类 树 


为 了 对 一 个 新 实例 进行 分 类 ， 我 们 从 根 开 始 遍历 这 棵 树 直至 到 达 叶 结 点 : 在 内 部 结 点 上 使 用 该 实 
例 数据 计算 谓词 (或 函数 ) ， 从 而 找 出 应 该 走 到 哪个 子 结 点 。 这 个 过 程 一 直 持 续 到 我 们 到 达 叶 结 点 为 
止 。 例 如 ， 如 果 一 个 人 的 学 历 水 平 是 硕士 上 且 其 收入 是 40K， 我们 从 根 开 始 沿 着 标记 为 “masters ”的 边 走 ，[895 | 
通过 标记 为 "25K ~75K” 的 边 到 达 叶 结 点 。 该 叶 结 点 的 类 是 “good”， 因 此 我 们 预测 这 个 人 的 信用 风险 等 
级 是 良 。 

20.4.1.1 构造 决策 树 分 类 器 

接 下 来 的 问题 是 在 给 定 训练 实例 集 后 如 何 构造 决策 树 分 类 器 。 构 造 决策 树 分 类 器 最 通用 的 方法 是 
使 用 贪心 (greedy) 算 法 ， 它 从 根 开 始 递归 地 向 下 构造 树 。 初 始 时 只 有 一 个 结 点 及 根 结 点 ， 所 有 训练 实 
例 都 与 该 结 点 关联 。 

在 每 个 结 点 上 ， 如 果 所 有 或 者 “几乎 所 有 ”与 该 结 点 关联 的 训练 实例 属于 同一 个 类 ， 则 该 结 点 成 为 
与 该 类 相关 联 的 叶 结 点 ; 和 否则， 必须 选择 一 个 划分 属性 (partitioning attribute ) 和 划分 条 件 (partitioning 
condition ) 用 来 产生 子 结 点 。 与 每 个 子 结 点 相关 联 的 数据 是 满足 该 子 结 点 划分 条 件 的 训练 实例 的 集合 。 
在 例子 中 ， 选 择 了 degree 属性 ， 构 造 了 4 个 子 结 点 ， 每 个 子 结 点 代表 一 个 学 历 值 。4 个 子 结 点 的 条 件 分 
别 是 degree = none, degree = bachelors, degree = masters Fil degree = doctorate。 与 每 个 子 结 点 关联 的 数 
据 由 满足 与 该 子 结 点 相关 联 的 条 件 的 训练 实例 构成 。 在 对 应 于 硕士 (master) 的 那个 结 点 上 ， 选 择 了 属 
性 icome， 其 值 的 范围 被 分 成 0 ~25SK、25K ~50K、50K ~75K 和 75K 以 上 这 些 区 间 。 与 每 个 结 点 关联 
的 数据 由 这 样 的 训练 实例 构成 : 它们 在 degree 属性 上 取 值 为 硕士 且 在 income 属性 上 取 值 分 别 属于 这 些 
范围 之 一 。 由 于 在 degree = masters 结 点 下 ， 范围 25K ~ 50K 和 范围 50K ~ 75K 对 应 的 类 相同 ， 作 为 优 [896 
化 ， 可 以 将 两 个 范围 合并 成 单个 范围 25K ~75K。 

20.4.1.2 最 优 划 分 

直观 地 ， 通 过 选择 一 个 划分 属性 序列 ,我 们 从 “不 纯 的 "所 有 训练 实例 的 集合 开始 ， 到 得 到 “ 纯 的 ” 
叶 结 点 为 止 。 在 此 ,“ 不 纯 的 ” 意 指 它 包含 来 自 许 多 类 的 实例 ,“ 纯 的 " 意 指 在 每 个 叶 结 点 上 所 有 训练 实 
例 只 属于 一 个 类 。 稍 后 我 们 将 看 到 如 何 定量 地 度量 纯度 。 为 了 判断 在 一 个 结 点 上 选择 特定 属性 和 条 件 
来 划分 数据 的 优势 ， 我 们 测量 利用 该 属性 进行 划分 所 得 到 的 子 结 点 上 数据 的 纯度 ， 选 出 能 得 到 最 大 纯 
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度 的 属性 和 条 件 。 
有 几 种 方法 可 以 定量 地 测定 一 个 训练 实例 集 5 的 纯度 。 假 设 有 个 类 ，5 的 实例 中 属于 类 i 的 实例 
所 占 比 例 为 p,。 有 一 种 称 作 吉 尼 度量 ( Cini measure) 的 纯度 的 测定 方法 ， 定 义 为 : 


Gini(S) =1- È p; 
i=l 


当 所 有 实例 属于 单个 类 时 ，Gini 值 为 0， 在 每 个 类 有 相同 实例 数目 的 情况 下 它 达 到 其 最 大 值 (1 - 17k). 
另 一 种 纯度 测定 方法 是 灶 度 量 (entropy measure) ， 其 定义 为 : 


Entropy(S) = - > pilog,p, 


i=l 


当 所 有 实例 属于 单个 类 时 ，Entropy (829 0, EFRA AALS URC E HRF ERIEK. WE 
量 来 源 于 信息 论 。 


如 果 一 个 集合 $ 划分 成 多 个 集合 S, i= 1，2,，…, 7, 我们 可 以 按 下 述 方法 测定 该 集合 的 结果 集 
的 纯度 : 
Purity(S,, S,, =, S,) = > S purity 3) 


即 ， 纯 度 为 所 有 集合 S AEA INCE EBART LA Sy AE By a J Es — i 
这 样 ， 根 据 将 $ 划分 成 5S;,，i. 1，2,，…,r 的 特定 划分 所 得 到 的 信息 增益 (information gain) 4: 
Information_gain(S, {S,, $,, =- , S,}) = purity(S) -purity(S,, $,, * ,5S,) 

划分 成 少数 几 个 集合 比划 分 成 许多 集合 更 可 取 ， 因 为 前 者 能 产生 更 简单 、 更 有 意义 的 决策 树 。 每 
个 集合 S: 中 的 元 素数 量 也 可 能 要 考虑 ; 和 否则， 虽然 划分 对 于 几乎 所 有 的 元 素 都 是 一 样 的 ， 但 集合 S, 能 
BA 0 个 元 素 或 1 个 元 素 将 在 所 分 集合 的 数量 上 产生 很 大 差异 。 一 个 特定 划分 的 信息 内 容 (information 
content) FY FA MAI CE OW : 
Information_content (S,{S,,S,,°° ,S$,|) = - 2 Shog, ml 
综 上 可 得 出 一 个 定义 : 对 某 个 属性 的 最 优 划分 (best split) 是 能 够 给 出 最 大 信息 增益 率 ( information 
gain ratio) 的 划分 ， 定 义 为 : 





Information_gain(S, |S, ,S,,---,S,} ) 





Information_content(S, |S, ,S,,°::,S,| ) 

20.4.1.3 寻找 最 优 划 分 

我 们 如 何 找到 某 个 属性 的 最 优 划 分 ? 如 何 划 分 一 个 依赖 于 该 属性 类 型 的 属性 。 属 性 既 可 以 是 连续 
取 值 的 ( continuous valued) ， 即 这 些 值 可 以 按照 对 分 类 有 意义 的 方式 排序 ， 比 如 说 年 龄 或 收入 ; 也 可 以 
是 类 别 的 (categorical) ， 即 它们 没有 有 意义 的 顺序 ， 比 如 部 门 名 称 或 者 国家 名 称 。 我 们 不 能 指望 对 部 门 
名 或 国名 的 排序 能 对 分 类 产生 任何 意义 。 

通常 数字 (整数 /实数 ) 属 性 被 看 作 是 连续 取 值 的 而 字符 串 属性 被 当 作 类 别 的 ， 但 这 也 可 能 由 系统 
用 户 来 控制 。 在 例子 中 ， 我 们 将 属性 degree 当 作 类 别 的 ， 并 将 属性 income 当 作 连续 取 值 的 。 

我 们 首先 考虑 如 何 找 到 连续 取 值 属性 的 最 优 划 分 。 为 简单 起 见 ， 我们 将 只 考虑 连续 取 值 属性 的 二 
次 分 划 (binary split) ， 即 划分 的 结果 是 得 到 两 个 子 结 点 。 多 路 分 划 ( multiway split) 的 情况 更 为 复杂 ， 有 
关 这 个 主题 请 参见 文献 注解 中 的 文献 。 

为 了 找到 连续 取 值 属性 的 最 优 二 次 分 划 ， 我们 首先 将 训练 实例 中 的 属性 值 排序 ， 然 后 计算 每 个 值 
上 所 作 划 分 的 信息 收益 。 例 如 ， 如 果 训 练 实例 在 某 个 属性 上 的 取 值 为 1、10、15 和 25， 所 考虑 的 切 分 
点 就 是 1、10 和 15。 在 每 种 情况 下 ， 小 于 或 等 于 该 切 分 点 的 值 组 成 一 个 划分 ， 其 余 值 构成 男 一 个 划分 。 
该 属性 上 的 最 优 二 次 分 划 是 能 得 到 最 大 信息 增益 的 划分 。 

对 于 类 别 属 性 ， 我 们 可 以 采用 多 路 分 划 ， 每 个 属性 值 对 应 一 个 子 结 点 。 如 果 类 别 属 性 只 有 少数 几 
个 可 区 分 的 值 ， 比 如 学 历 或 性 别 ， 这 种 划分 的 效果 会 很 好 。 但 是 ， 如 果 属 性 有 许多 可 区 分 的 值 ， 比 如 
大 公司 中 的 部 门 名 称 ， 为 每 个 值 创 建 一 个 子 结 点 并 不 是 一 个 好 主意 。 在 这 种 情况 下 ， 我 们 将 试图 将 多 
个 值 合 并 为 一 个 子 结 点 ， 以 产生 更 少数 量 的 子 结 点 。 关 于 如 何 实现 请 参阅 文献 注解 中 的 文献 。 
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20.4.1.4 决策 树 构造 算法 

构造 决策 树 的 主要 思路 是 计算 不 同属 性 和 不 同 划 分 条 件 ， 选 择 出 能 够 产生 最 大 信息 增益 率 的 属性 
和 划分 条 件 。 同 样 的 过 程 递归 作用 在 每 个 划分 结果 集 上 ， 从 而 递归 地 构造 出 一 棵 决策 树 。 如 果 数 据 可 
很 好 地 分 类 ， 则 递归 过 程 在 集合 纯度 为 0 时 结束 。 然 而 ， 数 据 通常 含有 噪声 ， 或 者 某 个 集合 可 能 非常 
小 以 至 于 将 它 进一步 划分 可 能 从 统计 角度 看 来 并 不 恰当 。 在 这 种 情况 下 ， 递 归 过 程 在 集合 纯度 “足够 
高 "时 终止 ， 所 产生 叶 结 点 的 类 定义 为 该 集合 的 大 多 数 元 素 所 属 的 类 。 通 常 ， 树 的 不 同 分 枝 可 能 生长 到 
不 同 的 层 数 。 

图 20-4 给 出 了 一 个 递归 构造 决策 树 过 程 的 伪 码 ， 它 将 训练 实例 集 $ 作为 参数 。 当 集合 有 足够 的 纯 
E, RERA $ 非常 小 以 至 于 对 其 做 进一步 划分 已 经 没有 统计 意义 时 ， 递 归 过 程 终 止 。 参 数 6, MS, 定 
义 了 纯度 和 集合 大 小 的 截止 值 ， 系 统 可 以 给 出 它们 的 默认 值 ， 但 用 户 给 的 值 可 以 覆盖 系统 默认 值 。 





procedure GrowTree( $) 
Partition(S) ; 


procedure Partition( S) 
if (purity(S) > 6, or|S|<6,) then 


return; 
对 于 每 个 属性 4 
计算 基于 属性 4 的 划分 ; 
使 用 找到 的 最 好 划分 (根据 所 有 属性 得 到 ) 把 5S 划分 成 S,，S;，… ，S,; 
fori = 1; 2; 市 
Partition ( S, ) ; 











20-4 决策 树 的 递归 构造 


决策 树 的 构造 算法 多 种 多 样 ， 我 们 只 概述 了 其 中 几 个 的 显著 特征 ， 有 关 细 节 见 文献 注解 。 对 非常 
大 型 的 数据 集 ， 因 为 划分 需要 进行 重复 拷贝 ， 所 以 代价 可 能 会 很 昂贵 。 因 此 开发 了 几 种 算法 用 于 在 训 
练 数据 比 可 用 内 存 更 大 的 情况 下 来 最 小 化 VO 和 计算 代价 。 

一 些 算 法 还 对 所 生成 决策 树 的 子 树 进行 修剪 以 减 小 过 度 适 应 ( overfitting) : 如 果 一 棵 子 树 高 度 适应 
于 特定 的 训练 数据 以 至 于 对 其 他 数据 产生 许多 分 类 错误 ， 则 称 它 是 过 度 适应 的 。 子 树 的 修剪 通过 把 它 
替换 成 叶 结 点 来 实现 。 有 不 同 的 启发 式 修剪 方法 : 一 种 启发 式 方法 使 用 部 分 训练 数据 来 构造 树 ， 另 一 
部 分 训练 数据 用 于 树 的 测试 。 当 它 发 现 如 果 一 棵 子 树 用 叶 结 点 代替 会 减少 测试 实例 上 的 分 类 错误 时 ， 
则 会 修剪 那 棵 子 树 。 [899 | 

如 果 需 要 的 话 ， 我 们 可 以 从 一 棵 决策 树 产 生 分 类 规则 。 我 们 对 每 个 叶 结 点 产生 如 下 规则 : 左边 是 
通 往 某 个 叶 结 点 的 路 径 上 所 有 划分 条 件 的 合 取 ， 所 属 的 类 是 在 该 叶 结 点 上 大 多 数 训练 实例 所 属 的 类 
一 个 这 样 的 分 类 规则 的 例子 是 : 


degree = masters and income > 75000 = excellent 


20.4.2 ”其 他 类 型 的 分 类 器 

除 决策 树 分 类 器 以 外 还 有 几 种 其 他 类 型 的 分 类 器 。 三 种 非常 有 用 的 分 类 器 分 别 是 神经 网 络 分 类 器 
(neural-net classifier) 、 贝 叶 斯 分 类 器 ( Bayesian classifier ) 和 支持 向 量 机 (Support Vector Machine ) 分 类 器 。 
神经 网 络 分 类 器 使 用 训练 数据 训练 人 工 神 经 网 络 。 关 于 神经 网 络 有 大 量 的 文献 ， 我 们 在 此 不 对 它 做 深 
人 考虑 。 

贝 叶 斯 分 类 器 ( Bayesian classifier) 在 训练 数据 中 寻找 每 个 类 的 属性 值 分 布 ; 当 给 定 一 个 新 实例 d 
时 ， 对 于 每 个 类 c， 使 用 分 布 信息 估计 实例 d 属于 类 c 的 概率 ， 记 为 p(c | d) ， 所 用 的 方式 下 面 将 简 
要 介绍 。 具 有 最 大 概率 的 类 成 为 实例 d 预测 所 属 的 类 。 

为 了 找到 实例 d 属于 类 c 的 概率 p(c |d)， 贝 叶 斯 分 类 器 使 用 如 下 所 示 的 贝 叶 斯 定理 
( Bayes’ theorem) : 
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ple, | = are) wp 

其 中 p(d | o) BARA c 的 前 提 下 产生 实例 d ARR, pl) EX c 出 现 的 概率 ，p(d) 是 实例 d 出 现 
的 概率 。 其 中 ， 由 于 p(d) 对 所 有 类 来 说 都 是 一 样 的 ， 因 此 可 忽略 。Pp(c ) 可 简化 为 属于 类 c 的 训练 实 
例 所 占 的 比例 。 

例如 ， 让 我 们 考虑 只 有 一 个 属性 income 用 于 分 类 的 特殊 情况 ， 并 假设 我 们 需要 分 类 的 这 个 人 的 年 
收入 是 76 000 美元 。 我 们 假设 可 以 把 收入 值 划分 到 几 个 桶 中 ， 并 假定 包含 76 000 的 桶 所 包含 收入 值 的 
范围 是 (75 000, 80 000) 美元。 假设 在 优 类 的 实例 中 ， 收 入 在 (75 000, 80 000) 美元 的 概率 为 0.1， 而 
在 良 类 实例 中 ， 收 入 在 (75 000, 80 000) 美元 的 概率 为 0.05。 再 假设 共有 0.1 比例 的 人 分 类 为 优 ， 有 
0.3 比例 的 人 分 类 为 良 。 那 么 ， 对 于 优 类 的 p(d | c)p(c) 的 值 是 0.01， 而 对 于 良 类 ， 它 的 值 是 0. 015. 
因此 这 个 人 就 会 划分 到 良 类 中 。 

一 般 情 况 下 ， 分 类 需要 考虑 多 个 属性 。 因 而 ， 要 找到 p(d |c) 的 精确 值 是 很 困难 的 ， 因 为 它 需要 
从 用 于 分 类 的 属性 值 的 所 有 组 合 中 找到 实例 c 的 分 布 。 这 种 组 合 ( 比如 包含 学 位 值 和 其 他 属性 的 收入 
桶 ) 的 个 数 可 能 非常 大 。 利 用 有 限 的 训练 集 来 找 这 种 分 布 ， 对 于 大 多 数组 合 来 说 ， 甚 至 没有 一 个 训练 集 
与 它们 匹配 ， 从 而 导致 不 正确 的 分 类 决策 。 为 了 避免 这 个 问题 ， 并 简化 分 类 任务 ， 朴 素 贝 叶 斯 分 类 器 
(naive Bayesian classifier) 假设 属性 是 独立 分 布 的 ， 从 而 估计 : 

pld | 6) = p(d, |c) * pld, |c) * …*pd|c) 

也 就 是 说 ， 给 定 所 属 类 c, KA d 出 现 的 概率 是 d 的 每 个 属性 值 d 出 现 概率 的 乘积 

对 每 个 类 c ， 概 率 p(d | 6c) 根据 每 个 属性 i 的 值 的 分 布 导出 。 该 分 布 通过 属于 每 个 类 6 的 训练 实 
例 来 计算 ; 分 布 通常 用 直方 图 来 估计 。 例 如 ， 我 们 可 以 将 属性 i 的 值 域 分 成 相等 的 间 隔 ， 并 存储 落 在 
每 个 间隔 内 的 类 c 的 实例 所 占 的 比例 。 给 定 属性 i 的 值 d,, pid; | c) 的 值 就 简化 为 落 在 d, 所 属 间隔 中 
且 属 于 类 c 的 实例 所 占 的 比例 。 

贝 叶 斯 分 类 器 的 一 个 显著 优势 是 ， 它 可 以 对 具有 未 知 或 空 属 性 值 的 实例 分 类 ， 在 概率 计算 中 正好 
忽略 了 未 知 或 空 属性 值 。 比 较 而 言 ， 决 策 树 分 类 器 无 法 处 理 这 样 的 情况 : 某 个 实例 在 用 于 更 进一步 向 
下 遍历 决策 树 的 划分 属性 上 取 空 值 。 

支持 向 量 机 (Support Vector Machine，SVM) 是 一 类 在 大 范围 应 用 中 给 出 非常 精确 的 分 类 的 分 类 器 。 
这 里 介绍 有 关 支 持 向 量 机 分 类 器 的 一 些 基 本 的 、 直 观 的 知识 。 更 深入 的 信息 请 参阅 文献 注解 中 的 文献 。 

支持 向 量 机 分 类 器 最 好 以 几何 方式 来 解释 。 在 最 简单 的 情况 下 ， 考 虑 在 一 个 二 维 平面 上 的 点 集 ， 
有 些 点 属于 类 4， 有 些 点 属于 类 中， 我 们 给 定 一 些 分 类 类 别 (4 或 者 B) 已 知 的 点 作为 训练 集 ， 我们 需要 
用 这 些 训练 点 构建 一 个 点 分 类 器 。 这 种 情况 如 图 20-5 所 示 ， 其 中 属于 类 4 的 点 用 x 标 记 ， 而 属于 类 B 
的 点 用 〇 标记。 

假设 我 们 可 以 在 平面 上 画 一 条 直线 ， 使 得 属于 类 A 的 
所 有 点 都 位 于 一 边 ， 且 属于 类 B 的 所 有 点 都 位 于 另 一 边 。 
那么 ， 这 条 直线 就 可 以 用 于 给 新 的 点 进行 分 类 ， 这 些 新 的 
点 的 分 类 我 们 事先 并 不 知道 。 但 可 能 会 存在 很 多 这 样 的 线 ， 
它们 能 够 把 类 4 中 的 点 和 类 B 中 的 点 区 分 开 来 。 图 20-5 给 
出 了 几 条 这 样 的 线 。 支 持 向 量 机 分 类 器 选择 这 样 的 线 ， 它 
到 每 个 类 (来 自 训 练 数据 集中 的 点 ) 中 最 近 点 的 距离 都 最 
大 。 然 后 用 这 条 线 ( 称 作 最 高 限界 线 ( maximum margin 
line) ) 把 其 他 点 分 到 类 A R BPE, 这 取决 于 这 些 点 位 于 
这 条 线 的 哪 一 边 。 在 图 20-5 中 ， 最 高 限界 线 用 粗 体 标 出 ， 
而 其 他 线 用 虚线 画 出 。 

上 述 知识 可 以 泛 化 到 多 于 二 维 的 场景 ， 允 许多 个 属性 图 20-5 ”支持 向 量 机 分 类 器 示例 
用 于 分 类 ; 在 这 种 情况 下 ， 分 类 器 会 找 一 个 划分 平面 ， 而 不 是 一 条 线 。 然 后 ， 首 先 使 用 一 种 称 作 核 函 
数 (kernel function ) 的 特定 函数 对 输入 点 进行 转换 ， 支 持 向 量 机 分 类 器 就 可 以 找到 对 点 集 进 行 划 分 的 非 
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线性 曲线 。 这 在 不 能 用 线 或 平面 来 分 离 点 的 情况 下 是 很 重要 的 。 由 于 噪声 的 存在 ， 一 个 类 中 的 某 些 点 
可 能 位 于 其 他 类 的 点 的 中 间 。 在 这 种 情况 下 ， 可 能 不 存在 任何 线 或 者 有 意义 的 曲线 来 分 离 这 两 个 类 中 
的 点 ; 然后 ， 会 选择 把 这 些 点 最 准确 地 分 到 两 个 类 中 的 线 或 曲线 。 

虽然 支持 向 量 机 的 基本 表示 是 用 于 二 分 类 器 ， 即 ， 只 对 两 个 类 进行 分 类 ， 但 是 它们 也 可 以 用 于 对 
多 个 类 进行 分 类 ， 如 下 所 示 : 如 果 存 在 个 类 ,我 们 建立 个 分 类 器 ， 分 类 器 ;执行 二 分 类 ， 它 把 一 
个 点 要 么 分 到 i 类 ， 要么 分 到 不 属于 i 类 。 给 定 一 个 点 ， 每 个 分 类 器 i 还 输出 一 个 值 ， 表 示 给 定点 和 类 
i 的 关联 程度 。 然 后 我 们 在 给 定点 上 应 用 所 有 NN 个 分 类 器 ， 并 选择 出 关联 度 值 最 高 的 类 。 

20.4.3 回归 

回归 (regression) 处 理 的 是 值 的 预测 ， 而 不 是 类 的 预测 。 给 定 一 个 变量 集 的 值 X，X,，… ，X,， 我 
们 希望 预测 变量 y 的 值 。 例 如 ， 我 们 可 以 将 教育 程度 当 作 一 个 数值 ， 收 入 当 作 另 一 个 数值 ， 并 在 这 两 
个 变量 的 基础 上 ， 我 们 希望 预测 不 履约 的 可 能 性 ， 它 可 能 是 不 履约 发 生机 会 的 百分比 ， 或 是 涉及 不 履 
约 的 数量 。 

一 种 方法 是 推断 系数 ce ，a, ，a;，… ，a,， 使 得 

y =+ a, *X, + a, *X,4+ - + a, *X, 
找 出 这 样 的 线性 多 项 式 称 作 线 性 回归 (linear regression) 。 一 般 来 说 ， 我 们 期 望 找到 一 条 适合 数据 的 曲线 
(用 多 项 式 或 其 他 形式 定义 ) ， 所 以 该 过 程 又 称 作曲 线 拟 合 ( curve fitting) 。 

由 于 数据 中 的 噪声 或 由 于 该 关系 不 完全 是 多 项 式 的 ， 这 种 拟 合 可 能 只 是 一 种 近似 ， 因 此 回归 和 旨 在 
找到 能 给 出 最 大 可 能 拟 合 的 系数 。 在 统计 学 里 有 求解 回归 系数 的 标准 技术 。 我 们 在 此 不 讨论 那些 技术 ， 
但 是 在 文献 注解 中 提供 有 关 参 考 文献 。 

20. 4.4 分 类 器 验证 

验证 分 类 器 是 很 重要 的 ， 也 就 是 说 ， 在 决定 把 分 类 器 用 于 某 个 应 用 之 前 ， 先 测试 它 的 分 类 错误 率 。 
考虑 一 个 分 类 问题 的 例子 : 分 类 器 需要 根据 某 些 输入 (这 里 准确 的 输入 是 不 重要 的 ) 来 预测 一 个 人 是 否 
患 有 一 种 特殊 疾病 X。 正 预测 表示 这 个 人 和 患 有 该 疾病 ， 而 负 预 测 表示 这 个 人 不 患 有 该 疾病 。( 术语 正 / 
负 预 测 可 用 于 任何 二 分 类 问题 ， 而 不 只 是 疾病 分 类 ,) 

测试 用 例 集 的 已 知 结果 (在 例子 中 ， 是 已 知 某 人 是 否 真 的 患 有 该 疾病 的 病例 ) 用 来 衡量 分 类 器 的 质 
量 (也 就 是 错误 率 ) 。 预 测 为 正 并 且 该 人 的 确 患 有 该 病 的 情况 叫 真 命 中 (tmue positive) ， 而 预测 为 正 但 该 
人 没有 患 此 病 的 情况 叫 假 命 中 (false positive) 。 类 似 地 可 以 定义 预测 为 负 的 情况 下 的 真 舍弃 (true 
negative) AR A (false negative) 。 

给 定 一 个 测试 用 例 集 ， 设 t_pos, f_pos, t_neg Fil f_neg 分 别 表示 所 产生 的 真 命中 、 假 命中 、 真 舍弃 
和 假 舍 弃 的 数量 。 设 pos 和 neg 表示 真 值 和 假 值 的 实际 数量 (显然 有 pos = t_pos +f_pos Fil neg = t_neg + f_ 
neg 成 立 ) o 

分 类 质量 可 以 通过 多 种 不 同方 式 来 度量 : 

1. 正确 性 (accuracy) ， 定 义 为 (t_pos + t_neg)/(pos +neg)， 也 就 是 分 类 器 给 出 正确 分 类 的 次 数 所 占 
比例 。 

2. 召回 率 (recall) (也 称 为 灵敏 度 ( sensitivity) ) 定 义 为 1_pos/pos， 也 就 是 分 为 正 值 的 情况 有 和 多少 实 
际 上 是 真 的 。 

3. 准确 率 ( precision) ， 定 义 为 1_pos/(t_pos +f_pos)， 即 有 多 少 预 测 为 正 的 情况 是 正确 的 。 

4. 特异 性 (specificity) ， 定 义 为 i_neg/neg。 

在 特定 应 用 中 应 该 采用 何 种 度量 方式 取决 于 该 应 用 的 需求 。 例 如 ， 高 召回 率 对 于 筛选 试验 很 重要 ， 
筛选 试验 后 接 更 精确 的 测试 ， 以 致 不 会 漏 掉 患 有 疾病 的 患者 。 相 反 ， 一 个 研究 者 希望 找到 几 个 患 有 疾 
病 的 实际 病人 以 作 进一步 的 跟踪 ， 但 不 对 找 出 所 有 病人 感 兴趣 ， 就 可 能 更 看 重 准确 率 而 不 是 召回 率 . 
不 同 分 类 器 可 能 适用 于 每 个 这 样 的 应 用 。 习 题 20. 5 将 对 此 类 问题 进行 进一步 探讨 。 

一 个 结果 已 知 的 测试 用 例 集 ， 既 可 用 于 分 类 器 训练 ， 也 可 用 于 分 类 器 质量 的 度量 。 把 同样 的 测试 
用 例 集 既 用 作 训 练 又 用 作 分 类 器 质量 度量 并 不 好 ， 因 为 在 训练 过 程 中 ， 分 类 器 已 经 知道 测试 用 例 的 正 
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确 分 类 ， 这 可 能 会 导致 人 为 度量 出 的 高 质量 。 因 此 一 个 分 类 器 的 质量 度量 必须 建立 在 它 训 练 过 程 中 没 
有 遇见 过 的 测试 用 例 上 。 

因此 ， 把 可 用 的 测试 用 例 的 一 个 子 集 用 于 训练 ， 把 不 相交 的 另 一 个 子 集 用 作 验 证 。 在 交叉 验证 
(cross validation) 中 ， 可 用 的 测试 用 例 分 成 个 部 分 ,编号 为 1 ~k， 据 此 按照 如 下 方式 创建 个 不 同 的 
测试 集 : 在 使 用 其 他 -1 部 分 来 训练 分 类 器 之 后 ,测试 集 i 使 用 第 i 部 分 作为 验证 。 在 计算 质量 度量 
之 前 ， 把 来 自 所 有 个 测试 集 的 结果 (1_pos、f-pos 等 ) 加 起 来 。 交 又 验证 比 仅 仅 把 数据 划分 为 单个 训练 
集 和 单个 测试 集 的 方式 提供 了 更 准确 的 度量 。 


20.5 关联 规则 


零售 商店 经 常会 对 人 们 购买 的 不 同 商品 之 间 的 关联 (association ) 感 兴趣 。 有 关 这 种 关联 的 例子 是 : 
。 买 面包 的 人 很 有 可 能 也 买 牛 奶 。 
© 购买 《数据库 系统 概念 》( Database System Concepts ) 这 本 书 的 人 很 有 可 能 也 买 《操作 系统 概念 》 
( Operating System Concepts) 这 本 书 。 
关联 信息 可 以 有 多 种 使 用 方式 。 当 一 个 顾客 购买 了 某 本 书 ， 在 线 书 店 可 以 建议 相关 的 书籍 。 杂 货 
店 可 以 决定 将 面包 放 在 靠近 牛奶 的 地 方 ， 便 于 购物 者 更 快 地 完成 其 购物 任务 ， 因 为 它们 通常 是 一 起 购 
买 的 。 或 者 商店 可 以 将 它们 放 在 货架 一 行 的 两 头 ， 并 将 其 他 相关 商品 放 在 中 间 以 吸引 购物 者 在 从 这 一 
行商 品 的 一 端 走 到 另 一 端 时 也 购买 这 些 商 品 。 商 店 对 一 种 商品 打折 ， 可 能 不 会 对 另 一 种 与 之 关联 的 商 
品 打 折 ， 因 为 顾客 不 管 怎样 都 很 可 能 购买 这 种 商品 。 
关联 规则 的 一 个 例子 是 : 
bread = milk 
在 杂货 店 交易 的 上 下 文中 ， 该 规则 说 明 购 买 面包 的 顾客 也 倾向 于 购买 牛奶 的 概率 很 高 。 一 条 关联 
规则 一 定 有 一 个 相关 的 个 体 总 数 (population) : 该 个 体 总 数 由 一 个 实例 (instance) 集 构成 。 在 杂货 店 的 
例子 中 ,个体 总 数 可 能 包含 所 有 的 杂货 店 购买 行为 ， 每 次 购买 行为 为 一 个 实例 。 在 书店 的 例子 中 ， 个 
体 总 数 可 能 包含 所 有 购 过 书 的 人 ,不 管 他 们 是 何 时 购 的 。 每 个 顾客 就 是 一 个 实例 。 在 书店 的 例子 中 ， 
分 析 人 员 决 定 什么 时 候 购书 是 不 重要 的 ; 然而 对 于 杂货 店 的 例子 来 说 ,分 析 人 员 可 以 决定 关注 单 次 购 
买 行为 ， 忽 略 同一 个 顾客 多 次 光顾 的 情况 。 
规则 有 相关 的 支持 度 和 相关 的 置信 和 度 。 它 们 是 在 个 体 总 数 的 上 下 文中 定义 的 : 
© 支持 度 (support) 度 量 的 是 同时 满足 规则 前 提 和 结论 的 个 体 总 数 所 占 的 比例 。 
例如 ， 假 设 包括 牛奶 和 螺丝 刀 的 购买 行为 仅 占 所 有 购买 行为 的 0.001， 则 规则 
milk = screwdrivers 
的 支持 度 很 低 。 该 规则 甚至 可 能 没有 什么 统计 学 意义 一 一 也 许 仅 有 一 次 购买 行为 既 包 括 牛 奶 又 
包括 螺丝 刀 。 商 业 贸 易 通常 对 具有 低 支 持 度 的 规则 不 感 兴趣 ， 因 为 那些 规则 只 有 少数 顾客 参 
与 ， 不 值得 考虑 。 
另 一 方面 ， 如 果 所 有 购买 行为 的 50% 包含 牛奶 和 面包 ， 则 涉及 面包 和 牛奶 (没有 其 他 商 
品 ) 的 规则 的 支持 度 相 对 较 高 ， 这 样 的 规则 可 能 是 值得 注意 的 。 至 于 到 底 多 少 才 是 值得 考虑 的 
最 小 支持 度 取决 于 应 用 。 
。 置信 度 (confidence) 度 量 的 是 当前 提 为 真 时 结论 为 真 的 频率 。 例 如 ， 如 果 在 包括 面包 的 购物 行 
为 中 有 80% 又 包括 了 牛奶 ， 则 规则 : 





bread 一 milk 
的 置信 和 度 为 80% 。 具 有 较 低 置 信和 度 的 规则 是 没有 意义 的 。 在 商业 应 用 中 ， 规则 的 置信 和 度 通 常 比 
100% 小 很 多 ， 而 在 其 他 领域 ， 例 如 在 物理 学 中 ， 规 则 可 能 具有 高 的 置信 度 。 
注意 ， 虽 然 bread = milk 45 milk = bread 具有 相同 的 支持 度 ， 但 它们 的 置信 度 可 能 会 有 很 
大 差异 。 
为 了 发 现形 如 : 
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的 关联 规则 ， 我 们 首先 找到 具有 足够 支持 度 的 项 集 ， 称 作 大 项 集 ( large itemset) 。 在 例子 中 ， 我们 查找 
包含 在 足够 多 的 实例 中 的 项 集 。 稍 后 我 们 将 看 到 如 何 计算 大 项 集 。 

对 每 个 大 项 集 ， 我们 输出 具有 足够 置信 和 度 的 所 有 规则 ， 这 些 规则 涉及 且 只 涉及 该 集合 中 的 所 有 元 
素 。 对 于 每 个 大 项 集 $5， 对 于 每 个 子 集 s C S， 如 果 5S-s >s 有 足够 的 置信 和 度 ， 我 们 输出 规则 S-sos, 
此 规则 的 置信 度 由 s 的 支持 度 除 以 5 的 支持 度 给 定 。 

我 们 现在 考虑 如 何 产 生 所 有 的 大 项 集 。 如果 项 集 的 可 能 数量 较 小 ， 单 次 数据 扫描 足以 检测 出 所 有 
项 集 的 支持 度 水 平 。 为 每 个 项 集 维护 一 个 初始 值 为 0 的 计数 。 当 获取 一 条 购买 记录 时 ， 对 于 每 个 项 集 
来 说 ， 如 果 此 项 集中 的 所 有 项 都 包含 在 该 次 购买 中 ， 则 此 项 集 的 计数 值 增加 。 例 如 ， 如 果 一 次 购买 行 
Haa, bec, Mjalt, b}, te}, fa, b}, Ib, c}, ja, cl Alla, b, ch 的 计数 值 增 加 。 在 扫描 
结束 时 ， 那 些 计 数值 足够 大 的 项 集 所 对 应 的 项 的 关联 程度 就 高 。 

项 集 数 量 呈 指数 形式 增长 ， 过 大 的 项 数 会 使 刚才 描述 的 过 程 不 可 行 。 幸 运 的 是 ， 几 乎 所 有 项 集 通 
常 具有 很 低 的 支持 度 ， 而 且 已 经 开发 了 一 些 优化 方法 来 去 除 大 部 分 这 样 的 不 必 考 虑 的 项 集 。 这 类 技术 
对 数据 库 进行 多 次 扫描 ， 每 次 扫描 只 考虑 某 些 集合 。 

在 产生 大 项 集 的 apriori 技术 中 ， 第 一 次 扫描 仅 考 虑 含有 单个 项 的 项 集 。 第 二 遍 扫 描 考 虑 有 两 个 项 
的 项 集 ， 依 次 类 推 。 

在 一 遍 扫描 结束 时 ， 所 有 具有 足够 支持 度 的 集合 作为 大 项 集 输 出 。 一 遍 扫描 结束 时 ， 所 发 现 的 具 
有 太 小 支持 度 的 集合 被 删除 。 一 旦 某 个 集合 被 删除 ， 就 不 需要 再 考虑 它 的 任何 超 集 。 换 句 话说， 在 第 i 
次 扫描 中 ， 我 们 只 需 统计 那些 大 小 为 i 的 项 集 的 支持 度 ， 已 发 现 它们 的 所 有 子 项 集 具有 足够 高 的 支持 
度 。 要 保证 此 特性 只 须 测试 所 有 大 小 为 i -1 的 子 项 集 即 可 。 对 于 某 个 i， 当 第 i 次 扫描 结束 时 ， 我们 
将 会 发 现 不 存在 具有 足够 支持 度 的 大 小 为 i 的 项 集 ， 从 而 我 们 无 须 考虑 大 小 为 i+1 的 任何 项 集 。 然 后 
计算 终止 。 


20.6 其 他 类 型 的 关联 


使 用 朴素 的 关联 规则 有 几 个 缺点 。 其 中 一 个 主要 缺点 是 许多 关联 是 可 预知 的 ， 所 以 这 样 的 关联 不 
太 有 意义 。 例 如 ， 如 果 许 多 人 购买 谷物 ， 并 有 许多 人 购买 面包 ,我们 可 以 预测 会 有 相当 多 的 人 两 者 都 
买 ， 即 使 这 两 种 购买 行为 之 间 没 有 任何 联系 。 实 际 上 ， 即 使 购买 谷物 会 对 购买 面包 产生 一 定 程度 上 的 
负面 影响 (也 就 是 说 ， 购 买 谷物 的 顾客 可 能 会 比 一 般 顾客 少 购买 面包 ) ， 谷 物 和 面包 这 两 种 购买 行为 之 
间 的 关联 仍然 会 有 较 高 的 支持 度 。 

更 有 趣 的 是 从 预期 的 同时 发 生 的 两 件 事 中 是 否 出 现 偏离 (deviation ) 。 用 统计 术语 来 表述 ， 我 们 寻 
找 的 是 项 之 间 的 相互 关联 (correlation) ; 相互 关联 可 以 是 正 的 ， 此 时 同时 发 生 率 可 能 比 期 望 值 要 高 ; 相 
互 关联 也 可 以 是 负 的 ， 此 时 项 的 同时 发 生 率 比 预期 的 要 小 。 这 样 ， 如 果 购 买 面包 的 行为 与 购买 谷物 的 
行为 不 相关 (not correlated) ， 那 么 就 不 报道 这 样 的 关联 ， 即 使 这 两 者 之 间 有 强 的 关联 关系 。 有 一 些 相互 
关联 的 标准 度量 广泛 应 用 于 统计 学 领域 。 有 关 相 互 关联 的 更 多 信息 可 参阅 有 关 统 计 学 方面 的 标准 教 
科 书 。 

数据 挖掘 应 用 的 另 一 个 重要 类 别 是 序列 关联 (或 序列 相互 关联 )。 时 间 序 列 数 据 ， 比 如 连续 几 天 的 
股票 价格 ,就 是 一 个 序列 数据 的 例子 。 股 市 分 析 人 员 试 希望 找 出 股市 价格 序列 之 间 的 关联 。 这 种 关联 
的 一 个 例子 就 像 下 面 的 规则 :“ 无 论 何 时 债券 价格 上 升 ， 股 票 价格 会 在 两 天 内 下 跌 。 发现 这 种 序列 之 
间 的 关联 可 以 帮助 我 们 做 出 聪明 的 投资 决策 。 有 关 这 个 主题 的 研究 请 参阅 文献 注解 中 的 文献 。 

来 自 时 态 模 式 的 偏离 通常 是 有 趣 的 。 例 如 ， 如 果 某 家 公司 每 年 以 稳定 的 速率 增长 ， 从 通常 增长 率 
中 出 现 的 偏差 是 令 人 惊奇 的 。 如 果 冬 装 在 夏季 的 销售 量 下 降 是 不 会 令 人 惊讶 的 ， 因 为 我 们 可 以 通过 历 
年 情况 预测 出 这 种 情况 。 我 们 没有 从 过 去 经 验 中 预期 到 的 偏离 可 能 被 认为 是 有 趣 的 。 挖 掘 技术 可 以 发 
现 与 人 们 基于 过 去 的 时 态 或 序列 模式 所 做 出 的 预测 的 偏离 。 有 关 这 个 主题 的 研究 请 参阅 文献 注解 中 的 
文献 。 


20.7 RŽ 
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度量 中 形式 化 而 来 。 一 种 方式 是 将 它 表述 为 把 点 分 组 为 个 集合 (对 于 给 定 的 有 的 问题 ， 使 得 这 些 点 
到 它们 所 属 聚 类 质心 的 平均 距离 最 小 。” 另 一 种 方式 是 对 点 分 组 使 得 每 个 聚 类 中 每 对 点 之 间 的 平均 距 
离 最 小 。 还 有 其 他 一 些 定 义 ， 详 细 信息 见 文献 注解 。 但 所 有 这 些 定 义 背后 的 意图 都 是 将 相似 的 点 一 起 
划分 到 一 个 单独 的 集合 中 去 。 

另 一 类 聚 类 出 现在 生物 学 分 类 系统 中 。( 这 样 的 分 类 系统 并 不 试图 对 类 进行 预测 ， 而 是 试图 将 相关 
项 目 聚 类 到 一 起 。) MN, AMARA OWA, iss te Ae EA SINE HWA. FL Bh ANE Ay 
动物 都 属于 共同 的 疹 椎 动物 类 。 哺 乃 动物 的 聚 类 还 有 子 聚 类 ,例如 食肉 类 和 灵 长 类 。 我 们 由 此 得 到 层 
次 聚 类 (hierarchical clustering) 。 给 定 不 同 物种 的 特性 ， 生 物 学 家 创建 了 一 个 复杂 的 层次 聚 类 模式 ， 将 
相关 物种 一 起 聚合 到 不 同 的 层次 等 级 中 。 

层次 聚 类 也 可 用 于 其 他 领域 一 一 例如 ， 对 文档 聚 类 。Internet 目录 系统 ( 比如 Yahoo! 的 目录 ) 将 相 
关 文档 按 层次 方式 聚 类 ( 见 21.9 节 ) 。 层 次 聚 类 算法 可 分 为 凝聚 聚 类 ( agglomerative clustering) 算法 或 分 
裂 聚 类 (divisive clustering) 算法， 前 者 从 构造 小 的 聚 类 开始 ， 然 后 创建 更 高 等 级 ; 后 者 首先 创建 层次 聚 
类 的 更 高 等 级 ， 之 后 将 每 个 聚 类 结果 细 分 为 更 低 等 级 的 聚 类 。 

统计 学 界 已 经 对 聚 类 进行 了 广泛 研究 。 数 据 库 研 究 提供 了 能 够 对 大 型 数据 集 ( 无 法 放 人 主 存 ) 聚 类 
的 可 伸缩 聚 类 算法 。Birch 聚 类 算法 就 是 一 种 这 样 的 算法 。 直 观 地 ， 数 据点 被 插入 到 一 个 多 维 树 结构 中 
(基于 25. 3. 5. 3 节 描 述 的 R 树 )， 并 根据 与 树 的 内 部 结 点 中 的 代表 点 的 邻近 性 引导 它 进入 适当 的 叶 结 
点 。 这 样 ， 附 近 的 点 在 叶 结 点 中 聚 类 到 一 起 并 汇总 (如 果 内 存 中 无 法 存放 更 多 的 点 ) 。 这 个 第 一 阶段 聚 
类 的 结果 生成 了 一 个 可 以 放 人 内 存 中 的 、 经 过 部 分 聚 类 的 数据 集 。 接 着 ， 标 准 聚 类 技术 可 以 在 内 存 中 
的 数据 上 执行 以 得 到 最 终 聚 类 。 关 于 Birch 算法 ， 以 及 包括 层次 聚 类 算法 在 内 的 其 他 聚 类 技术 请 参考 文 
献 注解 中 的 文献 。 

聚 类 的 一 个 有 趣 应 用 是 预测 一 个 人 可 能 对 何 种 新 电影 (或 书 、 或 音乐 ) 感 兴趣 ， 基 于 以 下 几 点 : 

1. 此 人 以 往 对 电影 的 偏爱 。 

2. 有 以 往 类 似 偏爱 的 其 他 人 。 

3. 这 些 人 对 新 电影 的 偏爱 。 
这 个 问题 的 解决 方法 之 一 如 下 : 为 了 找到 过 去 有 相似 喜好 的 人 ， 我们 根据 他 们 对 电影 的 偏爱 创建 人 的 
聚 类 。 聚 类 的 正确 性 可 以 通过 下 述 改 进 : 基于 他 们 的 相似 性 对 以 往 的 电影 聚 类 ， 这 样 即 使 有 些 人 并 没 
有 观看 相同 的 电影 ， 如 果 他 们 曾经 观看 了 相似 的 电影 ， 那 么 他 们 也 将 聚 类 到 一 起 。 我 们 可 以 重复 这 个 
聚 类 过 程 ， 交 替 地 对 人 聚 类 ， 然 后 对 电影 ， 然 后 对 人 ， 以 此 类 推 ， 直到 达到 平衡 为 止 。 给 定 一 个 新 的 
用 户 ， 我 们 基于 该 用 户 对 已 看 过 的 电影 的 偏爱 ， 找 出 与 该 用 户 最 相似 的 用 户 聚 类 。 然 后 我 们 可 以 预测 ， 
该 新 用 户 可 能 会 对 受 该 用 户 所 在 聚 类 欢迎 的 电影 聚 类 中 的 电影 感 兴趣 。 事 实 上 ， 这 个 问题 是 一 个 协同 
it 38 (collaborative filtering) 的 实例 ， 用 户 协 同 完成 过 滤 信 息 的 任务 以 找 出 感 兴趣 的 信息 。 


20.8 其 他 类 型 的 数据 挖掘 


文本 挖掘 (text mining) 将 数据 控 掘 技术 应 用 到 文本 文档 中 。 例 如 ， 有 些 工 具 可 以 根据 用 户 曾 经 访问 
过 的 页 面 形成 聚 类 ， 这 样 可 以 帮助 用 户 在 浏览 他 们 的 浏览 历史 时 找到 他 们 曾经 访问 过 的 页 面 。 例 如 ， 
页 面 之 间 的 距离 可 以 基于 这 些 页 中 共有 的 词汇 ( 见 21.2. 2 节 ) 进 行 计 算 。 另 一 种 应 用 是 根据 与 其 他 页 面 
的 相似 性 ( 见 21.9 节 ) 自动 地 将 页 面 分 类 到 Web 目录 中 。 

数据 可 视 化 (data-visualization ) 系统 帮助 用 户 检查 大 量 的 数据 ， 并 以 可 视 化 的 方式 发 现 模 式 。 数 据 
的 可 视 化 显示 (比如 图 、 表 和 其 他 图 形 化 表示 ) 使 数据 得 以 简洁 地 呈现 给 用 户 。 单 个 图 形 屏幕 能 够 对 相 
当 大 量 的 文本 屏幕 所 表达 的 信息 进行 编码 。 例 如 ， 如 果 用 户 想 要 找 出 工厂 的 生产 问题 是 否 与 工厂 位 置 
相关 ， 有 问题 的 位 置 可 以 在 地 图 上 用 某 种 特殊 颜色 ( 比如 红色 ) 编码 。 这 样 用 户 就 可 以 快速 发 现 出 现 问 





局 “一 个 点 集 的 质心 定义 为 一 个 点 ， 它 在 每 个 维 上 的 坐标 是 该 集合 中 所 有 点 在 相应 维 上 坐标 的 平均 值 。 以 二 维 为 例 ， 
ee 
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题 的 地 方 ， 然 后 用 户 可 以 对 为 什么 问题 发 生 在 那些 位 置 做 出 假设 ， 并 可 以 在 数据 库 上 定量 验证 该 假设 。 
作为 另 一 个 例子 ， 数 值 信息 可 以 编码 为 颜色 ， 并 且 显 示 成 与 屏幕 区 域 的 一 个 像素 那样 小 。 为 了 探 
测 商品 对 之 间 的 关联 ， 我 们 可 以 使 用 二 维 像素 矩阵 ， 每 行 和 每 列 各 代表 一 种 商品 。 两 种 商品 都 购买 的 
交易 所 占 百 分 比 可 以 用 像素 的 颜色 强度 来 编码 。 具 有 高 关联 度 的 商品 将 显示 为 屏幕 上 的 亮点 一 可 在 
更 暗 的 背景 中 容易 地 发 现 。 
数据 可 视 化 系统 并 不 自动 发 现 模式 ， 但 它们 为 用 户 发 现 模式 提供 了 系统 支持 。 由 于 人 非常 擅长 发 
现 可 视 化 模式 ， 因 此 数据 可 视 化 是 数据 挖掘 的 一 个 重要 组 成 部 分 。 


20.9 BE 


。 决策 支持 系统 分 析 由 事务 处 理 系统 收集 的 在 线 数据 ， 以 帮助 人 们 做 出 商业 决策 。 由 于 现在 大 多 数组 
织 机 构 都 进行 了 广泛 的 计算 机 化 ， 因 此 有 非常 大 量 的 信息 可 用 于 决策 支持 。 决 策 支 持 系统 有 不 同 的 
形式 ,包括 OLAP 系统 和 数据 挖掘 系统 。 

。 数据 仓库 有 助 于 收集 和 归档 重要 的 操作 数据 。 数 据 仓 库 用 于 基于 历史 数据 的 决策 支持 和 分 析 ， 例 如 

趋势 预测 。 对 来 自 输 入 数据 源 的 数据 进行 清理 通常 是 数据 仓库 中 的 一 项 重要 任务 。 数 据 仓库 的 模式 

一 般 是 多 维 的 ， 包 括 一 个 或 一 些 非常 大 的 事实 表 以 及 几 个 小 得 多 的 维 表 。 

在 很 多 数据 仓库 应 用 程序 中 ， 面 向 列 的 存储 系统 能 提供 良好 的 性 能 。 

数据 挖掘 是 一 个 能 半自动 地 分 析 大 型 数据 库 以 找 出 有 用 模式 的 过 程 。 数 据 挖掘 的 应 用 有 许多 ， 比 如 

基于 以 往 示 例 的 数值 预测 ， 购 买 行为 关联 的 发 现 ， 以 及 人 和 电影 的 自动 聚 类 。 

。 分 类 处 理 的 是 : 基于 训练 用 例 的 属性 和 训练 用 例 实际 所 属 的 类 ， 通 过 利用 测试 用 例 的 属性 来 预测 测 
试用 例 所 属 类 。 分 类 器 类 型 有 多 种 ， 例 如 : 

决策 树 分 类 器 。 这 种 分 类 器 通过 基于 训练 用 例 所 构造 的 一 棵 树 来 执行 分 类 ， 该 树 的 叶 结 点 具 

有 类 别 标签 。 对 每 个 测试 用 例 遍 历 这 棵 树 以 找到 一 个 叶 结 点 ， 该 叶 结 点 所 属 的 类 即 是 预测 的 

类 。 有 几 种 技术 可 用 于 构造 决策 树 ， 其 中 大 部 分 是 基于 贪心 的 启发 式 方法 。 

O 贝 叶 斯 分 类 器 的 构造 比 决策 树 分 类 器 更 简单 ， 并 且 在 属性 值 缺 失 或 为 空 的 情况 下 工作 得 
更 好 。 
O 支持 向 量 机 是 另 一 种 广泛 应 用 的 分 类 技术 。 
© 关联 规则 识别 经 常 同时 出 现 的 项 ， 比 如 同一 位 顾客 可 能 购买 的 一 些 商 品 。 相 互 关联 找 出 与 期 望 



















































































关联 等 级 的 偏离 。 
© 其 他 类 型 的 数据 挖掘 包括 聚 类 、 文 本 挖掘 和 数据 可 视 化 。 
术语 回顾 
。 决策 支持 系统 。 数据 挖掘 口 连续 值 属性 
© 统计 分 析 。 预测 口 类 别 属 性 
。 数据 仓库 。 关联 口 二 分 分 划 
口 数据 收集 。 分 类 口 多 路 分 划 
口 源 驱动 架构 口 训练 数据 O 过 度 适应 
口 目标 驱动 架构 口 测试 数据 © 贝 叶 斯 分 类 器 
数据 清理 © 决策 树 分 类 器 贝 叶 斯 定理 
- 合并 - 清除 口 划分 属性 口 朴素 贝 叶 斯 分 类 器 
- 住宅 操作 口 划分 条 件 e 支持 向 量 机 (SVM ) 
口 抽取 、 转 换 、 加 载 (ETL) 口 纯度 。 回归 
。 数据 仓库 模式 - 吉 尼 度量 线性 回归 
口 事实 表 - MEE 口 曲线 拟 合 
口 维 表 口 信息 增益 。 验证 
T 星 型 模式 信息 内 容 正确 性 
。 面向 列 的 存储 口 信息 增益 率 口 召回 率 
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口 准确 率 口 支持 度 口 层次 聚 类 

口 特异 性 口 置信 和 度 凝聚 聚 类 

口 交叉 验证 口 大 项 集 口 分 裂 聚 类 
。 关联 规则 。 其 他 类 型 的 关联 。 文本 挖掘 

口 个 体 总 数 © RA o 数据 可 视 化 
实践 习题 


20.1 与 目的 驱动 架构 相 比 ， 描 述 用 于 数据 仓库 的 数据 收集 的 源 驱动 架构 的 优 缺 点 。 

20.2 在 支持 数据 仓库 的 数据 库 系 统 中 ， 为 什么 面向 列 的 存储 有 潜在 的 优势 ? 

20.3 假设 有 两 条 分 类 规则 : 一 条 表示 薪水 介 于 10 000 ~ 20 000 美元 之 间 的 人 具有 好 信用 级 ; 另 一 条 表示 薪 
水 介 于 20 000 ~ 30 000 美元 之 间 的 人 具有 好 信用 级 。 在 何 种 情况 下 这 两 条 规则 可 以 在 不 丢失 任何 信息 
的 前 提 下 蔡 换 为 单条 规则 : 薪水 介 于 10 000 ~ 30 000 美元 之 间 的 人 具有 好 信用 级 。 

20.4 考虑 图 20-2 描述 的 模式 。 给 出 一 条 SQL 查询 ， 按 照 商店 和 日 期 以 及 商店 和 日 期 上 的 层次 来 汇总 销售 
数量 和 价格 。 

20.5 考虑 这 样 一 个 分 类 器 问题 : 分 类 器 预测 一 个 人 是 否 患 有 一 种 特殊 的 疾病 。 假 设 95% 被 测试 的 人 并 没 
有 患 这 种 病 。( 也 就 是 说 ， 测 试用 例 的 pos 对 应 于 5% ， 并 且 neg 对 应 于 95% 。) 考虑 下 面 的 分 类 器 : 

。 分 类 器 C, 总 是 预测 负 值 ( 当然 这 是 一 个 相当 没 用 的 分 类 器 ) 。 

© 分 类 器 C, 从 实际 患 病 的 人 中 预测 出 80% 的 正 值 ， 但 也 从 没 患 病 的 人 中 预测 了 5% 的 正 值 。 

© 分 类 器 C 从 实际 患 病 的 人 中 预测 出 95% 的 正 值 ， 但 也 从 没 患 病 的 人 中 预测 了 20% 的 正 值 。 

给 定 上 述 分 类 器 ， 回 答 下 面 的 问题 : 

a 对 于 上 述 每 种 分 类 器 ， 计 算 它 们 的 正确 性 、 准 确 率 、 召 回 率 和 特异 性 。 

b 如 果 你 要 用 分 类 结果 去 对 这 种 疾病 进行 进一步 筛选 ， 你 该 选择 其 中 哪个 分 类 器 ? 

c. 另 一 方面 ， 假 设 你 要 利用 分 类 结果 开始 药物 治疗 ， 如 果 药物 可 能 会 对 不 患 有 该 疾病 的 人 产生 有 害 
影响 ， 你 该 选择 其 中 哪个 分 类 器 ? 

习题 

20.6 画 一 张 图 表示 在 附录 A 中 所 示 的 大 学 例子 中 的 classroom 关系 如 何在 面向 列 的 存储 结构 中 存储 。 

20.7 解释 为 什么 嵌 套 循环 连接 算法 ( 见 12.5.1 节 ) 在 以 面向 列 的 方式 存储 的 数据 库 中 工作 很 差 。 给 出 另 一 
种 能 够 工作 得 更 好 的 替代 算法 ， 并 解释 为 什么 你 的 解决 方案 是 更 好 的 。 

20.8 在 每 个 结 点 上 使 用 二 分 划分 操作 构造 一 个 决策 树 分 类 器 ， 使 用 如 下 所 示 关 系 r(A, B, C) PRIJE 
为 训练 数据 ; 属性 C 代表 所 属 的 类 。 表 示 出 最 终 的 树 ， 其 中 每 个 结 点 显示 各 个 属性 的 最 佳 分 划 及 其 
信息 增益 值 。 

Uls 2 
bi), CO, T3 2) 

20.9 {BL — RAR BE TEE A 3 Ss BE SE TETE, A TA A = ah SE OT HZ. PB 
买 牛仔 裤 的 交易 中 有 一 半 也 购买 了 T 恤 衫 。 写 出 你 能 从 上 述 信息 中 推导 出 来 的 所 有 ( 非 平 凡 的 ) 关联 
规则 ， 并 给 出 每 条 规则 的 支持 度 和 置信 度 。 

20. 10 考虑 寻找 大 项 集 的 问题 。 

a 对 通过 使 用 单 趟 数据 扫描 得 到 的 一 个 给 定 项 集 ， 描 述 如 何 找 到 其 支持 度 。 假 定 项 集 和 相关 信息 
(如 计数 ) 可 以 放 入 内 存 中 。 
b. 假设 一 个 项 集 的 支持 度 小 于 j。 说 明 没 有 该 项 集 的 任何 超 集 的 支持 度 会 大 于 或 等 于 j。 

20. 11 创建 一 个 事务 集合 的 小 例子 ， 说 明 昌 然 有 很 多 事务 包含 两 种 商品 ， 也 就 是 说 包含 两 种 商品 的 项 集 有 
很 高 的 支持 度 ， 但 是 购买 其 中 一 种 商品 的 行为 可 能 对 购买 另外 一 种 的 行为 产生 负 相 关 。 

20.12 ”一 本 书 中 部 分 、 章 、 节 和 小 节 的 组 织 和 聚 类 有 关 。 解 释 其 原因 以 及 是 什么 形式 的 聚 类 。 

20. 13 ”以 你 喜欢 的 体育 运动 为 例 ， 建 议 一 个 运动 队 如 何 利用 预测 挖掘 技术 。 


工具 
对 于 我 们 在 这 一 章 学 习 的 每 种 应 用 都 有 各 式 各 样 的 工具 可 用 。 大 多 数 数 据 库 厂商 把 OLAP 工具 作为 其 数 
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据 库 系统 的 一 部 分 或 作为 附加 的 应 用 软件 提供 。 其 中 包括 来 自 微软 公司 、SAP、IBM 和 Oracle 的 OLAP 工 
具 。Mondrian OLAP 服务 器 是 公共 领域 的 OLAP 服务 器 。 很 多 公司 为 特定 应 用 提供 分 析 工 具 ， 比 如 客户 关系 
管理 。 

主要 的 数据 库 厂 商 还 提供 了 与 其 数据 库 系统 相 结合 的 数据 仓库 产品 。 这 为 数据 建 模 、 清 理 、 加 载 和 查 
询 提供 了 支持 功能 。Web 站 点 www. dwinfocenter. org 提供 了 关于 数据 仓库 产品 的 信息 。 

还 有 许多 各 种 种 类 的 通用 数据 挖掘 工具 ， 包 括 SAS 研究 院 的 数据 挖掘 套件 、IBM Intelligent Miner 和 
Oracle。 也 有 一 些 开 源 的 数据 挖掘 工具 ， 比 如 广泛 使 用 的 Weka 和 RapidMiner。 开 源 的 商务 智能 套件 Pentaho 
有 一 些 组 件 ， 包 括 ETL TA, Mondrian OLAP 服务 器 和 基于 Weka 的 数据 挖 据 工 具 。 

把 通用 的 挖掘 工具 用 到 特定 应 用 中 需要 很 多 专业 技术 。 因 此 ， 开 发 了 大 量 的 挖掘 工具 用 于 处 理 专 门 的 
应 用 。 网 站 www. kdnuggets. com 提供 了 关于 挖掘 软件 、 解 决 方案 和 出 版 物 等 的 广泛 目录 。 


文献 注解 


可 以 从 诸如 Bulmer[ 1979 ] 和 Ross[ 1999 ] 那样 的 标准 统计 教科 书 中 找到 统计 函数 的 定义 。 

Poe[ 1995 ] 和 Mattison[ 1996 ] 提 供 了 讲述 数据 仓库 的 教材 。Zhuge 等 [1995 | 描述 了 数据 仓库 环境 下 中 的 
视图 维护 。Chaudhuri 等 [2003 ] 描述 了 用 于 数据 清理 的 模糊 匹配 技术 ， 而 Sarawagi 等 [2002 ] 描述 了 一 个 采用 
主动 学 习 技 术 进 行 去 重 的 系统 。 

Abadi 等 [2008 ] 提 出 了 面向 列 和 面向 行 存 储 的 比较 ， 包括 相关 的 查询 处 理 和 优化 问题 。 

Witten 和 Frank[ 1999] 、Han 和 Kamber[ 2000 ] 提供 了 讲述 数据 挖掘 的 教科 书 。Mitchell[ 1997 | 是 有 关机 
器 学 习 的 经 典 教材 ， 并 详细 讲述 了 分 类 技术 。Fayyad 等 [1995 ] 广 泛 收 集 了 关于 知识 发 现 和 数据 挖掘 的 文献 。 
Kohavi 和 Provost[ 2001 | 收集 了 关于 数据 挖掘 和 电子 商务 应 用 的 文献 。 

Agrawal 等 [1993b ] 提供 了 早期 在 数据 库 上 进行 数据 挖掘 的 概述 。Agrawal 等 [1992 ] 和 Shafer 等 [1996 | 描 
述 了 用 于 计算 具有 大 训练 集 的 分 类 器 的 算法 ; 本 章 介绍 的 决策 树 构 造 算 法 基于 Shafer 等 [1996 ] 的 SPRINT 算 
法 。Cortes 和 Vapnik[ 1995 ] 介 绍 了 支持 向 量 机 上 的 几 个 关键 结果 ， 而 Cristianini 和 Shawe-Taylor[ 2000 | 提供 
了 讲述 支持 向 量 机 的 教材 。 

Agrawal 等 [1993a] 引 入 了 关联 挖掘 的 概念 ，Agrawal 和 Srikant[ 1994 ] 介绍 了 关联 规则 挖掘 的 有 效 算 法 。 
Srikant 和 Agrawal[ 1996a] Srikant 和 Agrawal[ 1996b ] 描述 了 挖掘 不 同形 式 的 关联 规则 的 算法 。Chakrabarti 等 
[1998] 介 绍 了 挖掘 意外 时 序 模式 的 技术 ; Sarawagi[ 2000 ] 描述 了 数据 立方 体 和 数据 挖掘 集成 的 技术 。 

聚 类 在 统计 学 领域 有 很 长 的 研究 历史 ，Jain 和 Dubes[ 1988 ] 提供 了 讲述 聚 类 的 教材 。Ng 和 Han[ 1994 ] 描 
述 了 空间 聚 类 技术 。 用 于 大 数据 集 的 聚 类 技术 由 Zhang 等 [1996 ] 给 出 。Breese 等 [ 1998 ] 对 协同 过 滤 的 不 同 
算法 进行 了 经 验 分 析 。Konstan 等 [1997 ] 给 出 了 用 于 新 闻 文 章 的 协同 过 滤 技 术 。 
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Chakrabarti [ 2002 ] 和 Manning 等 [2008 ] 提供 了 讲述 信息 检索 的 教材 ， 包 括 深 入 讲述 了 有 关 文 本 和 超 文本 [913 | 


数据 的 数据 挖掘 任务 ， 比 如 分 类 与 聚 类 。Chakrabarti[ 2000 ] 提供 了 超 文本 挖掘 技术 的 综述 ， 比 如 超 文本 分 类 a 
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不 同 于 关系 数据 库 中 严格 结构 化 的 数据 ， 文 本 数据 是 非 结 构 化 的 。 术 语 信息 检索 通常 指 的 就 是 非 
结构 化 文本 数据 的 查询 。 信 息 检 索 系 统 与 数据 库 系 统 有 很 多 类 似 之 处 ， 特 别 是 在 辅助 存储 器 上 的 数据 
存储 和 检索 方面 。 然 而 ， 信 息 系统 领域 与 数据 库 系 统领 域 的 侧重 点 不 同 ， 它 强调 基于 关键 字 的 查询 、 
文档 与 查询 的 相关 性 ， 以 及 文档 的 分 析 、 分 类 和 索引 等 问题 。 当 前 ，Web 搜索 引擎 已 不 局 限于 文档 检 
索 ， 而 同时 研究 更 为 广泛 的 问题 来 满足 用 户 的 信息 需求 ， 壁 如 显示 哪些 信息 作为 关键 字 查 询 的 结果 . 


21.1 概述 


信息 检索 (information retrieval) 领域 与 数据 库 领 域 的 研究 是 并 行 发 展 的 。 在 信息 检索 领域 使 用 的 传 
统 模型 中 ， 信 息 组 织 成 文档 ， 而 且 设 想 文档 数量 很 大 。 存 储 在 文档 中 的 数据 是 非 结构 化 的 ， 没 有 相关 
的 模式 。 基 于 用 户 输入 来 定位 相关 文档 构成 了 信息 检索 的 过 程 ， 用 户 输入 包括 关键 字 、 示 例文 档 等 。 
Web 提供 了 一 种 与 Internet 上 信息 资源 进行 接触 和 交互 的 便利 方式 。 然 而 ， 面 对 Web 的 一 个 长 期 
存在 的 问题 是 存储 信息 的 爆炸 ， 用 户 在 定位 感 兴趣 的 信息 时 很 少 能 得 到 指导 性 帮助 。 信 息 检 索 在 使 
Web 成 为 一 个 高 效 和 有 用 的 工具 (尤其 是 对 于 研究 人 员 ) 方 面 起 到 了 关键 性 的 作用 。 
信息 检索 系统 的 传统 例子 是 在 线 图 书馆 目录 和 在 线 文档 管理 系统 ， 比 如 那些 存储 报纸 文章 的 系统 . 
这 些 系统 中 的 数据 组 织 成 文档 的 集合 。 报 纸 文章 或 (图 书馆 目录 中 的 ) 目录 条 目 就 是 文档 的 例子 。 在 
Web 环境 中 ,每 个 HTML 页 面 通常 被 认为 是 一 份 文档 。 
使 用 这 类 系统 的 用 户 可 能 想 要 检索 一 份 特定 的 文档 或 一 类 特定 的 文档 。 用 户 预期 的 文档 通常 用 关 
键 字 (keyword) 集 合 来 描述 ， 例 如， 关键 字 “ 数 据 库 系统 ”可 能 用 来 定位 数据 库 系 统 方面 的 图 书 ， 而 关键 
字 “ 股 票 ”" 和 “丑闻 ”可 能 用 来 定位 股市 丑闻 方面 的 文章 。 文 档 本 身 已 经 与 一 组 关键 字 相 关联 ， 如 果 文 档 
的 关键 字 包 含 用 户 提供 的 关键 字 ， 就 被 检索 出 来 。 
基于 关键 字 的 信息 检索 不 仅 可 用 于 检索 文本 数据 ， 还 可 用 于 检索 其 他 类 型 的 数据 ， 比 如 视频 或 音 
频数 据 ， 这 些 数据 与 一 些 描述 性 关键 字 相 关联 。 例 如 ， 与 一 部 视频 电影 关联 的 关键 字 可 以 是 它 的 片 名 、 
导演 、 演 员 、 类 型 等 ; 而 一 张 图 片 或 一 段 视频 剪辑 可 能 会 带 有 标签 ， 标 签 就 是 描述 这 张 图 片 或 这 段 视 
频 剪辑 的 关键 字 。 
这 种 模型 与 传统 数据 库 系 统 使 用 的 模型 有 几 点 不 同 : 
。 数据 库 系统 处 理 信息 检索 系统 中 未 涉及 的 一 些 操作 。 例 如 ， 数 据 库 系统 涉及 更 新 ， 以 及 有 关 并 
发 控制 和 持久 性 所 需 的 事务 处 理 需求 ， 这 些 事情 在 信息 系统 中 并 不 重要 。 类 似 地 ， 数 据 库 系 统 
处 理 按 相对 复杂 的 数据 模型 组 织 的 结构 化 信息 ( 比如 关系 模型 或 面向 对 象 数据 模型 ); 而 信息 检 
索 系统 传统 上 使 用 了 一 个 简单 得 多 的 模型 ， 它 的 数据 库 中 的 信息 是 简单 地 按照 非 结构 化 文档 集 
合 组 织 的 。 
。 信息 检索 系统 处 理 数 据 库 系统 中 未 得 到 足够 重视 的 一 些 操 作 。 例 如 ， 信 息 检 索 领 域 处 理 了 查询 
非 结 构 化 文档 集 的 问题 ， 关 注 诸如 关键 字 查 询 ， 根 据 文档 与 查询 相关 度 的 估计 对 文档 排名 的 
问题 。 
除了 仅 包含 一 组 词语 的 简单 关键 字 查询 外 ， 信 息 检 索 系 统一 般 允 许 使 用 由 关键 字 和 逮 辑 连接 词 
(and、or、not) 组 成 的 查询 表达 式 。 例 如 ， 用 户 可 以 要 求 找 出 包含 关键 字 “ 摩托 车 and 维护 ”的 所 有 文 
H, 或 者 找 出 包含 关键 字 “ 计 算 机 or 微 处 理 器 "的 文档 ， 其 至 包含 关键 字 “ 计 算 机 but not 数据库 ”的 文 
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档 。 没 有 上 述 任何 连接 词 且 包含 关键 字 的 查询 假定 以 and 作为 隐 式 的 关键 字 连 接 。 

在 全 文 (full text) 检 索 中 ， 每 份 文档 中 的 所 有 词 都 当 作 关 键 字 。 对 于 非 结 构 化 文档 ， 因 为 可 能 无 法 
得 到 有 关 信 息 来 判断 文档 中 哪些 词 为 关键 字 ， 所 以 全 文 检索 是 必要 的 。 由 于 文档 中 的 所 有 的 词 都 是 关 
键 字 ， 因 此 我 们 将 用 术语 (term) 来 表示 文档 中 的 词 。 

对 于 没有 连接 词 的 查询 ， 信 息 检索 系统 用 其 最 简单 的 形式 定位 并 返回 所 有 包含 该 查询 中 全 部 关键 
字 的 文档 ; 对 于 连接 词 会 按照 你 期 望 的 方式 处 理 。 更 复杂 的 系统 会 估计 文档 对 某 个 查询 的 相关 性 ， 这 
样 文档 可 以 按照 估计 的 相关 度 顺序 显示 。 它 们 利用 有 关 术 语 出 现 频 度 的 信息 和 超 链接 信息 估计 相关 性 。 

以 Web 搜索 引擎 为 代表 的 信息 检索 系统 目前 已 超越 了 仅仅 基于 排名 来 检索 文档 。 当 前 ， 搜 索引 警 
旨 在 通过 判断 一 个 查询 所 涉及 的 主题 并 同时 呈现 被 判定 为 相关 的 Web 页 面 和 有 关 该 主题 的 其 他 信息 ， 
来 满足 用 户 的 信息 需求 。 例 如 ， 给 定 “ 板 球 "这 一 查询 术语 ， 搜 索引 擎 会 显示 当前 正在 进行 的 或 最 近 举 
行 的 板 球 比赛 比分 ， 而 不 仅仅 是 显示 与 板 球 相关 的 排名 高 的 文档 。 又 如 ， 为 了 回答 “纽约 " 这 一 查询 ， 
除了 与 纽约 相关 的 Web 网 页 之 外 ， 搜 索引 擎 还 会 显示 纽约 的 地 图 和 图 片 。 


21.2 使 用 术语 的 相关 性 排名 


满足 某 个 查询 表达 式 的 所 有 文档 的 集合 可 能 是 非常 巨大 的 ， 特 别 是 ，Web 上 有 数 十 亿 的 文档 ， 
Web 搜索 引擎 上 的 大 多 数 关键 字 查 询 都 会 找到 数 十 万 包含 查询 关键 字 的 文档 。 全 文 检索 使 这 个 问题 变 
得 更 糟 : 每 份 文档 可 能 包含 许多 术语 ， 那 些 仅仅 附带 地 提 及 的 术语 和 与 文档 真正 相关 的 术语 会 等 同 对 
待 。 结 果 会 检索 到 一 些 不 相关 的 文档 。 

因此 ， 信 息 检 索 系 统 估计 文档 与 查询 的 相关 性 ， 并 且 只 返回 高 度 相关 的 文档 作为 结果 。 相 关 性 排 
名 不 是 一 门 精密 科学 ， 但 已 存在 一 些 普遍 认可 的 方法 。 
21. 2. 1 使 用 TF-IDF 的 排名 方法 

第 一 个 要 解决 的 问题 是 ， 给 定 一 个 特定 的 术语 :， 某 份 特定 文档 d 与 该 术语 的 相关 性 如 何 。 一 种 处 
理 方法 是 用 该 文档 中 该 术语 的 出 现 次 数 作为 对 相关 性 的 度量 ， 这 是 基于 一 个 假设 : 相关 的 术语 很 有 可 
能 在 文档 中 提 及 多 次 。 只 统计 一 个 术语 的 出 现 次 数 通常 不 是 一 个 好 的 相关 性 指示 器 : 首先 ， 出 现 次 数 
取决 于 文档 的 长 度 ; 其 次 ， 某 个 术语 出 现 10 次 的 文档 的 相关 性 可 能 并 不 是 术语 只 出 现 1 次 的 文档 的 相 
关 性 的 10 倍 。 

有 一 种 用 于 度量 TF (d, t) (文档 d 对 术语 1 的 相关 性 ) 的 方法 是 : 


TF(d, t) = log (1 a) 


这 里 的 n(d) 表 示 文 档 中 的 术语 个 数 ，n(d, t) 表示 文档 d 中 术语 1 的 出 现 次 数 。 注 意 ， 这 个 公式 考虑 了 
文档 长 度 。 文 档 中 该 术语 的 出 现 次 数 越 多 相关 性 越 大 ， 尽 管 它 不 是 直接 正比 于 出 现 次 数 。 

许多 系统 利用 其 他 信息 改进 上 面 的 公式 。 例 如 ， 如 果 该 术语 出 现在 标题 、 作 者 列表 或 摘要 里 ， 则 
认为 该 文档 与 该 术语 具有 更 高 的 相关 性 。 类 似 地 ， 如 果 一 个 术语 在 文档 中 首次 出 现 的 位 置 靠 后 ， 则 认 
为 该 文档 可 能 比 首 次 出 现 的 位 置 靠 前 的 文档 的 相关 性 要 小 。 上 面 的 想法 可 以 形式 化 为 所 示 公 式 TF(d， 
1) 的 扩展 。 在 信息 检索 领域 ， 不 管 实际 使 用 的 是 哪 一 个 公式 ， 一 份 文 档 对 一 个 术语 的 相关 性 称 作 术语 
频率 (Term Frequency, TF) 。 

一 个 查询 O 可 能 包含 多 个 关键 字 。 一 份 文档 对 含有 两 个 或 更 多 关键 字 的 查询 的 相关 性 估计 是 通过 
将 该 文档 对 每 个 关键 字 的 相关 性 度量 结合 在 一 起 得 到 的 。 一 个 将 度量 值 结合 的 简单 方法 是 把 它们 加 起 
来 。 然 而 ,我 们 不 能 同样 对 待 所 有 用 作 关 键 字 的 术语 。 假 设 一 个 查询 使 用 两 个 术语 ， 一 个 出 现 的 频率 
高 ， 例 如 “database”， 另 一 个 出 现 的 频率 低 ， 例 如 “Silberschatz”。 包 含 “Silberschatz” 但 不 包含 
“database” 的 文档 应 比 包含 “database" 但 不 包含 “Silberschatz” 的 文档 的 相关 性 高 。 

为 了 解决 上 面 的 问题 ， 使 用 逆 文档 频率 ( Inverse Document Frequency, IDF) 对 术语 赋 权 值 。 逆 文档 
频率 定义 为 : 


IDF(t) = =i 
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这 里 的 n(1) 表 示 包 含 该 术语 1 的 文档 ( 系统 所 索引 的 文档 ) 的 数量 。 于 是 一 份 文档 d 对 一 个 术语 集 
Q 的 相关 性 (relavance ) 定义 为 : 
r(d, Q) = Ý TF(d,t) x IDF (t) 
teQ 


如 果 允 许 用 户 指 定 查 询 中 术语 的 权重 w(t) ， 则 该 度量 可 以 进一步 改进 ， 此 时 ,通过 在 上 述 公 式 中 把 
TF(1) 乘 以 w(t)， 即 可 将 用 户 定义 的 权重 也 考虑 进去 。 

上 述 利用 术语 频率 以 及 逆 文 档 频 率 作为 度量 一 份 文档 的 相关 性 的 方法 称 为 TF-IDF 方法 。 

几乎 所 有 的 文本 文档 (英语 ) 都 包含 诸如 “and”、“or”、“a" 之 类 的 词 ， 由 于 它们 的 北 文 档 频 率 非 常 
低 ， 因 此 这 些 单词 对 查询 目的 来 说 是 无 用 的 。 信 息 检索 系统 定义 了 一 个 词 集 合 ， 称 作 停 用 词 (stop 
word) ， 它 包括 大 约 100 个 最 常用 的 词 ， 创 建 索 引 时 从 文档 中 去 除 该 集合 中 的 词 。 这 类 词 不 作为 关键 字 

使 用 ， 如 果 在 用 户 提供 的 关键 字 中 出 现 就 要 被 去 除 。 

当 一 个 查询 包含 多 个 术语 时 ， 男 一 个 需要 考虑 的 因素 是 这 些 术 语 在 文档 中 的 接近 度 ( proximity ) 。 
如 果 文 档 中 术语 彼此 接近 ， 则 该 文档 的 相关 性 应 该 比 其 中 术语 彼此 玻 远 的 文档 要 高 。 可 以 修改 r(d，O) 
的 公式 将 接近 度 也 考虑 进去 。 

给 定 一 个 查询 0， 信 息 检索 系 统 的 工作 是 按照 文档 与 0 的 相关 性 的 降序 返回 文档 。 由 于 相关 的 文 
档 可 能 很 多 ， 因 此 信息 检索 系统 一 般 只 返回 具有 最 高 估计 相关 性 度量 的 前 几 份 文档 ， 同 时 允许 用 户 与 
系统 交互 请 求 更 多 的 文档 。 

21.2.2 基于 相似 性 的 检索 

一 些 信息 检索 系统 允许 基于 相似 性 的 检索 (similarity-based retrieval ) 。 这 里 ， 用 户 可 以 向 系统 给 出 
文档 4， 然 后 请 求 系统 检索 与 4“ 相似 ”的 文档 。 举 例 来 说 ， 一 份 文档 与 男 一 份 文档 的 相似 性 的 定义 可 
以 基于 它们 之 间 共 有 的 术语 。 一 种 方法 是 找 出 4 中 具有 最 高 TF(4,t) * IDF(1) 值 的 个 术语 ， 然 后 使 
用 这 上 个 术语 作为 一 个 查询 去 找 出 与 其 他 文档 的 相关 性 。 查 询 中 的 这 些 术 语 自 身 以 TF(4,t) * IDF(t) 
为 权 。 

更 一 般 地 ， 文 档 之 间 的 相关 性 是 用 余弦 相似 性 ( cosine similarity) 度量 来 定义 的 。 设 出 现在 这 两 份 文 
档 中 任意 一 份 文档 中 的 术语 用 t, ，t, ，…,，t, 来 表示 。 Sr(d,t) = TF(d,t) *IDF(t) 。 这样, X d A 
e 之 间 的 余弦 相似 性 度量 可 以 定义 为 : 

Liar(d, ti)r(e, ti) 
J Sard, oy fh are, HY 
很 容易 可 以 证 明 : 一 份 文档 对 其 自身 的 余弦 相似 性 度量 等 于 1， 而 两 个 彼此 之 间 不 含 共 有 术语 的 文档 
之 间 的 余弦 相似 性 度量 等 于 0。 

“余弦 相似 性 ”这 个 名 称 来 自 于 这 样 一 个 事实 : 上 述 公式 计算 两 个 向 量 夹 角 的 余弦 ， 而 每 个 向 量 就 
代表 一 份 文档 。 向 量 定义 如 下 : 设 在 被 考虑 的 所 有 文档 中 共有 nn 个 词 。 定 义 一 个 nn 维 空间 ， 每 个 词 作 
为 其 中 的 一 个 维 。 一 份 文档 d 用 这 个 空间 中 的 一 个 点 来 表示 ， 这 个 点 的 第 i 个 坐标 的 值 为 r-(d, 1;)。 X 
档 d 所 对 应 的 向 量 是 从 原点 (所 有 坐标 值 都 为 0 的 点 ) 连 接 到 代表 该 文档 的 点 。 这 样 一 个 将 文档 视 作 n 
维 空间 中 的 点 和 向 量 的 模型 称 作 向 量 空间 模型 ( vector space model) 。 

如 果 与 文档 4 相似 的 文档 集合 很 大 ， 系 统 可 以 向 用 户 展示 其 中 一 部 分 相似 的 文档 ， 允 许 用 户 选择 
最 相关 的 几 个 ， 然 后 基于 与 4 的 相似 性 和 与 所 选 文档 的 相似 性 开始 一 个 新 的 搜索 。 由 此 得 到 的 文档 集 
合 很 可 能 就 是 用 户 想 要 查找 的 文档 。 这 个 想法 称 为 相关 反馈 (relevance feedback ) 。 

相关 反馈 还 可 以 用 来 帮助 用 户 在 一 个 匹配 给 定 查询 关键 字 的 大 文档 集合 中 ， 找 到 相关 的 文档 。 在 
这 种 情况 下 ， 可 能 会 允许 用 户 从 返回 的 文档 中 标识 出 一 份 或 几 份 文 档 是 相关 的 ; 然后 ， 系 统 就 可 以 利 
用 这 些 标识 出 的 文档 找 出 其 他 相似 的 文档 。 由 此 得 到 的 文档 集合 就 很 可 能 是 用 户 想 要 查找 的 文档 。 另 
外 一 种 可 以 替代 相关 反馈 的 方法 要 求 用 户 通过 增加 关键 字 来 修改 查询 ;相关 反馈 除了 能 够 给 出 一 个 更 
好 的 文档 最 终 集 合作 为 答案 之 外 ， 也 更 加 易于 使 用 。 

当 文档 的 数量 非常 大 时 ， 为 了 呈现 给 用 户 一 个 有 代表 性 的 文档 集合 ， 搜 索 系 统 可 以 基于 文档 的 余 
弦 相 似 性 对 它们 进行 聚 类 。 然 后 ,来 自 每 个 聚 类 的 一 些 文档 将 会 显示 ， 从 而 在 应 答 集 合 中 表示 了 多 个 








第 21 章 信息 检索 517 


类 别 。 聚 类 已 经 在 20.7 节 阑 述 过 ， 人 们 已 经 开发 了 多 种 技术 用 来 对 文档 集合 进行 聚 类 。 有 关 聚 类 的 更 
多 信息 请 参考 文献 注解 。 

作为 网 页 相似 的 一 种 特殊 情况 ， 一 个 文档 在 Web 上 常常 会 有 多 个 副本 。 例 如 ， 如 果 某 个 Web 站 点 
镜像 了 另 一 个 Web 站 点 的 内 容 ， 这 种 情况 就 会 发 生 。 在 这 种 情形 下 ， 返 回 一 个 排名 很 高 的 文档 的 多 个 
副本 作为 多 个 独立 的 答案 是 没有 道理 的 ; 重复 的 文档 应 当 去 除 ， 应 当 仅仅 返回 一 个 副本 作为 答案 。 


21.3 使 用 超 链 接 的 相关 性 


早期 的 Web 搜索 引擎 仅 使 用 像 21. 2 节 描 述 的 那些 基于 TF-IDF 的 相关 性 度量 来 对 文档 排名 。 然 而 ， 
当 在 非常 庞大 的 文档 集合 (比如 所 有 Web 页 面 的 集合 ) 上 使 用 这 些 技术 时 ， 这 些 技术 就 会 有 一 些 局 限 
性 。 特 别 是 许多 Web 页 面 都 含有 一 个 典型 的 搜索 引擎 查询 所 指定 的 所 有 关键 字 ， 而 用 户 真 正 需要 的 一 
些 页 面 常常 只 出 现 几 次 这 些 查询 术语 ， 因 此 不 会 得 到 一 个 很 高 的 TF-IDF 得 分 。 

但 是 ， 研 究 人 员 很 快意 识 到 Web 页 面具 有 纯 文 本 文档 所 没有 的 非常 重要 的 信息 ， 即 超 链 接 。 可 以 
使 用 这 些 链接 来 获得 更 好 的 相关 性 排名 。 特 别 是 一 个 页 面 的 相关 性 排名 会 受到 那些 指向 该 页 面 的 超 链 
接 的 巨大 影响 。 本 节 研 究 如 何 利用 超 链 接 来 对 Web 页 面 进行 排名 。 

21.3.1 流行 度 排名 

流行 度 排名 (popularity ranking， 也 称 为 威望 度 排 名 (prestige ranking) ) 的 基本 思想 是 找到 流行 的 页 
面 ， 并 且 把 它们 的 位 置 排 在 同样 包含 指定 关键 字 的 其 他 页 面 之 前 。 由 于 大 多 数 搜索 是 为 了 从 一 些 较 流 
行 的 页 面 中 找到 信息 ， 因 此 把 那些 流行 的 页 面 排 在 靠 前 的 位 置 一 般 来 说 是 一 个 好 主意 。 例 如 ， 术 语 
“google” 可 能 在 大 量 的 页 面 中 出 现 , 但 在 所 有 那些 含有 术语 “ google” 的 页 面 中 ， 页 面 google. com 是 最 流 
行 的 一 个 。 因 此 对 于 一 个 含有 术语 “ google” 的 查询 来 说 ， 页 面 google. com 应 该 排名 为 与 之 最 相关 的 
答案 。 

对 某 个 页 面 的 相关 性 度量 的 传统 方法 ， 比 如 我 们 在 21. 2 节 所 看 到 的 基于 TF-IDF 的 度量 方法 ， 可 
以 与 该 页 面 的 流行 度 相 结合 ， 从 而 得 出 对 于 相应 查询 的 页 面 的 相关 性 的 总 体 度 量 。 具 有 最 高 总 体 相关 
性 度量 值 的 页 面 会 作为 查询 的 最 优 答案 而 返回 。 

这 引出 了 如 何 定义 以 及 如 何 发 现 页 面 流 行程 度 的 问题 。 一 种 方法 是 找 出 一 个 页 面 被 访问 的 次 数 ， 
使 用 这 个 数 来 度量 站 点 的 流行 程度 。 然 而 ,没有 该 站 点 的 配合 是 不 可 能 获得 这 类 信息 的 ， 而 且 即 便 一 
些 站 点 愿意 公开 这 类 信息 ， 向 所 有 站 点 获取 该 信息 是 困难 的 。 站 点 甚至 会 提供 虚假 的 关于 访问 频率 的 
信息 ， 以 使 得 自己 的 排名 提高 。 

一 个 非常 有 效 的 替代 方法 是 使 用 指向 一 个 页 面 的 超 链接 来 度量 其 流行 度 。 许 多 人 都 有 书签 文件 ， 
里 面包 含 指向 他 们 经 常 使 用 的 站 点 的 链接 。 出 现在 大 量 书签 文件 中 的 站 点 可 以 被 推断 为 是 非常 流行 的 
站 点 。 书 签 文件 通常 都 是 私下 进行 存储 的 ， 是 不 能 在 Web 上 得 到 的 。 然 而 ， 确 实 有 许多 用 户 ， 他 们 维 
护 着 含有 指向 他 们 最 喜欢 的 Web 页 面 的 链接 的 Web 页 面 。 许 多 Web 站 点 也 含有 指向 其 他 相关 站 点 的 
链接 ， 而 这 些 链 接 也 可 以 用 来 推断 那些 链接 所 指向 站 点 的 流行 度 。Web 搜索 引擎 可 以 取得 Web 页 面 
(通过 一 种 称 为 抓 取 的 过 程 ， 我 们 会 在 21.7 节 描 述 ) ， 分 析 它 们 以 便 找 出 这 些 页 面 间 的 链接 。 

估计 一 个 页 面 的 流行 度 的 第 一 个 方法 是 使 用 链接 到 该 页 面 的 页 面 数目 作为 其 流行 度 的 度量 。 然 而 ， 
这 种 方法 自身 有 其 缺点 : 许多 站 点 包含 很 多 有 用 的 页 面 ， 但 是 外 部 的 链接 通常 仅仅 指 到 该 站 点 的 根 页 
面 。 根 页 面 则 包含 到 该 站 点 的 其 他 页 面 的 链接 。 这 样 ， 这 些 其 他 的 页 面 会 被 误 认 为 不 是 非常 流行 ， 于 
是 在 回答 查询 的 时 候 会 得 到 一 个 较 低 的 排名 。 

一 种 替代 方法 是 将 流行 度 与 站 点 相关 联 ， 而 不 是 和 页 面相 关联 。 一 个 站 点 的 所 有 页 面 获得 该 站 点 
的 流行 度 。 一 个 流行 的 站 点 上 的 除根 页 面 之 外 的 页 面 也 会 从 该 站 点 的 流行 度 中 受益 。 然 而 ， 这 又 会 引 
出 一 个 问题 : 是 什么 构成 了 一 个 站 点 呢 ? 通常 来 说 ， 一 个 页 面 的 URL 的 Internet 地 址 前 组 就 构成 了 对 
应 于 该 页 面 的 站 点 。 然 而 ， 有 许多 站 点 都 含有 大 量 的 几乎 不 相关 的 页 面 ， 比 如 说 大 学 的 主页 服务 器 和 
门户 网 站 ， 比 如 groups. yahoo. com 或 groups. google. com。 对 于 这 些 网 站 来 说 ， 其 网 站 中 一 部 分 内 容 的 流 
行 度 并 不 能 暗示 该 网 站 另 一 部 分 内 容 的 流行 度 。 

还 有 一 种 更 简单 的 替代 方法 ， 它 允许 从 流行 页 面 到 它们 链接 到 的 页 面 间 进 行 威望 度 的 传递 
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(transfer of prestige) 。 在 这 种 模式 下 ， 与 民主 主义 一 人 一 票 的 原则 不 同 ， 从 一 个 流行 页 面 x 指 向 页 面 
y 的 一 个 链接 与 从 一 个 不 是 那么 流行 的 页 面 z 指向 页 面 y 的 链接 相 比 ， 前 者 会 把 更 多 的 威望 度 赠 予 页 
Wy. ~ 

这 个 流行 度 的 概念 事实 上 形成 了 一 个 循环 定义 ， 由 于 一 个 页 面 的 流行 度 是 由 其 他 页 面 的 流行 度 来 

921] 定义 的 ， 在 页 面 之 间 可 能 会 出 现 链接 的 循环 。 然 而 ， 页 面 的 流行 度 可 以 通过 线性 联 立 方程 组 来 定义 ， 
它 可 以 使 用 和 矩阵 操作 技术 来 求解 。 定 义 线性 方程 组 的 方式 可 以 使 其 有 一 个 唯一 并 且 良 好 定义 的 解 。 

有 趣 的 是 ， 我 们 注意 到 强调 流行 度 排名 的 基本 想法 实际 上 是 相当 老 的 ， 它 在 20 世纪 50 年 代 就 在 
社会 学 家 发 展 起 来 的 社会 网 络 理论 中 首次 出 现 。 在 社会 网 络 环境 中 ,目标 是 定义 人 们 的 威望 度 。 举 个 
例子 : 由 于 许多 人 都 认识 美国 总 统 ， 因 此 他 的 威望 度 会 很 高 。 如 果 多 个 有 威望 的 人 都 认识 某 人 人 ， 那 么 
这 个 人 的 威望 度 也 会 很 高 ， 即 使 没有 很 多 人 认识 她 。 使 用 线性 联 立方 程 组 来 定义 流行 度 度量 也 可 以 追 
漳 到 这 个 工作 。 

21.3.2 PageRank 

Web 搜索 引擎 Google 引入 了 PageRank ， 这 是 一 个 页 面 流行 度 的 度量 ， 它 是 基于 指向 该 页 面 的 页 面 
的 流行 度 的 页 面 流 行 度 度量 。 利 用 PageRank 流行 度 度量 来 对 一 个 查询 的 应 答 进行 排名 可 以 使 得 到 的 结 
果 大 幅 优 于 以 前 使 用 过 的 排名 技术 所 得 到 的 结果 ， 以 至 于 Google 能 在 非常 短 的 时 间 内 成 为 使 用 最 广泛 
的 搜索 引擎 。 

PageRank 可 以 使 用 随机 游 走 模 型 (random walk model) 来 直观 地 理解 。 假 设 一 个 正在 上 网 的 人 在 
Web 页 面 上 进行 如 下 所 述 的 随机 游 走 ( 周游): 首先 从 一 个 随机 的 Web 页 面 开 始 第 一 步 ， 而 每 一 步 随机 
游 走 者 采取 下 述 策略 之 一 。 游 走 者 以 5 的 概率 跳 到 一 个 随机 选择 的 Web 页面， 还 有 就 是 游 走 者 以 
1 -6 的 概率 从 当前 Web 页 面 中 随机 选择 一 个 链 向 外 部 的 链接 并 打开 该 链接 。 这 样 ， 一 个 页 面 的 
PageRank 就 是 随机 游 走 者 在 任意 一 个 给 定 的 时 间 点 访问 页 面 的 概率 。 

注意 到 许多 Web 页 面 指向 的 那些 页 面 更 有 可 能 被 访问 到 ， 因 此 这 些 页 面 就 会 有 一 个 更 高 的 
PageRank。 类 似 地 ， 具 有 高 PageRank 的 Web 页 面 所 指向 的 页 面 ， 被 访问 到 的 概率 也 较 高 ， 这 样 ， 它 们 
就 会 有 一 个 更 高 的 PageRank, 

PageRank 可 以 使 用 如 下 所 述 的 一 组 线性 方程 来 定义 。 首 先 ，Web 页 面 被 赋予 整数 标识 符 。 这 样 定 
义 跳 转 概率 矩阵 7 : 将 Tli, 刀 设 为 一 个 正在 沿 着 从 页 面 ; 引 出 的 链接 前 进 的 随机 游 走 者 沿 链接 走向 页 
面 j 的 概率 。 假 定 从 i 出 发 的 每 个 链接 都 是 等 概率 的 : Tli, 7] =1/N,, OPN, 是 页 面 i 引 出 的 链接 数 
目 。 和 矩阵 了 中 的 多 数 元 素 为 0， 因 此 最 好 用 邻接 表 来 表示 。 这 样 ， 页 面 ) 的 PageRank PLj] 可 以 定义 为 : 


P[j] = &/N + (1 -8) * $ (T[i j] *P[i]) 


其 中 6 是 0~1 之 间 的 一 个 常数 ，N 是 页 面 数 目 ; 5 代表 随机 游 走 过 程 中 某 一 步 为 跳 转 的 概率 。 

如 上 产生 的 方程 组 通常 使 用 迭代 技术 求解 ， 从 令 PLU SE IN 开始 。 和 迭代 过 程 的 每 一 步 利 用 前 次 

[922] 迭代 产生 的 P 的 值 计算 P[ 让 的 新 值 。 当 在 某 次 迭代 中 任意 PLi] 值 上 发 生 的 最 大 变化 低 于 某 个 临界 值 

时 ， 和 迭代 过 程 停止 。 
21.3.3 其 他 的 流行 度 度量 

像 PageRank 这 样 基本 的 流行 度 度量 在 对 查询 结果 排名 过 程 中 扮演 了 重要 的 角色 ,但 绝 不 是 唯一 的 
因素 。 页 面 的 TF-IDF 得 分 用 来 判断 其 对 于 查询 关键 字 的 相关 程度 ， 它 必须 与 流行 度 排名 结合 起 来 。 其 
他 因素 也 必须 考虑 在 内 ， 以 便 处 理 PageRank 以 及 相关 的 流行 度 度量 的 局 限 性 。 

有 关 站 点 被 访问 的 频繁 程度 的 信息 是 一 个 非常 有 用 的 流行 度 的 度量 , 但 是 正如 前 文 所 述 ， 这 一 信 
息 往 往 是 难以 获得 的 。 不 过 ， 对 于 作为 返回 结果 的 网 页 链接 ， 搜 索引 擎 的 确 记录 了 该 网 页 被 点 击 的 频 
度 比 例 。 这 个 比例 可 以 用 于 站 点 流行 度 的 度量 。 为 了 记录 该 频 度 比 例 ， 搜 索引 擎 不 直接 返回 指向 目标 








O 在 某 种 意义 上 ， 这 与 对 名 人 (如 电影 明星 ) 对 某 个 产品 的 认可 给 予 额外 的 权重 很 相似 ， 因 此 ， 虽 然 在 实践 中 它 是 
有 效 的 且 已 经 得 到 广泛 使 用 ， 其 意义 仍然 是 值得 商检 的 。 
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网 页 链接 ， 而 是 提供 一 个 经 过 搜索 引擎 自身 站 点 指向 目标 网 页 的 间接 链接 。 搜 索引 擎 通过 该 间接 链接 
记录 了 页 面 的 点 击 行为 ， 并 且 浏 览 器 被 透明 地 重 定向 至 原始 链接 。 

PageRank 算法 的 一 个 缺点 就 是 它 设 定 了 一 个 流行 度 度量 ， 而 这 个 度量 并 不 把 查询 关键 字 纳入 考虑 
范围 之 内 。 例 如 : 页 面 google. com 很 可 能 有 一 个 非常 高 的 PageRank ， 因 为 许多 站 点 都 包含 指向 其 的 链 
接 。 假 设 它 包 含 一 个 顺便 提 到 的 词 ， 比 如 "Stanford”( 多 年 前 Google 的 高 级 搜索 页 面 确实 包含 这 个 词 ) 。 
一 个 对 于 关键 字 Stanford 的 查询 就 会 把 google. com 作为 排名 最 高 的 结果 返回 ， 排 在 更 相关 的 结果 (如 
Stanford 大 学 的 主页 ) 之 前 。 

一 个 广泛 使 用 的 解决 这 个 问题 的 方法 是 : 利用 指向 某 个 页 面 的 链接 的 锚 文 本 中 的 关键 字 来 判断 该 
页 面 与 什么 话题 高 度 相 关 。 链 接 的 锚 文本 由 出 现在 HTML 的 a href 标签 中 的 文本 组 成 。 例 如 : 链接 

<a href= "http: //stanford. edu" > Stanford University </a > 
EM) ii SCE EAE“ Stanford University”。 如 果 某 站 点 有 许多 指向 stanford. edu 的 链接 在 它们 的 锚 文本 中 出 现 
Stanford 这 个 词 ， 那 么 该 页 面 就 可 以 被 判断 为 是 与 关键 字 Stanford 非常 相关 的 。 锚 文本 附近 的 文本 也 可 
以 考虑 进来 。 例 如 ， 某 个 Web 站 点 可 能 会 含有 文本 ”Stanford's home page is here”， 但 是 它 仅 仅 使 用 了 
“here" 这 个 词 作为 指向 Stanford 的 Web 站 点 的 链接 的 锚 文本 。 

基于 鳃 文本 的 流行 度 和 其 他 流行 度 度量 ， 以 及 TF-IDF 度量 结合 起 来 ， 就 得 到 一 个 查询 应 答 的 整体 
排名 (将 于 21.3.5 节 中 讲述 ) 。 作 为 一 种 实现 技巧 ， 出 现在 锚 文本 中 的 词 常常 被 视 为 页 面 的 一 部 分 ; 其 [923] 
词 频 是 根据 所 在 页 面 的 流行 度 来 计算 的 。 而 后 ，TF-IDF 排名 方法 自动 地 将 这 些 词 考虑 在 内 。 

定义 流行 度 时 ， 作 为 一 个 替代 方法 ,我 们 可 以 把 关键 字 考 虑 进来 ， 就 是 仅仅 利用 那些 包含 查询 关 
键 字 的 页 面 来 计算 某 个 流行 度 的 度量 ， 而 不 是 使 用 所 有 可 得 到 的 Web 页 面 计算 流行 度 。 这 个 方法 代价 
更 高 ， 因 为 流行 度 排名 的 计算 必须 在 得 到 每 个 查询 时 动态 地 执行 ， 而 PageRank 是 静态 地 计算 一 次 ， 然 
后 被 所 有 查询 复 用 。Web 搜索 引擎 每 天 处 理 数 十 亿 计 的 查询 ， 它 们 承担 不 起 花费 那么 多 时 间 用 来 回答 
一 个 查询 的 代价 。 结 果 是 ， 虽 然 这 个 方法 能 够 得 到 更 好 的 结果 ， 但 是 使 用 得 并 不 非常 广泛 。 

HITS 算法 就 是 基于 上 面 的 想法 : 首先 找到 包含 查询 关键 字 的 的 页 面 ， 然 后 就 利用 这 些 有 关 页 面 集 
合计 算 流行 度 度 量 。 此 外 ， 它 还 引入 了 链接 中 心 和 权威 页 的 概念 。 一 个 链接 中 心 (hub) 是 一 个 存储 了 
到 许多 有 关 页 面 的 链接 的 页 面 ， 它 可 能 本 身 并 不 包含 实际 的 主题 信息 ， 而 是 指向 包含 实际 信息 的 页 面 。 
比较 而 言 ， 一 个 权威 页 (authority ) 是 一 个 包含 了 实际 主题 信息 的 页 面 ， 虽 然 它 可 能 并 不 包含 指向 许多 有 
关 页 面 的 链接 。 这 样 每 个 页 面 得 到 了 作为 链接 中 心 的 一 个 威望 值 ( 链 接 中 心 威望 ) 和 作为 权威 页 的 另 一 
个 威望 值 ( 权 成 页 成 望 )。 像 以 前 一 样 ， 威望 的 定义 是 循环 的 ,并且 是 由 线性 联 立方 程 组 定义 的 。 若 一 
个 页 面 指向 许多 具有 高 权威 页 威望 的 页 面 ， 则 该 页 面 得 到 较 高 的 链接 中 心 威望 ; 若 一 个 页 面 被 许多 具 
有 高 链接 中 心 威望 的 站 点 所 链接 ， 则 该 页 面 得 到 较 高 的 权威 页 威望 。 对 于 给 定 的 一 个 查询 ， 具 有 高 权 
威 页 威望 的 页 面 的 排名 比 其 他 页 面 要 高 。 对 于 进一步 细节 请 参考 文献 注解 。 


21.3.4 BRS See 

#2 5] HEH (search engine spamming) 指 的 是 尝试 建立 Web 页 面 或 页 面 集合 ， 其 被 设计 用 来 使 得 
站 点 对 于 某 些 查询 得 到 一 个 高 的 相关 度 排名 ， 即 使 这 些 站 点 实际 上 并 不 是 流行 的 站 点 。 例 如 : 一 个 旅 
游 站 点 想 对 于 含有 关键 字 * 旅游” 的 查询 得 到 高 排名 。 它 可 以 通过 在 其 页 面 中 重复 多 次 "旅游 "这 个 词 来 
得 到 高 的 TF-IDF 得 分 。? 即 使 一 个 与 旅游 无 关 的 站 点 ， 比 如 一 个 色情 站 点 ， 也 可 以 这 么 做 ,然后 会 在 
对 于 旅游 这 个 词 的 查询 上 排名 较 高 。 事 实 上 ， 这 种 对 于 TF-IDF YE MEE BAAS Web 搜索 中 非常 常见 。 
在 这 些 作 闲 站 点 与 那些 试图 发 现 作弊 行 为 并 拒绝 给 它们 高 排名 的 搜索 引擎 之 间 曾 经 有 一 场 旷 日 持久 的 





昌 、 有 了 时候 这 个 间接 链接 对 用 户 是 隐藏 的 。 比 如 当 你 把 鼠标 指针 指向 Google 查询 结果 中 的 一 个 链接 ( 比如 db-book. 
com) ， 这 个 链接 就 会 直接 显示 到 那个 网 站 。 尽 管 如 此 ， 至 少 在 2009 年 中 旬 ， 实 际 上 当 你 点 击 一 个 链接 的 时 候 ， 
结果 页 中 的 Javascript 代码 会 重 写 该 链接 ， 使 其 通过 Google 站 点 间接 地 访问 目标 链接 。 如 果 你 使 用 浏览 器 中 的 后 
退 按钮 后 退 到 查询 结果 页 面 ， 并 且 用 鼠标 指向 那个 链接 ， 那 么 该 链接 的 URL 就 可 见 了 。 

OQ Web 页 面 中 的 重复 词 会 误导 用 户 ; 作弊 者 能 够 解决 这 个 问题 。 对 于 一 个 相同 的 URL， 他 们 向 搜索 引擎 和 其 他 用 
户 递交 不 同 的 页 面 ; 或 者 让 这 些 重复 词 不 可 见 ， 例 如 把 这 些 词 用 小 的 白色 字体 显示 在 白色 背景 之 上 。 
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战争 。 
诸如 PageRank 这 样 的 流行 度 排名 模式 使 得 搜索 引 警 作 准 行为 更 加 难以 实施 ， 这 是 由 于 仅仅 依靠 重 


[924] 复 词 来 得 到 TF-IDF 高 分 已 经 不 够 了 。 然 而 ， 即 使 这 些 技术 也 还 是 有 可 能 使 用 作弊 来 欺骗 的 : 通过 建立 


925 


一 个 彼此 互相 指向 的 Web 页 面 的 集合 来 增加 它们 的 流行 度 排名 。 诸 如 使 用 站 点 而 不 是 页 面 作为 排名 单 
元 (选择 适度 规范 化 的 跳 转 概率 ) 的 技术 已 经 提出 ， 用 来 避免 某 些 作 炊 技 术 , 但 是 对 其 他 作 熔 技术 并 不 
是 足够 有 效 。 搜 索引 擎 作弊 者 与 搜索 引擎 之 间 的 战争 即使 到 了 今天 还 依然 在 延续 。 

HITS 算法 的 链接 中 心 与 权威 页 方法 更 容易 受到 作弊 行为 的 影响 。 作 棘 者 可 以 建立 一 个 包含 指向 关 
于 某 个 主题 的 好 的 权威 页 的 链接 的 Web 页面， 从 而 使 该 页 面 得 到 一 个 高 的 链接 中 心 分 数 。 此 外 ， 作 次 
者 的 Web 页 面包 括 链接 ， 这 些 链 接 指 向 的 是 他 们 希望 流行 起 来 的 页 面 ， 但 是 与 这 个 主题 并 不 是 很 相 
关 。 因 为 这 些 链 接 的 页 面 被 一 个 具有 高 链接 中 心 分 数 的 页 面 所 指向 ， 所 以 这 些 页 面 会 得 到 一 个 高 的 但 
不 是 应 得 的 权威 页 分 数 。 

21.3.5 将 TF-IDF 和 流行 度 排名 度量 方法 结合 
我 们 已 经 探讨 过 了 两 种 广泛 应 用 于 排名 的 特征 ， 即 TF-IDF 和 流行 度 ( 如 PageRank), TF-IDF 本 身 
已 经 综合 反映 了 许多 因素 ， 包 括 原始 术语 频 度 、 逆 文档 频率 、 在 指向 另 一 页 面 的 锚 文 本 中 出 现 的 术语 ， 
以 及 一 组 其 他 的 因素 ， 例 如 出 现在 标题 中 的 术语 出 现在 文档 前 部 的 术语 以 及 较 大 字体 的 术语 等 。 

如 何 将 从 各 个 因素 得 来 的 页 面 的 各 种 分 值 结合 起 来 ， 从 而 产生 出 一 个 全 局 的 评价 是 信息 检索 系统 
需要 解决 的 一 个 重要 问题 。 在 搜索 引擎 初期 ， 人 们 创造 函数 式 来 将 诸多 分 值 整合 为 一 个 全 局 分 数 。 但 
是 当今 的 搜索 引擎 应 用 机 器 学 习 的 方法 来 决定 如 何 获得 整合 分 数 。 典 型 地 ， 分 值 合并 公式 是 固定 的 ， 
但 是 公式 以 不 同 评分 因素 的 权重 作为 参数 。 通 过 使 用 由 人 工 排名 得 到 的 查询 结果 作为 训练 数据 集 ， 机 
器 学 习 算 法 可 以 计算 出 在 多 个 查询 上 表现 最 佳 的 每 个 评价 因素 的 权重 的 值 。 

我 们 注意 到 ， 多 数 搜索 引擎 并 不 公开 他 们 如 何 计 算 相 关 性 排名 ; 他 们 认为 公开 排名 技术 将 会 有 利 
于 竞争 者 赶 超 自 己 ， 并 且 使 得 搜索 引擎 欺骗 行为 更 加 容易 实现 ， 这 将 导致 更 差 的 搜索 结果 质量 。 


21.4 同义词 、 多 义 词 和 本 体 


考虑 利用 查询 “摩托 车 维护 ”查找 关于 摩托 车 维护 的 文档 的 问题 。 假 定 每 份 文档 的 关键 字 是 标题 中 
的 词 和 作者 名 ， 那 么 标题 是 摩托 车 维修 的 文档 将 不 会 被 找 出 ， 因 为 “维护 ”这 个 词 并 没有 在 它 的 标题 中 
出 现 。 

我 们 可 以 采取 使 用 同义词 (synonym ) 的 方法 解决 这 个 问题 。 对 每 个 词 都 可 以 定义 一 组 同义词 ， 每 个 
词 出 现时 都 可 以 被 它 的 所 有 同义词 (包括 它 自己 ) 的 or 所 人 代替。 于是， 查询“ 摩托 车 and 维修 "被 替换 为 
“摩托 车 and (维修 or 维护 )”， 这 个 查询 就 可 以 找 出 所 要 的 文档 了 。 

基于 关键 字 的 查询 还 受到 一 个 相反 问题 一 一 多 义 词 (homonym ) 的 困扰 ， 多 义 词 是 指 一 个 单词 具有 
多 种 含义 ， 例 如 ， 单词 object 作为 名 词 和 动词 具有 不 同 含义 。 单 词 table 可 以 指 一 个 饭桌 ， 也 可 以 是 关 
系数 据 库 中 的 一 个 表 。 

事实 上 ， 使 用 同义词 扩展 查询 是 有 和 危险 的 : 同义词 自身 可 能 含有 不 同 的 含义 。 例 如 :“allowance” 
对 于 “ maintenance” 这 个 词 的 其 中 一 个 意思 来 说 是 同义词 ,但 是 与 查询 “motorcycle maintenance” 中 用 户 想 
要 的 意思 不 同 。 使 用 了 与 用 户 想 要 的 不 同 含义 的 同义词 的 文档 也 被 检索 到 。 这 样 用 户 会 感到 惊奇 : 如 
果 一 个 特定 的 检索 到 的 文档 (例如 使 用 “allowance” 这 个 词 ) 既 不 包含 用 户 指定 的 关键 字 ， 也 不 包含 那些 
在 文档 中 意 指 的 含义 与 指定 关键 字 同 义 的 词 ， 为 什么 系统 会 认为 这 份 特定 的 文档 是 相关 的 。 因 此 ， 不 
首先 向 用 户 验证 同义词 的 含义 就 使 用 同义词 扩展 查询 不 是 个 好 主意 。 

对 于 上 述 问题 的 一 个 更 好 的 方法 是 使 系统 能 够 理解 文档 中 的 每 个 词 代 表 什么 概念 (concept) ， 类 似 
地 ,使 系统 理解 用 户 在 寻找 什么 概念 ， 并 且 返 回 阐释 了 用 户 感 兴趣 的 概念 的 文档 。 支 持 基于 概念 的 查 
询 (concept-based querying) 的 系统 必须 分 析 每 份 文档 ， 消 除 文 档 中 每 个 词 的 歧义 ,并 用 其 所 代表 的 概念 
替换 它 。 消 除 歧义 通常 通过 查看 文档 中 该 词 周 围 的 其 他 词 来 完成 。 例 如 : 如 果菜 份 文档 包含 诸如 “数据 
Be” a" Ari)” SOREN], ABA table 这 个 词 很 可 能 该 被 "table: data” (数据 表 ) 概念 替代 ， 而 如 果 某 份 文 
档 在 tabe 这 个 词 附近 包含 诸如 家 具 、 椅 子 或 木头 这 样 的 词 ， 那 么 table 这 个 词 该 被 "table: furniture” # 
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念 蔡 代 。 由 于 查询 只 包含 非常 少 的 几 个 词 ， 因 此 基于 附近 词 消除 歧义 对 于 用 户 查询 来 说 通常 更 加 困难 。 
因此 基于 概念 的 查询 系统 会 提供 好 几 个 替代 概念 给 用 户 ， 由 用 户 在 搜索 继续 之 前 选择 一 个 或 多 个 概念 。 

基于 概念 的 查询 有 几 个 优点 : 例如 某 种 语言 的 查询 可 以 检索 到 其 他 语言 的 文档 ， 只 要 它们 是 关于 
同一 个 概念 的 。 如 果 用 户 不 懂 文 档 所 使 用 的 语言 ， 那 么 接 下 来 就 可 以 使 用 自动 翻译 机 制 。 然 而 ， 当 处 
理 数 十 亿 文 档 时 ， 对 文档 进行 处 理 来 消除 词 的 歧义 的 代价 是 非常 高 的 。 因 此 ， 互 联网 搜索 引擎 原本 通 
常 不 支持 基于 概念 的 查询 。 不 过 ， 基 于 概念 的 查询 正在 快速 地 引起 越 来 越 多 的 兴趣 。 基 于 概念 的 查询 
系统 已 经 建成 ， 并 已 用 于 其 他 大 型 的 文档 集合 。 

基于 概念 的 查询 可 以 通过 开发 概念 层次 来 进一步 扩展 。 例 如 ， 假 设 某 人 发 出 了 一 个 查询 “会 飞 的 动 
物 ”， 一 个 包含 有 关 ”* 会 飞 的 哺乳 动物 "的 信息 的 文档 当然 是 相关 的 ， 因 为 哺乳 动物 也 是 动物 。 然 而 ， 
这 两 个 概念 是 不 一 样 的 ， 于 是 仅仅 概念 的 匹配 不 会 允许 该 文档 作为 结果 返回 。 基 于 概念 的 查询 系统 能 
够 支持 基于 概念 层次 的 文档 检索 。 

本 体 (ontology ) 是 反映 概念 间 联 系 的 层次 结构 。 最 常用 的 联系 是 is-a 联系 。 例 如 ， 美 洲 豹 s-a 哺乳 
动物 ， 哺 乳 动物 is-a 动物 。 其 他 联系 (诸如 part-of) 也 是 有 可 能 出 现 的 ， 例 如 ， 机 可 是 part-of KHL 

WordNet 系统 利用 相互 联系 的 词 (在 WordNet 术语 中 称 为 一 个 合集 ) 定 义 了 大 量 的 概念 。 与 一 个 合 
集 相互 联系 的 词 是 一 个 概念 的 同义词 ， 一 个 词 当然 可 能 是 好 几 个 不 同 概念 的 同义词 。 除 了 同义词 之 外 ， 
WordNet 还 定义 了 多 义 词 和 其 他 联系 。 特 别 是 ， 它 定义 的 is-a 和 part-of 联系 用 来 连接 概念 ， 并 有 效 定 
义 了 一 个 本 体 。Cyc 工程 是 建立 本 体 的 另 一 项 努力 。 

除了 语言 级 别 的 本 体 ， 针 对 特定 领域 可 以 定义 不 同 本 体 ， 用 来 处 理 与 那些 领域 相关 的 术语 。 例 如 ， 
商业 领域 的 本 体 已 经 建立 起 来 ， 用 来 标准 化 其 术语 。 对 于 为 解决 订单 处 理 和 其 他 组 织 间 数 据 流 的 处 理 
建立 标准 下 层 基 础 ， 这 是 至 关 重 要 的 一 步 。 又 如 ， 一 个 医药 保险 公司 需要 从 医院 获取 包含 诊断 信息 和 
治疗 信息 的 资料 。 能 够 使 术语 标准 化 的 本 体 可 以 帮助 医院 工作 人 员 无 歧义 地 理解 这 些 资 料 。 这 将 极 大 
地 帮助 资料 分 析 ， 例 如 ， 跟 踪 一 段 特 定时 间 内 某 种 疾病 的 病例 发 生 的 数目 。 

建立 链接 多 种 语言 的 本 体 也 是 有 可 能 的 。 例 如 ，WordNet 系统 已 经 针对 不 同 语言 建立 起 来 了 ， 语 
言 间 的 共同 概念 能 够 互相 链接 。 这 样 一 个 系统 可 以 用 来 完成 文本 的 翻译 。 在 信息 检索 的 上 下 文 环境 中 ， 
多 语言 的 本 体 可 以 用 来 实现 多 种 语言 文档 间 基 于 概念 的 搜索 。 

在 使 用 本 体 来 进行 基于 概念 的 查询 方面 的 最 大 努力 在 于 语义 网 络 (Semantic Web)。 语 义 网 络 是 由 
万 维 网 联盟 ( World Wide Web Consortium) 倡 导 的 。 它 包含 一 组 能 够 以 基于 语义 或 含义 的 方式 将 Web 上 
的 数据 连接 起 来 的 工具 、 标 准 以 及 语言 。 与 存储 于 集中 的 存储 仓库 不 同 的 是 , 语义 网 络 被 设计 为 允许 
如 同 万 维 网 那样 的 分 散 的 、 分 布 式 的 增长 。 这 一 特点 成 就 了 万 维 网 的 成 功 。 做 到 这 一 点 的 关键 在 于 集 
成 多 个 分 布 式 本 体 的 能 力 。 于 是 ， 任 何 可 以 访问 互联 网 的 用 户 都 可 以 向 语义 网 络 添加 数据 。 


21.5 文档 的 索引 


一 个 有 效 的 索引 结构 对 于 信息 检索 系统 查询 的 高 效 处 理 是 十 分 重要 的 。 包 含 指定 关键 字 的 文档 可 
以 通过 使 用 倒 排 索引 (inverted index) 来 高 效 地 定位 。 倒 排 索引 将 每 个 关键 字 K; 映射 到 包含 K 的 文档 的 
列表 (文档 标识 的 列表 ) S; Eo Ai, WRX di, dy Al da W A AIA “ Silberschatz”, ABA A if 
Silberschatz 的 倒 排 表 则 表示 为 “d, 3 dy; d, ”。 为 了 支持 基于 关键 字 相 似 性 的 相关 度 排名 ， 这 样 的 索引 
可 能 不 只 提供 文档 标识 ， 还 提供 关键 字 在 文档 中 出 现 位置 的 列表 。 例 如 ,“Silberschatz "出 现在 文档 d, 
的 第 21 个 位 置 ,文档 d, 的 第 1 和 19 个 位 置 上 以 及 文档 d 的 第 4、29 、46 个 位 置 上 ; 那么 带 有 位 置信 
息 的 倒 排 表 将 是 :“d,/21; do/1, 19; 7M4，29，46"”。 倒 排 表 也 可 以 包含 文档 的 术语 频率 。 

这 些 索 引 都 必须 存储 在 磁盘 上 ， 每 个 列表 S 都 可 能 分 布 在 多 个 磁盘 页 上 。 为 了 最 小 化 检索 每 个 列 
表 5; 所 需要 的 VO 操作 次 数 ， 系 统 可 能 试图 将 每 份 文档 列表 5; 保存 在 一 组 连续 的 磁盘 页 上 ， 这 样 ， 仅 
通过 一 次 磁盘 寻 道 就 可 以 检索 到 整个 列表 。B ` 树 索 引 可 以 用 来 把 每 个 关键 字 K 映射 到 与 其 关联 的 倒 
HK S, 上 。 

and 操作 用 来 找 出 包含 一 个 给 定 的 关键 字 集合 中 所 有 关键 字 K, K, ，…， 天 ,的 文档 。 实 现 and 操 
作 时 ， 我 们 首先 检索 出 分 别 包含 各 个 关键 字 的 所 有 文档 的 文档 标识 集 S ,5,,… S, 。 集 合 的 交集 S NA 
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Sy N S, 给 出 了 所 求 的 文档 集合 的 文档 标识 。or 操作 用 来 给 出 至 少 包含 关键 字 K, ，K,，…，K, 中 的 
一 个 的 所 有 文档 的 集合 。 我 们 通过 计算 其 并 集 S, U 5,… U S, 来 实现 or 操作 。 not 操作 用 来 找 出 不 包含 
给 定 关键 字 K 的 文档 。 给 定 文档 标识 集合 S， 我 们 可 以 通过 求 差 $ - S, 去 掉 那 些 包含 指定 关键 字 K, 的 
文档 ， 其 中 5; 是 包含 关键 字 K 的 文档 标识 的 集合 。 

给 定 一 个 查询 中 的 关键 字 集 合 ， 许 多 信息 检索 系统 并 不 一 定 要 求 检索 到 的 文档 包含 所 有 的 关键 字 
(除非 明确 使 用 了 一 个 and 操作 ) 。 在 这 种 情况 下 ， 会 检索 所 有 包含 至 少 一 个 关键 字 的 文档 (如 同 or 操 
作 一样 ) ， 但 要 用 相关 度 度量 对 它们 进行 排名 。 

为 了 在 相关 度 排名 中 使 用 术语 频率 ， 索 引 结构 应 该 附加 地 维护 每 份 文档 中 术语 出 现 的 次 数 ， 为 了 
减少 这 种 开销 ， 可 以 使 用 一 种 只 使 用 少量 bit 位 的 压缩 表示 ， 用 于 对 术语 频率 的 近似 。 索 引 也 应 该 存储 
每 个 术语 的 文档 频率 ( 即 包含 该 术语 的 文档 个 数 ) 。 

如 果 流 行 度 排 名 独立 于 术语 索引 (如 PageRank 中 的 情况 ) ， 列 表 S, 可 以 根据 流行 度 排 名 ( 其次， 对 
于 流行 度 相 同 的 文档 ， 根 据 文档 id 排名 ) 。 这 样 ， 就 可 以 使 用 一 个 简单 的 合并 来 计算 and 和 or 操作 。 
对 于 and 操作 的 情况 ， 如 果 我 们 忽略 TF-IDF 对 于 相关 度 分 数 的 贡献 ， 仅 仅 要 求 文档 包含 给 定 关键 字 ， 
并 且 如 果 用 户 只 需要 前 天 个 答案 ， 那 么 一 旦 得 到 了 天 个 答案 ， 合 并 就 可 以 停止 了 。 一 般 而 言 ， 考 虑 了 
TF-IDF 分 数 后 ， 最 终 分 数 较 高 的 返回 结果 往往 也 具有 较 高 的 游行 度 分 数 ， 并 将 出 现在 结果 列表 的 前 
端 。 能 够 估计 剩余 结果 集 可 能 取得 的 最 高 分 数 的 技术 已 经 开发 出 来 。 这 些 技术 可 以 用 来 识别 尚未 处 理 
的 答案 已 不 可 能 成 为 前 天 个 答案 的 一 部 分 的 情况 。 这 样 ， 处 理 过 程 可 以 提早 结束 。 

但 是 ， 按 照 流行 度 分 数 对 答案 进行 排名 在 回避 长 倒 排 表 扫描 问题 时 并 不 非常 高 效 。 因 为 它 忽 略 了 
TF-IDF 分 数 的 贡献 。 一 种 可 行 的 处 理 方法 是 将 每 个 术语 的 倒 排 表 切 成 两 部 分 。 第 一 部 分 包含 拥有 高 
TF-IDF 分 值 的 文档 ( 例如， 该 术语 出 现在 标题 内 的 文档 或 者 包含 该 术语 的 锚 文 本 所 指向 的 文档 ) 。 第 二 
部 分 包含 所 有 的 文档 。 倒 排 表 的 两 部 分 均 可 按照 (流行 度 、 文 档 ID) 的 形式 有 序 存储 。 对 于 一 个 给 定 的 
查询 ， 通 过 合并 各 个 术语 的 倒 排 表 的 第 一 部 分 往往 会 得 到 一 些 具有 较 高 的 整体 分 数 的 答案 。 如 果 用 倒 
排 表 的 第 一 部 分 没有 找到 足够 多 的 高 分 数 答案 ， 倒 排 表 的 第 二 部 分 可 以 用 于 找到 所 有 的 剩余 的 答案 。 
如 果 某 份 文档 具有 较 高 的 TF-IDF 分 数 ， 使 用 合并 倒 排 表 第 一 部 分 的 方法 可 以 发 现 这 样 的 文档 。 相 关 文 
献 请 参考 文献 注解 。 


21.6 检索 的 有 效 性 度量 


每 个 关键 字 都 可 能 被 大 量 的 文档 所 包含 ， 因 此 紧凑 的 表示 是 减少 索引 占用 空间 的 关键 。 于 是 ， 对 
应 于 一 个 关键 字 的 文档 集合 以 一 种 压缩 的 形式 维护 。 这 样 可 以 节省 存储 空间 。 但 有 的 时 候 ， 索 引 的 这 
种 存储 方式 使 得 检索 只 是 近似 的 ; 有 一 些 相关 文档 可 能 没有 检索 到 ( 称 作 误 丢弃 ( false drop) RRS A 
(false negative) ) ; 或 检索 到 了 一 些 不 相关 的 文档 ( 称 作 误 选 中 (false positive) ) 。 一 个 好 的 索引 结构 将 不 
存在 任何 误 丢 弃 ， 但 可 以 有 一 些 误 选中 ， 因 为 系统 随后 可 以 通过 查看 文档 中 实际 包含 的 关键 字 来 滤 除 
它们 。 在 Web 索引 中 ， 也 不 希望 有 误 选 中 ， 因 为 可 能 无 法 迅速 地 存 取 实 际 的 文档 用 于 过 滤 。 
用 于 度量 一 个 信息 检索 系统 回答 查询 的 好 坏 的 度量 有 两 个 : 第 一 个 是 查 准 率 (precision ) ， 度 量 检 
索 到 的 文档 真正 与 查询 相关 的 百分比 ; 第 二 个 是 查 全 率 (recall) ， 度 量 与 查询 相关 的 文档 中 被 检索 到 的 
文档 所 占 百 分 比 。 理 想 情 况 下， 两 者 都 应 该 是 100% 。 
查 准 率 和 查 全 率 对 于 理解 一 个 特定 的 文档 排名 策略 执行 得 好 坏 也 是 两 个 重要 的 衡量 尺度 。 相 关 性 
排名 策略 可 能 带 来 误 舍弃 和 误 选 中 ， 但 在 一 个 更 微妙 的 意义 下 。 
© 当 对 文档 进行 相关 性 排名 时 ， 一些 相关 文档 可 能 排名 较 低 ， 这 就 会 发 生 误 舍 弃 。 如 果 我 们 取 来 
所 有 的 文档 (包括 那些 排名 很 低 的 文档 ) ， 则 只 会 有 很 少 的 误 舍 弃 。 然 而 ， 很 少 有 人 会 查看 最 先 
返回 的 数 十 个 以 外 的 文档 ， 因 此 可 能 错过 一 些 没有 排 在 前 面 的 相关 文档 。 事 实 上 ， 误 舍弃 的 多 
少 取决 于 查看 的 文档 的 多 少 。 因 此 ， 我 们 不 用 一 个 单独 的 数字 作为 查 全 率 的 度量 ,而 是 把 查 全 
率 的 度量 表示 为 取 回 的 文档 数量 的 一 个 函数 。 
© 当 不 相关 文档 比 相关 文档 排 在 更 前 面 时 会 发 生 误 选中 。 这 也 取决 于 查看 的 文档 的 多 少 。 可 以 选 
择 将 查 准 率 的 度量 作为 取 回 的 文档 数量 的 一 个 函数 。 
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一 个 更 好 且 更 直观 的 用 于 度量 查 准 率 的 可 选 方法 是 将 其 作为 查 全 率 的 一 个 函数 进行 度量 。 使 用 这 
种 结合 的 度量 方法 ， 如 果 需 要 ， 查 准 率 和 查 全 率 都 可 以 作为 文档 数量 的 函数 进行 计算 。 

例如 ， 我 们 可 以 说 当 查 全 率 为 50% 时 ， 查 准 率 是 75% ， 而 当 查 全 率 为 75% 时 ， 查 准 率 降低 到 
60% 。 一般 来 说 ， 我 们 可 以 画 一 张 关联 查 准 率 与 查 全 率 的 图 。 这 些 度量 可 以 针对 单个 查询 进行 计算 ， 
然后 在 查询 基准 测试 中 对 于 一 批 查询 来 求 平均 。 

然而 与 度量 查 准 率 和 查 全 率 相关 的 另 一 个 问题 在 于 如 何 定义 哪些 文档 是 真正 相关 的 ， 哪 些 不 是 。 
事实 上 ， 为 了 决定 一 份 文档 是 否 相关 ， 需 要 有 对 自然 语言 的 理解 和 对 查询 旨 在 理解 。 研 究 人 员 因 此 创 
建 了 文档 和 查询 的 集合 ， 并 人 工地 将 文档 标记 为 与 该 查询 相关 或 不 相关 。 不 同 的 相关 性 排名 系统 可 以 
运行 在 这 些 集合 之 上 ， 以 度量 它们 对 多 个 查询 的 平均 查 准 率 和 查 全 率 。 


21.7 Web 的 抓 取 和 索引 


MER (web crawler) 是 定位 和 收集 Web 上 的 信息 的 程序 。 它 们 沿 着 已 知 文档 中 存在 的 超 文本 链 
接 递 归 地 找到 其 他 文档 。 网 络 候 虫 从 一 组 可 由 人 工 设 定 的 初始 链接 开始 ， 依 据 URL 链接 抓 取 Web 上 的 
页 面 。 随 后 ， 息 虫 定位 抓 取 到 的 页 面 中 所 包含 的 所 有 URL 链接 信息 ， 如 果 这 些 链 接 所 指向 的 页 面 没 有 
被 抓 取 过 ， 而 且 也 不 存在 于 当前 的 待 抓 取 和 集合 中 ， 那么 候 虫 就 把 它们 加 入 到 待 抓 取 的 URL 链接 集合 
中 。 这 一 过 程 将 以 不 断 抓 取 待 抓 取 和 集合 中 的 页 面 并 处 理 这 些 页 面 中 的 链接 的 形式 反复 进行 。 通 过 重复 
以 上 过 程 ， 所 有 可 以 由 初始 集合 中 的 URL 出 发 以 任意 的 链接 顺序 到 达 的 页 面 都 将 最 终 被 抓 取 到 。 

由 于 Web 上 的 文档 数量 很 大 ， 因 此 要 想 在 短 时间 里 抓 取 整个 Web 是 不 可 能 的 。 实 际 上 ， 所 有 的 搜 
索引 擎 都 只 是 搜索 部 分 而 不 是 全 部 Web， 它 们 的 怜 虫 对 它们 覆盖 的 网 页 执行 一 次 单独 的 扫描 抓 取 需 要 
数 周 或 数 月 的 时 间 。 怜 虫 抓 取 过 程 中 通常 有 许多 进程 ， 在 多 台 主 机 上 和 运行。 数据 库存 储 了 需要 搜索 的 
一 个 链接 (或 站 点 ) 集 合 ， 将 该 集合 中 的 链接 交 给 每 个 怜 虫 进程 。 抓 取 过 程 中 发 现 的 新 链接 被 添加 进 数 
据 库 中 ， 并 可 能 会 立即 或 在 稍 后 的 时 间 里 抓 取 。 必 须 周期 性 地 重新 提取 网 页 ( 即 重新 抓 取 ) 以 获得 更 新 
信息 ， 并 去 除 不 存在 的 站 点 ， 以 使 搜索 索引 中 的 信息 保持 合理 的 更 新 程度 。 

相关 参考 文献 中 有 很 多 进行 Web 抓 取 的 实用 细节 。 例 如 在 动态 网 页 中 生成 的 无 限 链接 序列 ( 称 作 
MGR BABE spider trap) ) ， 页 面 抓 取 的 优先 顺序 以 及 保证 Web 站 点 不 会 被 由 爬虫 发 出 的 频繁 的 访问 请 求 
所 淹没 。 

抓 取 到 的 页 面 被 交 给 可 能 运行 在 不 同 机 器 上 的 威望 值 计算 系统 和 索引 系统 进行 处 理 。 进 行 威望 值 
计算 和 索引 的 系统 本 身 并 行 地 在 多 台 主 机 上 运行 。 当 它们 完成 了 对 页 面 威望 值 计算 并 且 加 入 到 索引 中 
之 后 ， 这 些 页 面 就 可 以 丢掉 了 。 不过， 这 些 页 面 往往 是 被 搜索 引擎 缓存 了 起 来 ， 以 便 即 使 该 页 面 所 在 
原始 站 点 无 法 访问 ， 搜 索引 苟 用 户 仍 然 可 以 快速 地 访问 这 个 缓存 页 面 。 

将 搜索 到 的 网 页 加 到 正 用 于 查询 的 索引 中 不 是 一 个 好 主意 ， 因 为 这 样 做 将 需要 索引 上 的 并 发 控制 ， 
从 而 会 影响 查询 和 更 新 的 性 能 。 替 代 的 办 法 是 ， 使 用 索引 的 一 个 副本 回答 查询 ， 而 用 新 搜索 到 的 网 页 
对 另 一 个 副本 进行 更 新 。 周 期 性 地 ， 这 两 个 副本 互 换 ， 对 旧 的 副本 进行 更 新 ， 而 新 的 副本 用 于 查询 。 

为 了 支持 非常 高 的 查询 速度 ， 索 引 可 能 存储 在 主 存 中 ， 而 且 有 多 台 这 样 的 机 器 ; 系统 选择 性 地 将 
查询 路 由 到 不 同 的 主机 上 以 取得 主机 间 的 负载 均衡 。 流 行 的 搜索 引擎 经 常 有 数 万 台 主 机 承担 各 种 各 样 
的 疏 虫 抓 取 任 务 、 索 引 任务 以 及 对 于 用 户 查 询 的 应 答 任务 。 

网 页 息 虫 依赖 于 可 以 由 超 链 接 所 到 达 的 所 有 相关 页 面 。 但 是 ,许多 包含 有 大 量 数据 的 站 点 也 许 不 
会 以 超 链 接 页 面 的 形式 提供 所 有 的 数据 。 相 反 ， 这 些 站 点 提供 了 检索 接口 。 通 过 使 用 这 些 接口 ， 用 户 
可 以 输入 术语 或 者 选择 菜单 项 以 获得 检索 结果 。 例 如 ， 用 于 存储 航班 信息 的 数据 库 通常 没有 指向 包含 
航班 信息 页 面 的 超 链接 ， 而 是 以 搜索 界面 的 方式 提供 给 用 户 的 。 于 是 ， 这 类 站 点 中 的 信息 是 不 能 被 传 
统 的 网 络 息 忠 所 访问 到 的 。 这 些 信息 通 常 被 称 为 深度 Web( deep Web) 信 息 。 

深度 Web JEH (deep Web crawler) 通过 猜测 在 检索 界面 中 输入 什么 样 的 术语 是 合理 的 ， 如 何 选择 
菜单 项 等 方式 来 抽取 这 样 的 信息 。 通 过 输入 每 一 个 可 能 的 检索 词 / 选 项 ， 并 执行 这 样 的 搜索 界面 ， 它 可 
以 抽取 到 包含 其 他 方法 无 法 得 到 的 数据 信息 的 网 页 。 例 如 Google 搜索 引擎 能 够 提供 的 搜索 结果 就 包含 
了 由 深度 Web 怜 虫 所 抓 取 到 的 数据 。 
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21.8 信息 检索 : 网 页 排名 之 外 


信息 检索 系统 原本 被 设计 为 寻找 与 一 个 查询 请 求 相 关联 的 文本 文档 。 后 来 扩展 为 在 Web 上 寻找 与 
查询 相关 的 页 面 。 人 们 使 用 搜索 引擎 来 完成 各 种 任务 : 小 到 如 定位 一 个 要 用 到 的 Web 站 点 这 样 的 简单 
任务 ， 大 到 寻找 与 某 个 所 关心 的 主题 相关 的 信息 。Web 搜索 引擎 在 定位 欲 访问 的 站 点 方面 表现 已 非常 
出 色 。 但 是 提供 所 关心 的 主题 的 相关 信息 的 任务 却 难 了 很 多 。 这 一 节 将 探讨 一 些 可 行 方法 。 

对 于 能 够 (以 有 限 的 程度 ) 理解 文档 和 基于 这 样 (有 限 ) 的 理解 回答 问题 的 系统 的 需要 越 来 越 多 。 一 

931 | 种 方法 就 是 根据 非 结 构 化 的 文档 建立 结构 化 的 信息 ， 并 基于 结构 化 信息 回答 问题 。 另 一 种 方法 应 用 自 
然 语言 技术 找到 与 某 个 问题 ( 自然 语言 短语 构成 ) 相关 的 文档 ， 并 将 文档 的 相关 段落 作为 问题 的 答案 
返回 。 

21. 8. 1 查询 结果 的 多 样 化 

现今 ， 搜 索引 擎 不 仅仅 能 够 返回 一 个 与 查询 相关 的 Web 页 面 排名 列表 ， 同 时 还 能 够 返回 相关 的 图 
片 及 视频 结果 。 更 进一步 ， 很 多 站 点 可 以 提供 动态 变化 的 内 容 ， 例 如 体育 竞技 比分 、 股 市 行情 。 为 了 
获得 这 些 站 点 的 当前 信息 ， 用 户 需要 首先 点 击 查询 结果 。 取 而 代 之 的 是 ， 搜 索引 擎 实现 了 能 够 从 特定 
的 域名 获取 数据 的 “控件 ”。 这 些 数据 包括 体育 竞技 比分 、 股 票 价 格 以 及 天 气 状 况 等 。 这 些 控件 还 可 以 
把 获得 的 数据 以 良好 的 图 像 形式 展示 出 来 ， 以 此 作为 查询 结果 。 搜 索引 擎 必须 将 可 用 的 控件 依照 与 检 
索 词 的 相关 程度 进行 排名 ， 并 连同 Web 页 面 、 图 像 、 视 频 以 及 其 他 类 型 的 结果 一 起 ， 展 示 最 相关 的 控 
件 结果 。 因 此 ， 一 个 查询 结果 拥有 丰富 的 结果 类 型 。 

检索 词 常常 是 有 歧义 的 。 例 如 ， 一 个 查询 “eclipse" 可 以 用 来 指 日 食 或 月 食 ， 也 可 以 用 来 指 一 个 叫 
做 Eclipse 的 集成 开发 环境 (IDE) 。 如 果 返 回 结果 中 排名 高 的 所 有 页 面 都 是 有 关 IDE 的 ， 那么 ,寻找 日 
食 和 月 食 信 息 的 用 户 将 会 非常 失望 。 因 此 ， 搜 索引 擎 试图 提供 一 组 涉及 多 种 主题 的 结果 ， 从 而 尽 可 能 
避免 用 户 对 结果 很 不 满意 的 可 能 性 。 为 了 实现 这 样 的 目的 ， 搜 索引 擎 必须 消除 页 面 中 使 用 的 词语 的 歧 
义 。 例 如 ， 它 必须 能 够 确定 某 个 页 面 中 的 eclipse 指 的 是 DE 还 是 天 文 现象 。 这 样 ， 对 于 一 个 查询 ， 搜 
索引 擎 将 试图 提供 与 该 词 的 最 普遍 含义 相关 的 结果 。 

从 Web 页 面 中 获取 的 结果 需要 归纳 成 为 查询 结果 中 的 小 片段 (snippet) 。 在 传统 方法 中 ， 搜 索引 擎 
提供 被 检索 的 关键 字 周 围 的 一 些 词语 作 为 结果 片段 以 便于 揭示 该 页 面 所 包含 的 内 容 。 不 过 ， 很 多 领域 
中 的 小 片段 可 以 通过 更 加 有 意义 的 方式 产生 。 例 如 ， 如 果 用 户 查 询 饭 店 ， 搜 索引 警 可 以 生成 除了 指向 
饭店 主页 的 链接 之 外 ， 还 包含 饭店 评级 、 电 话 号 码 以 及 指向 地 图 的 链接 的 小 片段 。 这 样 的 内 容 具 体 的 
小 片段 通常 是 由 来 自 数据 库 (例如 一 个 存储 饭店 信息 的 数据 库 ) 中 的 数据 所 生成 的 。 

21. 8.2 信息 抽取 

信息 抽取 (information extraction) 系统 将 信息 从 文本 形式 转换 为 更 结构 化 的 形式 。 例 如 ， 一 则 房 地 
产 广告 可 能 会 以 文本 形式 来 描述 一 栋 房 屋 的 属性 ， 例 如 “位 于 Queens 街区 的 两 间 卧 室 和 三 间 浴 室 的 住 
宅 ，100 万 美元 ” 。 一 个 信息 抽取 系统 可 能 会 从 这 样 的 广告 中 抽取 出 诸如 卧室 数量 、 浴 室 数量 、 价 格 以 

及 邻居 这 样 的 属性 。 原 始 的 广告 内 容 可 能 使 用 了 多 种 词汇 ,如 2 室 、 二 室 、 两 卧 等 来 描述 两 间 卧 室 。 
抽取 出 来 的 信息 可 以 用 于 以 标准 方式 来 构建 数据 。 从 而 ， 用 户 可 以 说 明 他 所 感 兴趣 的 是 带 有 两 间 卧 室 
的 房屋 ; 查询 系统 就 可 以 基于 结构 化 的 数据 来 返回 所 有 相关 的 房屋 ， 即 使 原始 广告 中 所 使 用 的 词汇 不 
尽 相 同 。 

一 个 维护 公司 信息 的 数据 库 的 组 织 ， 可 能 会 使 用 信息 抽取 系统 从 报刊 文章 中 自动 抽取 信息 。 抽 取 
出 的 信息 会 与 感 兴趣 的 属性 的 变化 有 关 ， 诸 如 辞职 、 解 雇 或 公司 领导 间 的 会 晤 等 。 

又 如 ， 定 位 于 寻找 学 术 研 究 文章 的 搜索 引擎 (如 Citeseer 和 Google Scholar ) 抓 取 万 维 网 中 很 可 能 是 
学 术 论文 的 页 面 。 它 们 通过 检查 特定 的 条 件 来 确定 一 份 文档 是 不 是 一 篇 学 术 研 究 文 章 。 这 些 条 件 包 括 
是 否 出 现 了 “参考 文献 、“ 引 用 "以 及 “摘要 ”等 词汇 。 然 后 ， 它 们 利用 信息 抽取 技术 来 提取 标题 、 作 者 
列表 以 及 文 末 的 引文 信息 。 抽 取出 的 引用 信息 可 以 用 来 建立 文章 与 引文 以 及 文章 与 引用 本 文 的 文章 之 
间 的 链接 关系 。 这 些 引 用 链接 关系 对 学 术 研 究 者 非常 有 用 。 
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已 经 建成 了 几 个 系统 用 来 对 特定 应 用 进行 信息 抽取 。 他 们 利用 的 是 语言 学 技术 ， 以 及 特定 领域 的 
用 户 定义 规则 ( 比如 房地产 广告 、 学 术 出 版 物 ) 。 对 于 有 限 的 范围 (如 一 个 特定 的 Web 站 点 ) ， 手 动 指定 
用 于 信息 抽取 的 匹配 模式 是 可 行 的 。 例 如 ， 在 一 个 特定 的 站 点 ,一 个 形 如 “价格 : < 数字 > $ "(其 中 < 
数字 > 指 任意 的 数值 ) 的 模式 可 以 用 来 匹配 价格 的 指定 位 置 。 可 以 为 有 限 数量 的 Web 站 点 手动 指定 这 
样 的 模式 。 

但 是 ， 在 如 今 包含 了 数 以 百 万 计 的 Web 站 点 的 大 规模 网 络 中 ， 手 动 生成 这 样 多 的 模式 是 更 本 不 可 
能 的 。 机 器 学 习 技 术 可 以 从 一 组 训练 数据 中 学 习 出 这 样 的 模式 ， 因 而 广泛 应 用 于 信息 抽取 的 自动 执行 
过 程 中 。 

在 抽取 出 的 信息 的 一 小 部 分 中 往往 包含 错误 。 这 是 由 于 某 些 页 面包 含 语法 上 符合 匹配 模式 的 信息 ， 
但 是 不 真正 指定 一 个 值 (例如 价格 ) 。 使 用 简单 的 匹配 模式 的 信息 抽取 独立 地 匹配 页 面 的 一 部 分 ， 更 容 
易 产 生 错 误 。 机 器 学 习 技 术 能 够 基于 模式 之 间 的 交互 执行 更 加 复杂 多 变 的 分 析 任 务 ， 从 而 尽 可 能 地 减 
少 抽取 出 的 信息 中 的 错误 数量 ,同时 尽 可 能 地 扩大 抽取 出 的 信息 总 量 。 更 多 信息 请 参考 文献 注解 。 
21.8.3 问答 系统 

信息 检索 系统 把 问题 焦点 集中 在 针对 一 个 给 定 的 查询 找到 其 相关 的 文档 。 然 而 ， 一 个 查询 的 答案 
可 能 就 仅仅 在 文档 的 一 部 分 中 ， 或 者 是 在 好 几 份 文档 的 各 个 小 部 分 中 。 问 答 (question answering) 系统 试 
图 对 用 户 提出 的 问题 提供 直接 的 答案 。 例 如 ， 像 “ 谁 杀 死 了 林肯 ?“ 这 样 的 问题 最 好 是 能 够 用 一 行 “ 亚 伯 
FL + 林肯 于 1865 年 被 约翰 威 尔 克 斯 ， 布 斯 射 杀 ” 这 样 的 文字 来 回答 。 注 意 到 这 个 答案 实际 上 并 不 
包含 “ 杀 死 "或 “ 谁 ” 这 些 词 ,但 是 系统 推断 出 “ 谁 ” 能 够 用 一 个 名 字 来 回答 ， 而 “ 杀 死 "与 “ 射 杀 ”是 有 
关 的 。 

以 Web 中 的 信息 为 目标 的 问答 系统 通常 根据 一 个 提交 的 问题 产生 一 个 或 多 个 关键 字 查 询 ， 使 用 
Web 搜索 引擎 执行 这 些 关 键 字 查询 ， 并 解析 返回 的 文档 找到 回答 这 个 问题 的 文档 段落 ,许多 语言 学 技 
术 和 启发 式 方法 已 经 用 来 产生 关键 字 查询 ， 并 从 文档 中 找到 相关 的 段落 。 

问答 系统 中 的 一 个 难题 是 对 于 同一 个 问题 不 同 的 文档 会 给 出 不 同 的 答案 。 例 如 ， 如 果 问 题 是 :“ 长 
颈 庆 有 多 高 ?" 不 同 的 文档 给 出 不 同 的 数字 作为 答案 。 这 些 答案 构成 了 一 个 数值 的 分 布 。 问答 系统 可 以 
选择 平均 值 或 中 间 值 来 作为 答案 返回 。 为 了 向 用 户 反映 答案 不 准确 的 情况 ， 系 统 也 许 会 一 并 返回 均值 
和 标准 差 (例如 ， 均 值 为 16 英尺 ， 标准 差 为 2 英尺 ), 或 者 一 个 基于 均值 和 标准 差 的 范围 值 (例如 ， 在 
14 ~18 英尺 之 间 )。 

当前 的 问答 系统 能 力 有 限 ， 因 为 它们 并 不 真正 理解 问题 以 及 用 来 解答 问题 的 文档 。 然 而 ， 对 于 大 
量 简 单 的 问答 任务 来 说 ， 它 们 是 有 用 的 。 

21.8.4 查询 结构 化 数据 

结构 化 数据 主要 以 关系 或 XML 形式 表示 。 多 个 系统 已 经 建成 以 支持 在 关系 数据 和 XML 数据 上 进 
行 关 键 字 查询 ( 见 第 23 章 ) 。 这 些 系统 的 共同 主题 就 在 于 找到 包含 指定 关键 字 的 结 点 (元 组 或 XML 元 
素 ) ， 并 找到 它们 之 间 的 连接 路 径 (或 是 在 XML 数据 情况 下 的 共同 祖先 ) 。 

例如 ， 在 某 个 大 学 数据 库 中 查询 "Zhang Katz” 可 能 会 找到 出 现在 student 关系 的 某 个 元 组 中 的 name 
字段 为 “Zhang”， 还 有 在 instructor 关系 的 某 个 元 组 中 的 name 字段 为 “Katz”， 以 及 在 advisor 关系 中 连接 
这 两 个 元 组 的 某 条 路 径 。 其 他 的 路 径 ， 例 如 学 生 “Zhang” 修 读 一 门 由 “Katz” 讲 授 的 课程 ， 也 会 作为 该 查 
询 的 应 答 而 找到 。 当 用 户 不 知道 正确 的 模式 ， 并 且 也 不 想 费 力 去 写 一 个 SQL 查询 来 定义 她 想 要 查询 什 
么 的 时 候 ， 上 述 这 样 的 查询 就 可 以 用 来 对 数据 进行 即席 的 浏览 和 查询 。 事 实 上 ， 期 望 那些 非 专业 用 户 
用 结构 化 查询 语言 写 出 查询 是 不 合理 的 ， 而 关键 字 查询 就 很 自然 。 

由 于 查询 并 没有 完全 地 定义 ， 因 此 它们 可 能 会 有 许多 不 同类 型 的 答案 ， 这 些 答案 必须 是 经 过 排 
名 的 。 很 多 种 技术 已 经 提出 用 于 在 这 样 的 设 定 下 对 答案 进行 排名 。 包 括 基于 连接 路 径 长 度 的 以 及 基 
于 指定 边 的 方向 和 权 值 技术 的 。 基 于 诸如 外 键 和 IDREF 链接 的 ， 为 元 组 和 XML 元 素 指定 流行 度 排名 
的 技术 也 已 经 提出 了 。 更 多 有 关 在 关系 数据 和 XML 数据 之 上 进行 关键 字 查询 的 信息 请 参考 文献 
注解 。 
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21.9 目录 与 分 类 


一 个 典型 的 图 书馆 用 户 可 能 会 使 用 图 书目 录 来 定位 自己 所 需 的 图 书 。 然 而 ， 当 她 从 书架 上 拿 取 图 
书 时 ， 她 很 可 能 会 浏览 位 于 附近 的 其 他 图 书 。 图 书馆 用 把 相关 的 图 书 放 在 一 起 的 方式 组 织 图 书 。 因 此 ， 
与 读者 想 要 的 书 物理 上 接近 的 书 可 能 也 是 读者 感 兴趣 的 ， 这 样 的 安排 对 于 读者 浏览 这 些 书 是 有 意义 的 。 

为 了 将 有 关 的 书 放 在 一 起 ， 图 书馆 使 用 一 种 分 类 层次 (classification hierarchy) 。 有 关 科 学 的 书 被 分 
类 到 一 起 。 在 这 个 图 书 集合 里 进行 更 细 的 分 类 : 计算 机 科学 类 图 书 组 织 到 一 起 ， 数 学 类 图 书 组 织 在 一 
起 等 。 由 于 数学 和 计算 机 科学 有 一 定 的 联系 ， 因 此 相关 的 图 书 集合 存放 在 物理 上 彼此 邻近 的 地 方 。 在 
分 类 层次 中 的 另 一 个 级 别 上 ， 计 算 机 科学 图 书 被 分 解 为 几 个 子 领域 ， 例 如 操作 系统 、 语 言 和 算法 。 图 
21-1 表示 了 一 个 图 书馆 可 能 使 用 的 分 类 层次 。 因 为 图 书 只 能 保存 在 一 个 地 方 ， 所 以 图 书馆 里 的 每 本 图 
书 被 分 到 分 类 层次 中 某 个 确切 的 位 置 上 。 





图 21-1 一 个 图 书馆 系统 的 分 类 层次 


在 信息 检索 系统 中 ， 不 需要 将 相关 文档 存储 在 一 起 。 然 而 ， 为 了 允许 用 户 浏览 ， 此 类 系统 需要 有 
逻辑 地 组 织 文档 。 因 此 ， 此 类 系统 会 使 用 与 图 书馆 使 用 的 分 类 层次 类 似 的 分 类 层次 ， 而且， 当 显 示 一 
个 特定 文档 的 时 候 ， 也 会 显示 一 些 层次 上 相近 的 文档 的 简短 描述 。 

在 信息 检索 系统 中 ， 不 需要 将 文档 保存 到 层次 结构 中 的 单独 位 置 上 。 一 个 为 计算 机 研究 人 员 讲 述 
数学 的 文档 可 以 分 在 数学 下 面 也 可 以 分 在 计算 机 科学 下 面 。 存 储 在 每 个 位 置 上 的 是 文档 的 标识 ( 即 一 
份 文档 的 指针 ) ， 使 用 该 标识 可 以 很 容易 地 取得 该 文档 的 内 容 。 

由 于 这 种 灵活 性 ， 不 仅 可 以 把 一 份 文档 分 类 到 两 个 位 置 上 ， 而 且 分 类 层次 中 的 子 领 域 本 身 也 可 以 
出 现在 两 个 领域 下 。“ 图 算法 "文档 的 类 别 可 以 出 现在 数学 下 面 也 可 以 出 现在 计算 机 科学 下 面 。 因 此 分 
类 层次 现在 变 成 了 一 个 有 向 无 环 图 ( Directed Acyclic Graph, DAG), ， 如 图 21-2 所 示 。 图 算法 的 一 份 文档 
可 能 出 现在 DAG 图 中 的 一 个 单独 的 位 置 上 ， 但 可 以 通过 不 同 的 路 径 访 问 。 

一 个 目录 (directory ) 就 是 一 个 分 类 DAG 结构 。 目 录 的 每 个 叶 结 点 存储 了 与 该 叶 结 点 代表 的 主题 相 
关 的 文档 的 链接 。 内 部 结 点 也 可 能 包含 一 些 链接 ， 例 如 指向 无 法 归 类 到 任何 子 结 点 下 的 文档 的 链接 。 

为 了 找到 有 关 一 个 主题 的 信息 ， 用 户 需 要 从 目录 的 根 开始 ， 沿 着 路 径 向 下 搜索 DAG， 直 到 抵达 代 
表 所 需 主题 的 一 个 结 点 为 止 。 在 向 下 浏览 目录 时 ， 用户 不 仅 可 以 找到 他 感 兴趣 的 主题 方面 的 文档 ， 而 
且 还 可 以 找到 分 类 层次 中 的 相关 文档 和 相关 分 类 。 用 户 通 过 在 相关 分 类 中 浏览 文档 (或 子 类 ) 可 以 了 解 
一 些 新 信息 。 

将 Web 中 的 大 量 可 用 信息 组 织 成 一 个 目录 结构 是 一 项 严峻 的 任务 。 

。 第 一 个 问题 是 精确 确定 目录 层次 结构 。 
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。 第 二 个 问题 是 ， 给 定 一 份 文档 ， 决 定 哪 个 目录 结 点 是 与 该 文档 相关 的 分 类 。 





图 21-2 一 个 图 书馆 信息 检索 系统 的 分 类 DAG 


为 了 处 理 第 一 个 问题 ， 像 Yahoo! 这 样 的 门户 网 站 有 “Intermet 图 书 管理 员 " 组 ,负责 提出 分 类 层次 
并 对 它 持 续 地 修正 。 

第 二 个 问题 也 可 以 通过 图 书馆 管理 员 手 工地 解决 ,或 者 由 Web 站 点 维护 人 员 负 责 决定 他 们 的 站 点 
应 该 处 于 目录 层次 中 的 什么 位 置 。 也 有 一 些 基 于 计算 文档 与 已 经 分 类 的 文档 的 相似 性 来 自动 确定 该 文 
档 的 位 置 的 技术 。 

维基 百科 (wikipedia) 是 一 部 在 线 的 百科 全 书 。 它 从 相反 的 方向 解决 分 类 问题 。 维 基 百 科 中 的 每 个 
页 面 都 包含 一 个 所 属 类 别 ( category ) 的 列表 。 例 如 ， 就 2009 年 所 见 ， 维 基 百 科 上 关于 长 颈 鹿 的 页 面 的 
一 个 所 属 类 别 是 “非洲 哺乳 动物 ”。 而 “非洲 哺乳 动物 ”本 身 又 包含 于 “ 按 地 理 划 分 哺乳 动物 "类 别 中 ,后 
者 又 包含 于 属于 “ 痊 椎 动物 ”的 “哺乳 动物 ”类别 中 ， 以 此 类 推 。 类 别 结构 对 于 浏览 同一 类 别 中 的 其 他 实 
例 是 很 有 用 的 。 例 如 ， 查 找 其 他 的 非洲 哺乳 动物 或 者 其 他 的 哺乳 动物 。 相 反 地 ， 一 个 查找 哺乳 动物 的 
查询 可 以 使 用 这 种 类 别 信息 来 推断 出 长 颈 鹿 是 一 种 哺乳 动物 。 维 基 百 科 的 类 别 结构 不 是 树 状 的 ， 而 几 
FE DAG 形式 的 。 事 实 上 ， 它 也 不 是 一 个 DAG， 因 为 其 中 存在 一 些 循环 结构 ， 这 很 可 能 反映 了 分 
类 错误 。 


21.10 总结 


。 信息 检索 系统 用 于 存储 和 查询 如 文档 那样 的 文本 数据 。 与 数据 库 系 统 相 比 ， 它 们 使 用 更 简单 的 数据 
模型 ， 但 能 在 受 限 的 模型 里 提供 更 强大 的 查询 能 力 。 

。 查询 试图 通过 指定 关键 字 集合 来 定位 用 户 感 兴趣 的 文档 。 用 户 心里 所 想 的 查询 往往 不 能 精确 地 表述 ， 
因此 ， 信 息 检 索 系 统 基 于 潜在 的 相关 性 对 答案 排名 。 

。 相关 性 排名 利用 多 种 类 型 的 信息 ， 诸 如 : 

口 术语 频率 : 每 个 术语 对 每 份 文档 的 重要 性 。 

O PCA aR 

O 流行 度 排名 。 

文档 相似 性 用 于 检索 与 一 个 示例 文档 相似 的 文档 。 余 弦 度 量 值 用 于 定义 相似 度 ， 它 基于 向 量 空间 

模型 。 

PageRank 和 链接 中 心 /权威 页 排名 是 基于 指向 页 面 的 链接 对 页 面 威望 度 赋值 的 两 种 方法 。PageRank 

度量 可 以 用 随机 游 走 模型 来 直观 地 理解 。 锚 文本 信息 也 可 以 用 来 计算 单个 关键 字 意 义 上 的 流行 度 。 

信息 检索 系统 需要 整合 多 种 因素 (包括 TF-IDF 和 PageRank ) 来 获得 对 页 面 的 全 局 评分 。 

。 搜索 引擎 作弊 试图 使 一 个 页 面 得 到 高 的 (但 不 是 应 得 的 ) 排 名 。 
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同义词 和 多 义 词 使 信息 检索 的 任务 复杂 化 。 基 于 概念 的 查询 旨 在 找到 含有 指定 概念 的 文档 ， 而 与 指 
定 该 概念 所 使 用 的 确切 的 词 ( 以 及 语言 ) 无 关 。 本 体 利 用 诸如 is-a 或 part-of 这 样 的 关系 将 概念 联系 
起 来 。 

倒 排 索 引用 来 对 关键 字 查询 做 出 应 答 。 

查 准 率 和 查 全 率 是 信息 检索 系统 有 效 性 的 两 种 度量 。 

Web 搜索 引擎 使 用 爬虫 搜索 Web 找到 网 页 ， 然 后 分 析 它 们 以 计算 其 威望 度 度量 ， 并 为 它们 建立 
索引 。 

已 经 开发 出 了 相关 技术 能 够 从 文本 数据 中 抽取 出 结构 化 信息 ， 在 结构 化 数据 之 上 进行 关键 字 查 询 ， 
并 对 用 户 使 用 自然 语言 提出 的 简单 问题 给 出 直接 的 答案 。 

目录 结构 和 分 类 用 来 将 文档 与 其 他 相似 文档 归 类 到 一 起 。 












































术语 回顾 
。 信息 检索 系统 流行 度 / 威 望 度 。 RER 
。 关键 字 搜 索 威望 度 传递 。 RRF 
。 全 文 检索 e PageRank 。 误 选 中 
。 术语 口 随机 游 走 模型 。 查 准 率 
© 相关 度 排 名 。 基于 锚 文本 的 相关 度 ° ASK 
术语 频率 。 链接 中 心 / 权 威 页 排名 © WER 
DMR 。 搜索 引擎 作弊 © 深度 Web 
口 相关 度 。 同义词 。 查询 结果 多 样 化 
接近 度 e 多 义 词 。 信息 抽取 
o 基于 相似 性 的 检索 。 概念 © 问答 系统 
O 向 量 空间 模型 。 基于 概念 的 查询 。 查询 结构 化 数据 
O 余弦 相似 度 度量 。 本 体 。 目录 
口 相关 反馈 。 语义 网 络 。 分 类 层次 
o 停 用 词 。 倒 排 索引 。 类 别 


。 使 用 超 链接 的 相关 度 
实践 习题 


21.1 
21.2 


21.3 
21.4 


21.5 


计算 本 章 的 每 个 实践 习题 与 查询 “SQL 关系 "之 间 的 相关 度 ( AR aS AY EL) 。 
假设 你 想 要 查找 至 少 包含 给 定 的 个 关键 字 中 的 天 个 的 文档 。 再 假设 你 有 一 个 关键 字 索 引 ， 它 给 你 提 
供 了 包含 某 个 特定 关键 字 的 文档 标识 的 (有 序 ) 列 表 。 给 出 一 个 高 效 算法 找 出 所 需 的 文档 集 。 

假定 了 和 矩阵 (即使 采用 邻接 表 表 示 ) 无 法 放 人 主 存 中 ， 怎 样 实现 计算 PageRank 的 迭代 技术 呢 ? 

一 个 包含 某 个 词 (比如 “leopard” (美洲 豹 )) 的 文档 该 怎样 索引 ， 使 得 使 用 更 泛 化 的 概念 (诸如 
“carnivore”( 食 肉 动物 ) 或 “mammal”( 哺乳 动物 ) ) 的 查询 才能 够 高 效 地 检索 到 该 文档 ?你 可 以 假设 这 
个 概念 分 层 并 不 是 很 深 ， 因 此 每 个 概念 只 有 少数 几 个 泛 化 (然而 ， 一 个 概念 通常 可 以 有 许多 特 化 ) 。 
你 也 可 以 假定 已 经 提供 给 你 了 一 个 函数 ， 可 以 对 于 一 份 文档 中 的 每 个 词 返回 其 概念 。 另 外 ， 一 个 使 用 
特 化 概念 的 查询 怎样 才能 检索 到 使 用 泛 化 概念 的 文档 ? 

假设 倒 排 表 是 在 块 中 维护 的 ， 每 个 块 记录 了 表 中 余下 的 块 中 文档 的 最 高 的 流行 度 排名 以 及 TF-IDF 得 
分 。 如 果 用 户 仅仅 只 想 要 排名 最 高 的 开 个 答案 ， 怎 样 做 才能 使 得 倒 排 表 的 合并 过 程 早 些 停止 ? 


习题 


21.6 


21.7 


简单 地 将 术语 频率 定义 为 一 份 文档 中 该 术语 出 现 的 次 数 ， 请 给 出 由 本 习题 以 及 下 一 道 习 题 组 成 的 文档 
集合 中 每 一 个 术语 的 TF-IDF 得 分 。 

举 个 小 例子 ， 要 包括 4 个 具有 PageRank 的 小 文档 ， 并 对 这 些 用 PageRank 排名 的 文档 创建 倒 排 表 。 你 
不 必 计算 PageRank ， 只 需要 假设 对 于 每 个 页 面 都 有 某 些 值 即 可 。 


第 21 章 信息 检索 529 


21.8 假设 你 想 要 在 数据 库 的 一 个 元 组 集合 之 上 进行 关键 字 查询 ， 其 中 每 个 元 组 只 有 几 个 属性 ， 每 个 属性 只 
含有 几 个 词 。 在 这 样 的 上 下 文中 ,术语 频率 的 概念 行 得 通 吗 ? 逆 文 档 频 率 的 概念 呢 ? 请 解释 你 的 答 
案 。 也 请 考虑 一 下 怎样 使 用 TF-IDF 概念 来 定义 两 个 元 组 的 相似 性 ? 

21.9 希望 做 些 宣传 和 推广 的 Web 站 点 可 以 加 入 一 个 Web 圈子 中 ， 它 们 建立 指向 圈 中 其 他 站 点 的 链接 ， 以 
换取 圈 中 其 他 的 站 点 建立 指向 它们 的 链接 。 请 问 : 类 似 这 样 的 圈子 对 于 诸如 PageRank 这 样 的 流行 度 
排名 技术 有 什么 影响 ? 

21. 10 Google 搜索 引擎 提供 了 一 个 特性 ， 就 是 Web 站 点 能 够 显示 由 Google 提供 的 广告 。 这 些 提供 的 广告 是 
基于 页 面 内 容 的 。 请 问 : 给 定 页 面 的 内 容 ，Google 可 能 会 怎样 为 一 个 页 面 挑选 该 提供 哪些 广告 呢 ? 

21. 11 一 种 创建 PageRank 的 特定 关键 字 版 本 的 方法 是 修改 随机 跳 转 ， 从 而 使 得 跳 转 只 可 能 跳 转 到 含有 关键 
字 的 页 面 。 这 样 ， 那 些 不 含 关键 字 ， 但 离 含 有 关键 字 的 页 面 很 近 ( 用 链接 来 度量 ) 的 页 面 也 会 得 到 对 
应 那个 关键 字 的 非 零 排名 值 。 

a 给 出 定义 这 样 一 个 特定 关键 字 版 本 的 PageRank 的 公式 。 
b. 给 出 计算 一 个 页 面 与 含有 多 个 关键 字 的 查询 之 间 的 相关 度 的 公式 。 
21.12 可 以 利用 外 键 以 及 IDREF 边 取 代 超 链接 ， 从 而 将 使 用 超 链接 进行 流行 度 排名 的 想法 扩展 到 关系 数据 
和 XML 数据 上 。 请 问 : 这 样 的 排名 模式 怎样 才能 够 在 下 述 应 用 中 有 价值 ? 
a. 一 个 文献 目录 数据 库 ， 其 中 含有 从 文章 到 文章 作者 的 链接 以 及 从 每 篇 文章 到 其 引用 的 每 篇 文章 的 
链接 。 [940 | 
b. 一 个 销售 数据 库 ， 其 中 含有 从 每 条 销售 记录 到 销售 出 去 的 物品 的 链接 。 
还 请 回答 : 为 什么 在 一 个 记录 了 哪个 演员 出 演 了 哪些 影片 的 电影 数据 库 中 ， 威 望 度 排名 只 能 给 
出 几乎 没有 意义 的 结果 ? 

21. 13” 误 选中 和 误 舍 弃 有 何不 同 ? 如 果 一 个 信息 检索 查询 不 允许 遗漏 任何 相关 信息 ， 含 有 误 选 中 或 误 丢 弃 

是 可 接受 的 吗 ? 为 什么 ? 


工具 


Google( www. google. com) 是 目前 最 流行 的 搜索 引擎 ， 但 还 有 许多 其 他 的 搜索 引擎 ， 诸 如 Microsoft Bing 
(www. bing. com) 和 Yahoo! 搜索 ( search. yahoo. com ) 。 站 点 searchenginewatch. com 提供 了 有 关 搜 索引 警 的 各 
种 信息 。Yahoo! (dir. yahoo. com) 和 开放 目录 项 目 (dmoz. org) 提供 了 Web 站 点 的 分 类 层次 。 


文献 注解 


Manning 等 [2008 ] 、Chakrabarti[ 2002] 、Grossman 和 Frieder[ 2004 |, Witten 等 [1999 ] ， 以 及 Baeza-Yates 
和 Ribeiro-Neto[ 1999 ] 提供 了 描述 信息 检索 的 教科 书 。 特 别 是 ，Chakrabarti[ 2002 ] 和 Manning 等 [2008 | 详细 
覆盖 了 网 络 怜 虫 、 排 名 技术 以 及 其 他 有 关 信 息 检 索 的 挖掘 技术 ( 如 文本 分 类 和 聚 类 ) 。 

Brin 和 Page[ 1998 ] 剖 析 了 包括 PageRank 技术 在 内 的 Google 搜索 引擎 MERA HITS 的 基于 链接 中 心 和 
权威 页 的 排名 技术 由 Kleinberg[ 1999 ] 阐述 。Bharat 和 Henzinger[ 1998 ] 阐述 了 对 HITS 排名 技术 的 改进 。 这 些 
技术 以 及 其 他 基于 流行 度 的 排名 技术 ( 和 用 来 避免 搜索 引擎 作 浆 的 技术 ) 在 Chakrabarti[ 2002 ] 中 有 详细 阐述 ， 
Chakrabarti 等 [1999 ] 说 明了 针对 Web 焦点 的 候 虫 搜索 ， 用 来 找 出 与 某 个 特定 主题 有 关 的 页 面 。Chakrabarti 
[1999] 提 供 了 一 个 关于 Web 资源 发 现 的 综述 。 

Witten 等 [1999] 详 细 介 绍 了 文档 索引 。Jones 和 Willet[ 1997 | 是 一 本 信息 检索 方面 的 论文 选集 。Salton 
[1989] 是 一 本 有 关 信 息 检 索 系 统 的 早期 教科 书 。Brin 和 Page[ 1998 ] 讨 论 了 在 页 面 的 排名 和 索引 中 存在 的 许 

多 现实 问题 ( 比如 Google 搜索 引擎 的 早期 版 本 中 的 解决 方法 )。 遗 憾 的 是 ， 当 今 领 先 的 搜索 引擎 并 没有 公开 
它们 进行 页 面 排 名 的 方法 细节 。 

Citeseer 系统 ( citeseer. ist. psu. edu) 维护 了 一 个 关于 出 版 物 (文章 ) 的 非常 大 的 数据 库 ， 以 及 出 版 物 之 间 
的 引用 链接 ， 并 使 用 引用 来 对 出 版 物 排名 。 它 包括 一 个 用 来 基于 出 版 物 的 年 份 调整 引用 排名 的 技术 ， 作 为 
对 随 着 时 间 的 流逝 ， 一 个 出 版 物 的 引用 自然 会 增加 这 个 事实 的 补偿 。 如 果 不 进行 调整 ， 更 古老 的 文档 会 得 
到 一 个 比 它们 真正 应 得 的 排名 更 高 的 排名 。Google Scholar( scholar. google. com) 提供 了 一 个 包含 引用 关系 类 
似 的 可 检索 的 学 术 论 文 数据 库 。 值 得 注意 的 是 ， 这 些 系 统 利 用 信息 抽取 技术 来 推断 标题 、 作 者 列表 以 及 文 
末 的 引文 信息 。 然 后 ， 它 们 通过 (近似 ) 匹 配 文章 标题 以 及 作者 列表 来 创建 论文 之 间 的 引用 链接 。 
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信息 抽取 和 问答 系统 在 人 工 智能 领域 已 经 有 相当 长 的 一 段 历史 了 。Jackson 和 Moulinier[ 2002 ] 提 供 了 教 
科 书 式 的 涵盖 了 自然 语言 处 理 技 术 的 描述 ， 并 强调 了 信息 抽取 。Soderland[ 1999 ] 讲述 了 使 用 WHISK 系统 进 
行 信息 抽取 ， 同 时 ，Appelt 和 Israel[ 1999 ] 提供 了 一 个 关于 信息 抽取 的 教程 。 

文本 检索 年 会 (TREC) 有 很 多 专题 。 每 个 专题 定义 了 一 个 问题 和 一 个 基础 框架 ， 用 来 测试 问题 的 解决 方 
案 的 质量 。TREC 的 详细 信息 可 以 在 trec.nist gov 上 找到 。 有 关 WordNet 的 更 多 信息 可 以 在 
wordnet. princeton. edu 和 globalwordnet. org 上 找到 。Cyc 系统 的 目标 是 提供 对 于 大 量 的 人 类 知识 的 正式 表达 。 
它 的 知识 库 包 含 大 量 术语 和 关于 每 个 术语 的 断言 。Cyc 也 包括 对 于 自然 语言 的 理解 和 歧义 消解 的 支持 。 有 关 
Cyc 系统 的 信息 可 以 在 cyc. com 和 opencyc. org 上 找到 。 

Dalvi 等 [2009] 讨 论 了 网 页 检索 向 概念 和 语义 而 非 关 键 字 演进 的 观点 。 国 际 语义 网 络 年 会 (ISWC) 是 一 个 
展示 语义 网 络 方面 的 新 进展 的 重要 会 议 。 详 见 semanticweb. org, 

Agrawal 等 [2002] 、Bhalotia 等 [ 2002 ] 以 及 Hristidis 和 Papakonstantinou[ 2002 | 涵盖 了 关系 数据 的 关键 字 
查询 。XML 数据 的 关键 字 查询 在 Florescu 等 [2000] 和 Guo 等 [2003 ] 以 及 其 他 文献 中 有 所 阐释 。 


数据 库 系统 在 几 个 应 用 领域 由 于 关系 数据 模型 局 限 而 受到 限制 。 其 结果 是 ， 研 究 人 员 基 
于 面向 对 象 的 方法 开发 了 几 个 数据 模型 ， 来 处 理 这 些 应 用 领域 的 问题 。 

对 象 -关系 模型 在 第 22 章 中 描述 ， 它 结合 了 关系 模型 和 面向 对 象 模 型 的 特性 。 这 一 模型 
提供 了 面向 对 象 语言 的 丰富 的 类 型 系统 ， 并 与 关系 相 结 合作 为 数据 存储 的 基础 。 它 将 继承 不 
仅 应 用 于 类 型 ， 而 且 应 用 于 关系 。 对 象 -关系 数据 模型 提供 了 从 关系 数据 库 平滑 迁移 的 路 径 ， 
这 对 关系 数据 库 厂 商 很 有 吸引 力 。 其 结果 是 ， 从 SQL: 1999 开始 ，SQL 标准 都 在 其 类 型 系统 
中 包括 了 若干 面向 对 象 特 性 ， 同 时 继续 采用 关系 模型 作为 基础 的 模型 。 

术语 面向 对 象 数据 库 用 来 描述 这 样 的 数据 库 系 统 ， 它 支持 来 自 面向 对 象 程 序 设计 语言 的 
对 数据 的 直接 存 取 ， 而 无 须 关系 查询 语言 作为 数据 库 界 面 。 第 22 章 中 也 提供 了 对 面向 对 象 数 
据 库 的 简单 介绍 。 

XML 语言 最 初 设计 为 给 正文 文档 添加 标注 信息 的 一 种 途径 ， 但 是 由 于 它 在 数据 交换 中 的 
应 用 ， 现 在 已 经 变 得 非常 重要 。XML 提供 对 于 具有 广 套 结构 的 数据 的 一 种 表示 方法 ,而 且 它 
允许 在 数据 构造 上 的 很 大 的 灵活 性 ， 这 对 于 某 些 种 类 的 非 传 统 数据 是 很 重要 的 。 第 23 章 描述 
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XML 语言 ， 然 后 给 出 对 XML 表示 的 数据 表达 查询 的 不 同方 法 ， 包 括 XQuery XML 查询 语言 和 |944 


SQL 的 扩展 SQL/AXML， 它 允许 创建 谋 套 的 XML 输出 。 


945 


第 22 章 | 


Database System Concepts, 6E 


基于 对 象 的 数据 库 





传统 的 数据 库 应 用 由 数据 处 理 任务 组 成 ， 例 如 银行 业务 和 工资 管理 。 这 些 领 域 只 有 相对 简单 的 
数据 类 型 ， 非 常 适 合 于 关系 模型 。 当 数据 库 系 统 应 用 到 更 加 广阔 的 应 用 领域 ， 如 电脑 辅助 设计 和 地 
理 信 息 系 统 时 ， 关 系 模型 带 来 的 局 限 就 暴露 出 来 ， 成 为 了 一 个 障碍 。 解 决 的 方法 是 引入 允许 处 理 复 
杂 数 据 类 型 的 基于 对 象 的 数据 库 。 


22.1 概述 


程序 员 在 使 用 关系 数据 模型 时 要 面 对 的 第 一 个 障碍 是 关系 模型 支持 的 有 限 的 类 型 系统 。 复 杂 应 
用 领域 需要 相应 的 复杂 数据 类 型 ， 如 舱 套 的 记录 结构 、 多 值 属 性 和 继承 ， 它 们 为 传统 程序 设计 语言 
所 支持 。 这 些 特 性 事实 上 都 为 E-R 和 扩展 E-R 概念 所 支持 ， 但 必须 被 转化 成 较为 简单 的 SQL 数据 类 
型 。 对 象 - 关系 数据 模型 ( object-relational data model) 通过 提供 更 加 丰富 的 类 型 系统 扩展 了 关系 数据 
模型 ， 它 包括 了 复杂 数据 类 型 和 面向 对 象 。 关 系 查询 语言 ， 特 别 是 SQL， 需 要 相应 的 扩展 以 处 理 更 
丰富 的 类 型 系统 。 这 种 扩展 试图 在 扩展 建 模 能 力 的 同时 保持 关系 的 基础 ， 特 别 是 对 数据 的 声明 式 访 
问 。 对 象 -关系 数据 库 系统 ( object-relational database system) ， 也 就 是 基于 对 象 - 关系 模型 的 数据 库 
系统 ， 为 想 要 使 用 面向 对 象 特性 的 关系 数据 库 用 户 提供 了 一 个 方便 的 移植 途径 。 

第 二 个 障碍 在 于 ， 很 难 通 过 用 C++ 或 Java 等 程序 设计 语言 编写 的 程序 访问 数据 库 中 的 数据 。 仅 
仅 扩 展 数据 库 支 持 的 类 型 系统 不 足以 彻底 解决 这 个 问题 。 数 据 库 的 类 型 系统 和 程序 设计 语言 的 类 型 
系统 之 间 的 差别 使 得 数据 的 存储 和 获取 更 加 复杂 ， 因 而 需要 最 小 化 这 种 差别 。 只 能 使 用 一 种 不 同 于 
程序 设计 语言 的 语言 (如 SQL) 来 表达 数据 库 访问 也 使 得 程序 员 的 工作 更 加 艰难 。 很 多 应 用 都 需要 允 
许 直 接 访问 数据 库 中 数据 的 程序 设计 语言 结构 或 扩展 ， 而 非 通过 一 个 中 间 语 言 例 如 SQL 来 访问 。 

在 本 章 中 ,我 们 首先 解释 发 展 复杂 数据 类 型 的 动机 。 然 后 我 们 研究 对 象 - 关系 数据 库 系 统 ， 特 
别 是 用 SQL: 1999 和 SQL: 2003 引入 的 新 特性 。 注 意 ， 大 多 数 数据 库 产品 只 支持 这 里 描述 的 SQL 特 
性 的 一 个 子 集 ， 而 且 对 于 所 支持 的 特性 而 言 ， 其 语法 也 与 标准 稍 有 不 同 。 这 是 由 于 标准 成 文 之 前 ， 
商业 数据 库 系 统 就 开始 向 市 场 引 入 对 象 -关系 特性 所 造成 的 ,需要 查阅 所 使 用 的 数据 库 系统 的 用 户 
手册 以 发 现 它 支持 哪些 特性 。 

接着 ， 我 们 说 明 对 于 面向 对 象 程序 设计 语言 的 本 地 类 型 系统 中 的 数据 的 持久 化 的 支持 问题 。 实 
践 中 使 用 了 两 种 方法 : 

1. 建立 面向 对 象 的 数据 库 系统 (object-oriented database system) ， 即 一 个 以 本 地 方式 支持 面向 对 象 
类 型 系统 ， 而 且 人 允许 面向 对 象 编程 语言 使 用 本 地 语言 的 类 型 系统 直接 访问 数据 的 数据 库 系统 。 

2. 自动 地 将 以 编程 语言 的 本 地 类 型 表示 的 数据 转换 为 关系 数据 库 的 表示 形式 ， 反 之 亦 然 。 数 据 
转换 由 对 象 - 关系 映射 (object-relational mapping) 来 说 明 。 

我 们 将 对 这 两 种 方法 做 简要 介绍 。 

最 后 ， 我 们 概述 哪些 情况 下 使 用 对 象 - 关系 方法 更 好 ， 哪 些 情况 下 使 用 面向 对 象 方法 更 好 ， 并 
介绍 在 两 者 之 间 进 行 选择 的 标准 。 


22.2 复杂 数据 类 型 
传统 的 数据 库 应 用 在 概念 上 只 有 简单 数据 类 型 。 基 本 数据 项 是 相当 小 的 记录 ， 且 记录 的 域 是 原 
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子 的 ， 即 它们 没有 被 进一步 结构 化 ， 并 且 第 一 范式 成 立 ( 见 第 8 章 ) 。 而 且 只 有 少数 几 种 记录 类 型 。 
最 近 几 年 ， 对 处 理 更 加 复杂 的 数据 类 型 的 方法 的 需求 逐渐 增多 。 例 如 ,考虑 地 址 信息 。 虽 然 一 
个 完整 的 地 址 可 以 看 成 一 个 字符 串 类 型 的 原子 数据 项 ， 但 这 种 方式 可 能 隐藏 了 详细 信息 ， 比 如 街道 
地 址 、 城 市 、 州 和 邮编 ， 这 些 也 可 能 是 查询 所 感 兴趣 的 内 容 。 另 一 方面 ， 如 果 一 个 地 址 被 分 解 成 几 
个 部 分 (街道 地 址 、 城 市 、 州 和 邮编 ) 来 表示 ， 书 写 查 询 将 更 为 复杂 ， 因 为 要 提 及 每 一 个 域 。 一 个 更 
好 的 可 选择 的 方法 是 允许 结构 化 数据 类 型 ， 即 允许 address 类 型 包含 子 部 分 street_address, city, state 
和 postal_code , 
作为 另 一 个 例子 ， 考 虑 了 上-R 模型 中 的 多 值 属性 。 这 样 的 属性 很 自然 ， 例 如 电话 号 码 的 表示 ， 因 
为 一 个 人 可 能 有 多 个 电话 。 对 于 这 个 例子 ， 作 为 可 选 方法 ， 通 过 创建 一 个 新 的 关系 来 达到 规范 化 的 
目的 是 昂贵 且 不 自然 的 。 
利用 复杂 的 类 型 系统 ， 我 们 可 以 直接 地 表示 E-R 模型 中 诸如 复合 属性 、 多 值 属性 、 一 般 化 和 特 
殊 化 等 概念 ， 而 不 需要 翻译 转换 到 关系 模型 的 复杂 过 程 。 
在 第 8 章 中 ， 我 们 定义 了 第 一 范式 (1INF) ， 它 要 求 所 有 的 属性 具有 原子 的 域 。 回 忆 一 下 ， 如 果 
域 的 元 素 被 认为 是 不 可 分 的 单元 ， 那 么 这 个 域 是 原子 的 。 
INF 假设 对 于 我 们 考虑 的 数据 库 应 用 的 例子 是 合理 的 。 但 是 并 非 所 有 应 用 都 可 以 用 1NF 关系 很 
好 地 建 模 。 例 如 ， 某 些 应 用 的 用 户 将 数据 库 看 成 是 对 象 (或 实体 ) 的 集合 而 不 是 记录 的 集合 。 这 些 对 
象 可 能 需要 若干 条 记录 来 描述 。 一 个 简单 易 用 的 接口 需要 用 户 对 对 象 的 直观 理解 和 数据 库 系 统 中 数 
据 项 的 概念 之 间 的 一 一 对 应 。 
例如 ， 考 虑 一 个 图 书馆 应 用 ,假设 我 们 希望 对 每 本 书 存储 如 下 信息 : 
。 书 名 。 
。 作者 列表 。 
© 出 版 商 。 
© 关键 字 集合 。 
可 以 看 出 ， 如 果 我 们 对 上 述 信息 定义 一 个 关系 ， 很 多 域 都 是 非 原 子 的 。 
。 作者 。 一 本 书 可 能 有 很 多 作者 ， 我 们 可 以 用 一 个 数组 来 表示 。 但 是 ,我 们 可 能 需要 查找 所 有 
Jones 为 作者 之 一 的 书 。 因 此 ， 我们 所 感 兴趣 的 是 域 元 素 “ 作 者 ”的 一 个 子 部 分 
。 关键 字 。 如 果 我 们 为 一 本 书 存储 一 个 关键 字 集 合 ， 我 们 希望 可 以 获取 所 有 包含 某 个 或 某 几 个 
指定 关键 字 的 书 。 因 此 ， 我 们 将 关键 字 集 合 这 个 域 看 做 是 非 原子 的 。 
。 出 版 商 。 不 同 于 关键 字 和 作者 ， 出 版 商 并 没有 一 个 以 集合 为 值 的 域 , 但 是 我 们 可 以 将 出 版 商 
视 为 由 名 称 和 部 门 两 个 子 域 组 成 的 。 这 种 观念 使 得 出 版 商 域 成 为 非 原子 的 。 
图 22-1 展示 了 一 个 示例 关系 books- 
title author_arr publisher keyword_set 


(name, branch) 
(McGraw-Hill, NewYork) | {parsing, analysis} 
(Oxford, London) {Internet, Web} 




















Compilers | [Smith, Jones] 
Networks | [Jones, Frick] 


图 22-1 JE INF 的 书籍 关系 


为 了 简单 起 见 ， 我 们 假设 书 名 唯一 标识 了 一 本 书 。s 那 么 我 们 就 可 以 用 下 面 的 模式 来 表达 同样 
的 信息 ， 主 键 属性 用 下 划 线 标记 : 

è authors (title, author, position) 

è keywords (title, keyword ) 

© books4 (title, pub_name, pub_branch) 

以 上 的 模式 满足 4NF。 图 22-2 给 出 了 图 22-1 中 数据 的 规范 化 表示 。 

尽管 不 用 舱 套 关系 也 足以 充分 表达 我 们 的 示例 书籍 数据 库 ， 但 是 使 用 骨 套 关系 可 以 产生 一 个 更 




















books 








O ”这 个 假设 在 现实 世界 中 并 不 成 立 。 图 书 一 般 通过 唯一 标识 每 本 出 版 物 的 10 位 ISBN 码 进 行 识别 。 
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易于 理解 的 模型 。 一 个 信息 检索 系统 的 典型 用 户 或 程序 员 根据 具有 作者 信息 的 书 将 该 数据 库 看 作 一 
个 非 INF 的 设计 模型 。4NF 设计 需要 在 查询 时 连接 多 个 关系 ， 而 非 1NF 设计 则 使 得 很 多 类 型 的 查询 
更 容易 。 

与 此 相反 ， 在 一 些 其 他 情况 下 使 用 第 一 范式 形式 来 表达 可 能 i 
会 更 好 。 例如， 考虑 我 们 大 学 例子 中 的 takes 关系 。 这 个 关系 是 Compilers | Smith T | 
student 和 section 之 间 的 多 对 多 关系 。 我 们 当然 可 以 为 每 个 学 生存 。 NewP | ones | 1 | 
储 一 组 课程 段 ， 或 者 为 每 个 课程 段 存储 一 组 学 生 ， 或 者 二 者 都 存 |Networks [Frick | 2 | 



































储 。 如 果 两 个 都 存储 ， 将 会 出 现 数据 宛 余 ( 某 个 特定 学 生 和 某 个 authors 
特定 课程 段 之 间 的 关系 将 会 被 存储 两 次 ) 。 e 
使 用 如 集合 、 数 组 的 复杂 数据 类 型 的 能 力 在 很 多 应 用 里 是 有 et ra Sale 
用 的 ， 但 必须 小 心 使 用 。 — miina 
22.3 SQL 中 的 结构 类 型 和 继承 aa 


title pub_branch 
Compilers ee k= York 
Networks Oxford London 
books4 


K| 22-2 books 关系 的 4NF 版 本 





在 SQL: 1999 之 前 ，SQL 的 类 型 系统 由 一 个 很 简单 的 预定 义 
的 类 型 的 集合 构成 。SQL: 1999 为 SQL 增加 了 一 个 扩展 类 型 系统 ， 
允许 结构 类 型 和 类 型 继承 。 
22. 3.1 结构 类 型 

结构 类 型 允许 直接 表示 E-R 设计 中 的 复合 属性 。 例 如 ， 我 们 可 以 定义 如 下 结构 类 型 以 表示 一 个 
由 成 分 属性 firstname 和 lastname 构成 的 复合 属性 name: 


create type Name as 
( firstname varchar( 20) , 
lastname varchar( 20) ) 
final $ 


类 似 地 ， 下 面 的 结构 类 型 可 以 用 于 表示 一 个 复合 属性 address: 
create type 4ddress as 

(street varchar(20) , 

city varchar (20 ) 

zipcode varchar (9 ) ) 

not final; 
这 种 类 型 在 SQL 中 被 称 作 用 户 定 义 (user-defined) 类 型 5。 上 面 的 定义 对 应 图 74 中 的 E-R 图 。 语 句 中 
指明 的 final 和 not final 与 子 类 型 定义 相关 ， 我 们 稍 后 将 在 22. 3. 2 节 讲 述 。= 

我 们 现在 可 以 使 用 这 些 类 型 在 关系 里 创建 复合 属性 ， 只 需 简单 地 声明 一 个 属性 为 这 样 一 种 类 型 

例如 ， 我 们 可 以 创建 如 下 的 一 个 person R: 


create table person( 
name Name, 
address Address , 
dateOfBirth date) ; 
复合 属性 的 成 分 可 以 通过 “点 ”记号 来 访问 ; 例如 name. firstname 返回 姓名 属性 的 “名 ”成 分 。 对 
属性 name 的 访问 将 会 返回 一 个 结构 类 型 Name 的 值 。 
我 们 也 可 以 创建 一 个 表 ， 表 的 行 是 用 户 定义 的 类 型 。 例 如 ,我 们 可 以 定义 一 个 PersonType 类 型 ， 
并 创建 一 个 person 表 如 下 三 : 














O 为 了 解释 我 们 早先 关于 在 标准 推出 之 前 商业 数据 库 系 统 定义 语法 的 方法 的 注释 ， 我们 指出 ，Oracle 要 求 在 as 
之 后 应 当 有 关键 字 object。 

© Xf Name H final 表示 我 们 不 能 为 name 创建 子 类 型 ， 而 对 Address 注 明 not final 表示 我 们 可 以 为 address 创建 子 

© 事实 上 ， 在 大 多 数 系统 中 ， 对 大 小 写 不 敏感 ， 将 不 允许 name 被 同时 用 作 属 性 名 和 数据 类 型 。 
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create type PersonType as ( 
name Name, 
address Address , 
dateOfBirth date ) 
not final 
create table person of PersonType; 


在 SQL 中 定义 复合 属性 的 一 种 可 选 方法 是 使 用 无 名 称 的 行 类 型 (row type) 。 例 如 ， 表 示人 的 信息 
的 关系 可 以 使 用 如 下 的 行 类 型 进行 创建 : 


create table person_r ( 
name row ( firstname varchar( 20) , 
lastname varchar(20) ) , 
address row (street varchar(20) , 
city varchar(20) , 
zipcode varchar(9) ) , 
dateOfBirth date) ; 


这 个 定义 与 前 面 的 表 定义 是 等 价 的 ， 只 是 这 里 name 属性 和 address 属性 有 无 名 称 的 类 型 ， 表 的 行 
也 有 一 个 无 名 称 的 类 型 。 
下 面 的 查询 示例 了 如 何 访问 一 个 复合 属性 的 成 分 属性 。 这 个 查询 找 出 每 个 人 的 姓 和 城市 。 


select name. lastname, address. city 
from person ; 


结构 类 型 上 可 以 定义 方法 (method) 。 我 们 将 方法 的 声明 作为 结构 类 型 的 类 型 定义 的 一 部 分 : [950 | 


create type PersonType as ( 
name Name, 
address Address , 
dateOfBirth date ) 
not final 

method ageOnDate( onDate date) 
returns interval year ; 





我 们 单独 地 创建 方法 的 主体 : 


create instance method ageOnDate( onDate date) 
returns interval year 
for PersonType 

begin 
return onDate - self. dateOfBirth ; 

end 


注意 for 子 句 指出 这 个 方法 是 对 哪个 类 型 定义 的 ， 关 键 字 instance 指出 这 个 方法 在 Person 类 型 的 
实例 上 执行 。 变 量 self 代表 正在 调用 方法 的 Person 实例 。 方 法 的 主体 可 以 包含 过 程 语句 ， 我 们 在 前 
面 的 5.2 节 已 经 看 到 过 了 。 方 法 中 可 以 更 新 正在 执行 该 方法 的 实例 的 属性 。 

可 以 在 类 型 的 实例 上 调用 方法 。 如 果 我 们 已 经 创建 了 一 个 PersonType 类 型 的 表 person， 我 们 可 以 
像 下 面 这 样 调用 ageOnDate( ) 方 法 来 查询 每 个 人 的 年 龄 : 


select name. lastname, ageOnDate( current_date) 
from person ; 


在 SQL: 1999 中 ， 构 造 器 函数 ( constructor function) 用 来 创建 结构 类 型 的 值 。 与 结构 类 型 同名 的 
函数 就 是 这 个 结构 类 型 的 构造 器 函数 。 例 如 ， 我们 可 以 像 这 样 为 Name 类 型 声明 一 个 构造 器 : 


create function Name( firstname varchar(20) , lastname varchar(20) ) 
returns Name 
begin 
set self. firstname = firstname; 
set self. lastname = lastname; 
end 


然后 我 们 就 可 以 用 mew Name( ‘John’, ‘Smith’ ) 创建 Name 类 型 的 一 个 值 。 我 们 可 以 通过 在 圆 括 
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号 中 列 出 其 属性 来 构造 一 个 行 类 型 的 值 。 例 如 ， 如 果 我 们 声明 name 属性 为 一 个 由 firstname 和 
lastname 成 分 组 成 的 行 类 型 ， 我 们 可 以 为 它 创 建 这 个 值 : (‘Ted’, ‘Codd’ ) ， 而 不 需 使 用 构造 器 。 
默认 的 情况 下 ， 每 一 个 结构 类 型 都 有 一 个 不 带 参数 的 构造 器 ， 它 将 属性 设 为 默认 值 。 任 何其 他 
的 构造 器 必须 被 显 式 地 创建 。 同 一 个 结构 类 型 可 以 有 不 止 一 个 构造 器 ; 虽然 它们 有 相同 的 名 字 ， 但 
是 它们 必须 以 参数 的 个 数 和 类 型 来 相互 区 分 。 
下 面 的 语句 示例 了 如 何在 Person 关系 中 创建 一 个 新 的 元 组 。 假 设 类 似 于 我 们 为 Name 做 出 的 定 
义 ，4ddress 上 已 经 定义 了 一 个 构造 器 。 


insert into Person 


values 
(new Name(‘ John’ , ‘Smith’ ) , 
new Address( ‘20 Main St’, ‘New York’, ‘11001’ ), 


date ‘1960-8-22° ) ; 
22. 3.2 类 型 继承 
假定 有 如 下 的 关于 人 的 类 型 定义 : 


create type Person 
(name varchar(20) , 
address varchar(20) ) ; 


我 们 可 能 希望 在 数据 库 中 为 那些 是 学 生 和 教师 的 人 存储 一 些 额 外 的 信息 ， 由 于 学 生 和 教师 也 同 
样 是 人 ， 我 们 就 可 以 在 SQL 中 使 用 继承 来 定义 学 生 和 教师 类 型 : 


create type Student 

under Person 

(degree varchar(20) , 

department varchar( 20) ) ; 
create type Teacher 

under Person 

(salary integer , 

department varchar( 20) ) ; 


Student 和 Teacher 都 继承 了 Person 的 属性 ， 即 name 和 address, Student 和 Teacher 被 称 为 Person 的 
子 类 型 Person 是 Student 的 父 类 型 ， 同 时 也 是 Teacher 的 父 类 型 。 

像 属 性 一 样 ， 结 构 类 型 的 方法 也 被 它 的 子 类 型 继承 。 不 过 ， 子 类 型 可 以 通过 在 方法 声明 中 用 

[952 | overriding method 代替 method 来 重新 声明 该 方法 ， 以 重 定义 该 方法 的 效用 。 

SQL 标准 还 需要 在 类 型 定义 的 尾部 有 一 个 额外 的 域 ， 取 值 为 final 或 not final。 关 键 字 final 表示 
不 能 从 给 定 类 型 创建 子 类 型 ， 而 not final 表示 可 以 创建 子 类 型 。 

现在 假定 我 们 要 存储 关于 助教 的 信息 ， 这 些 助教 同时 既是 学 生 又 是 教师 ， 甚 至 可 能 是 在 不 同 的 
系 里 。 如 果 类 型 系统 支持 多 重 继承 ( multiple inheritance) ， 即 一 个 类 型 可 以 被 声明 为 多 个 类 型 的 子 类 
型 ， 我 们 就 可 以 做 到 这 一 点 。 注 意 SQL 标准 并 不 支持 多 重 继承 ， 尽 管 将 来 的 SQL 标准 可 能 支持 。 因 
此 这 里 我 们 仅仅 在 概念 层面 加 以 讨论 。 

例如 ， 如 果 我 们 的 类 型 系统 支持 多 重 继承 ， 我 们 可 以 试 着 为 助教 定义 一 个 类 型 如 下 : 


create type TeachingAssistant 
under Student, Teacher; 


TeachingAssistant 将 继承 Student 和 Teacher 的 所 有 属性 ， 但 是 却 有 一 个 问题 ， 因 为 name, address 
和 department 属性 同时 存在 于 Student 和 Teacher 中 。 

name 和 address 属性 实际 上 是 从 同一 个 来 源 Person 继承 来 的 ， 因 此 同时 从 Student 和 Teacher 
中 继承 这 两 个 属性 不 会 引起 冲突 。 然 而 department 属性 是 在 Student 和 Teacher 中 分 别 定 义 的 。 事 实 
上 ， 一 个 助教 可 能 是 某 个 系 的 学 生 同 时 又 是 另 一 个 系 中 的 教师 。 为 了 避免 两 次 出 现 的 department 之 间 
的 冲突 ， 我 们 可 以 使 用 as 子 句 将 它们 重新 命名 ， 如 下 面 的 TeachingAssistant 类 型 定义 所 示 : 


create type TeachingAssistant 
under Student with (department as student_dept) , 
Teacher with ( department as teacher_dept ) ; 
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在 SQL 中 ， 和 在 大 多 数 其 他 的 语言 中 一 样 ， 一 个 结构 类 型 的 值 必须 恰好 只 有 一 个 最 明确 类 型 ， 
即 每 一 个 值 在 创建 时 必须 被 关联 到 一 个 确定 的 类 型 ， 称 为 它 的 最 明确 类 型 (most-specific type), iit 
继承 ， 它 也 与 其 最 明确 类 型 的 每 个 父 类 型 相关 联 。 举 例 来 说 ， 假 定 一 个 实体 具有 类 型 Person， 同 时 
又 具有 类 型 Student， 那 么 这 个 实体 的 最 明确 类 型 为 Student， 因 为 Student 是 Person 的 子 类 型 。 然 而 一 
个 实体 不 能 同时 既 具 有 类 型 Student 又 具有 类 型 Teacher， 除 非 这 个 实体 具有 一 个 如 TeachingAssistant 那 
样 既 是 Student 的 子 类 型 又 是 Teacher 的 子 类 型 的 类 型 (这 在 SQL 中 是 不 可 能 的 ， 因 为 SQL 不 支持 多 重 
继承 )。 


22.4 RAR 
SQL 中 的 子 表 对 应 E-R 概念 中 的 特殊 化 /一 般 化 。 例 如 ， 假 设 我 们 如 下 定义 people 表 : 


create table people of Person; 


则 我 们 可 以 如 下 定义 表 students 和 teachers 作为 people 的 子 表 ( subtable ) : 


create table students of Student 
under people; 

create table teachers of Teacher 
under people ; 


子 表 的 类 型 (在 上 例 中 是 Student 和 Teacher R) 必须 是 父 表 类 型 (在 以 上 例子 中 是 Person K) 的 子 类 型 ， 
因此 ， 出 现在 表 people 中 的 每 一 个 属性 也 出 现在 其 子 表 students Fil teachers 中 。 

进一步 说 ， 当 我 们 声明 students 和 teachers 作为 people WITH, students 或 teachers 中 出 现 的 每 一 
个 元 组 也 隐 式 地 存在 于 people 中 。 所 以 ， 如 果 一 个 查询 用 到 people 表 ， 它 将 查找 到 的 不 仅仅 是 直接 插 
入 到 这 个 表 中 的 元 组 ， 而 且 还 包含 插入 到 它 的 子 表 中 的 元 组 ， 也 就 是 students 和 teachers 中 的 元 组 。 
然而 ， 这 个 查询 只 能 访问 那些 出 现在 people 中 的 属性 。 

SQL 允许 我 们 在 查询 中 使 用 “only people” RE people 来 查找 只 在 people 中 而 不 在 它 的 子 表 中 的 元 
组 。 关 键 字 only 还 可 以 在 delete 和 update 语句 中 使 用 。 如 果 不 使 用 only 关键 字 ， 超 表 ( 例如 people) 
上 的 删除 语句 还 会 删除 原先 插入 到 子 表 ( 例 如 students) 中 的 元 组 ; 例如 ， 语 句 


delete from people where P; 


将 删除 people 表 中 所 有 满足 P 的 元 组 ， 以 及 子 表 students 和 teachers 中 所 有 满足 P 的 元 组 。 如 果 在 上 面 
的 语句 中 增加 了 only 关键 字 ， 插 人 到 子 表 中 的 元 组 不 会 受到 影响 ， 即 使 它们 满足 where 子 句 。 以 后 
对 超 表 的 查询 将 仍然 能 够 查找 到 这 些 元 组 。 

概念 上 ， 多 重 继承 对 表 来 说 也 是 可 能 的 ， 正 如 对 于 类 型 是 可 能 的 一 样 。 例 如 ,我们 可 以 创建 一 
个 类 型 为 TeachingAssistant 的 表 : 


create table teaching_assistants 
of TeachingAssistant 
under students, teachers; 


作为 声明 的 结果 ， 每 一 个 在 teaching_assistants 中 出 现 的 元 组 也 隐 式 地 在 表 teachers 和 students 中 出 
现 ， 从 而 也 出 现在 people 表 中 。 但 是 我 们 注意 到 SQL 并 不 支持 表 的 多 重 继承 。 

对 子 表 有 一 些 一 致 性 要 求 。 在 陈述 约束 之 前 ,我 们 需要 一 个 定义 : 如 果子 表 和 父 表 中 的 元 组 在 
所 有 的 继承 属性 上 具有 同样 的 值 ， 则 称 子 表 中 的 元 组 与 父 表 中 的 元 组 对 应 (correspond)。 因 此 ， 相 对 
应 的 元 组 表示 同一 个 实体 。 

子 表 的 一 致 性 要 求 为 : 

1. 父 表 的 每 个 元 组 至 多 可 以 与 它 的 每 个 直接 子 表 的 一 个 元 组 相对 应 。 

2. SQL 有 一 个 附加 的 约束 ， 所 有 互相 对 应 的 元 组 必须 由 同一 个 元 组 派生 出 来 (插入 到 一 个 表 
中 )。 

例如 ， 若 没有 第 一 个 条 件 ， 我们 就 可 能 在 students( 或 teachers) 中 有 两 个 元 组 与 同一 个 人 相对 应 。 

第 二 个 条 件 排除 了 people 中 的 一 个 元 组 同时 对 应 students 中 的 一 个 元 组 和 teachers 中 的 一 个 元 组 的 
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情况 ,除非 所 有 这 些 元 组 都 隐 式 出 现 (这 是 由 于 一 个 元 组 被 插入 到 同时 是 teachers 和 students 的 子 表 的 
teaching_assistants 表 中 )。 

由 于 SQL 不 支持 多 继承 ， 所 以 第 二 个 条 件 实际 上 阻止 了 一 个 人 既是 教师 又 是 学 生 的 情况 。 即 使 
支持 多 继承 ， 这 个 问题 在 没有 子 表 teaching_assistants 时 也 会 出 现 。 显 然 ， 即 使 没有 公共 子 表 teaching_ 
assistants， 为 可 以 让 一 个 人 既是 教师 又 是 学 生 的 情况 建 模 也 是 很 有 用 的 。 因 此 ， 去 掉 第 二 个 条 件 是 有 
用 的 。 这 样 会 在 不 要 求 对 象 必须 有 一 个 最 明确 类 型 的 情况 下 ， 人 允许 它 具 有 多 个 类 型 。 

例如 ， 仍 然 假 定 我 们 有 具有 子 类 型 Student 和 Teacher 的 类 型 Person， 以 及 相应 的 具有 子 表 teachers 
和 students 的 表 people。 然 后 我 们 就 能 够 使 teachers 中 的 一 个 元 组 和 student 中 的 一 个 元 组 与 people 中 的 
同一 个 元 组 相对 应 。 这 就 不 需要 Student 和 Teacher 的 子 类 型 TeachingAssistant 类 型 了 。 我 们 无 需 创 建 
一 个 TeachingAssistant 类 型 ， 除 非 我 们 希望 存储 额外 属性 或 以 特定 于 既是 学 生 又 是 教师 的 人 的 方式 重 
定义 方法 。 

但 是 ， 遗 憾 的 是 ， 我 们 注意 到 ， 由 于 一 致 性 要 求 2，SQL 禁止 这 种 情况 。 因 为 SQL 也 不 支持 多 重 
继承 ， 对 于 一 个 人 既是 学 生 又 是 教师 的 情况 ， 我们 不 能 用 继承 来 建 模 。 因 此 ，SQL 子 表 不 能 用 于 表 
示 E-R fe PW BAL. 

FET 4A AT VA Gal E A h R ARR EEROR, mA a E RR Ht E ED 
7.8.6. 1 小节 进行 了 描述 。 在 上 面 的 例子 中 ， 我们 可 以 创建 表 people students 和 teachers, H P 

955 | students 和 teachers 包含 Person 类 型 的 主键 属性 以 及 Student 和 Teacher 类 型 各 自 的 其 他 特定 属性 。people 
表 将 含有 所 有 人 的 信息 ， 包 括 学 生 和 教师 。 然 后 我 们 增加 适当 的 参照 完整 性 约束 以 确保 学 生 和 教师 
也 在 people 表 中 表示 。 

换 句 话说 ,我们 可 以 利用 SQL 已 有 的 特性 ， 通 过 一 些 在 定义 表 和 在 查询 时 指定 连接 以 获取 需要 
的 属性 方面 的 额外 的 努力 ， 来 构造 我 们 自己 的 改进 的 子 表 机 制 的 实现 。 

我 们 注意 到 SQL 定义 了 一 个 称 为 under 的 特权 ， 当 在 男 外 一 个 类 型 或 表 的 下 面 创建 一 个 子 类 型 
或 者 子 表 时 需要 这 个 特权 。 定 义 这 个 特权 的 动机 与 references 特权 类 似 。 


22.5 SQL 中 的 数组 和 多 重 集合 类 型 


SQL 支持 两 种 集合 体 类 型 : 数组 和 多 重 集合 。 数 组 类 型 是 在 SQL: 1999 中 增加 的 ， 而 多 重 集合 
类 型 是 在 SQL: 2003 中 增加 的 。 请 回想 ， 多 重 集合 是 一 个 无 序 集合 ， 一 个 元 素 可 能 在 其 中 出 现 多 次 ， 
多 重 集合 与 集合 相似 ， 区 别 只 在 于 集合 只 允许 每 个 元 素 最 多 出 现 一 次 。 

假定 我 们 希望 记录 有 关 图 书 的 信息 ， 每 本 书 都 包含 一 个 关键 字 的 集合 。 并 且 假 定 我 们 希望 将 图 
书 作者 的 名 字 以 数组 的 形式 存储 ; 不 同 于 多 重 集合 中 的 元 素 ， 数 组 中 的 元 素 是 有 序 的 ， 从 而 我 们 可 
以 区 分 第 一 作者 和 第 二 作者 ， 等 等 。 下 面 的 例子 示例 了 如 何在 SQL 中 定义 这 些 以 数组 和 和 多重 集合 为 
值 的 属性 : 





create type Publisher as 
(name Varchar(20 ) , 
branch varchar( 20) ) ; 
create type Book as 
(title varchar(20) , 
author_array varchar( 20) array[ 10], 
pub_date date, 
publisher Publisher , 
keyword_set varchar(20) multiset) ; 
create table books of Book; 


第 一 条 语句 定义 了 一 个 称 为 Publisher 的 类 型 ， 它 包括 两 个 成 分 : name 和 branch。 第 二 条 语句 定 
义 了 一 个 结构 类 型 Book， 包 含 fitle、author_array、 出 版 日 期 、 出 版 社 (类 型 为 Publisher) 和 关键 字 的 多 
重 集合 ， 其 中 author_array 是 一 个 最 多 可 以 存储 10 个 作者 姓名 的 数组 。 最 后 ,创建 了 一 个 包含 类 型 
为 Book 的 元 组 的 books 表 。 
注意 我 们 使 用 数组 而 不 是 多 重 集合 来 存储 作者 的 姓名 ， 因 为 作者 的 顺序 一 般 是 有 意义 的 ， 而 我 
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们 认为 与 图 书 关联 的 关键 字 的 顺序 是 没有 意义 的 。 
一 般 而 言 ，E-R 模式 中 的 多 值 属性 可 以 映射 到 SQL 中 的 以 多 重 集合 为 值 的 属性 ; 如 果 顺 序 是 重 
要 的 ， 可 以 使 用 SQL 数组 来 代替 多 重 集合 。 
22.5.1 创建 和 访问 集合 体 值 
在 SQL: 1999 中 ， 一 个 数组 的 值 可 以 用 这 种 方式 创建 : 
array[ ‘Silberschatz’, ‘Korth’, ‘Sudarshan’ ] 


类 似 地 ， 关 键 字 的 多 重 集 合 可 以 这 样 构造 : 
multiset[ * computer’ , ‘database’, ‘SQL’ | 

因此 ， 我 们 可 以 创建 一 个 books 关系 中 定义 的 类 型 的 元 组 为 : 

( ‘Compilers’ , array[ ‘Smith’ , ‘Jones’ ], mew Publisher ( ‘ McGraw-Hill’ , * New York’ ) ， 

multiset| ‘ parsing’ , ‘analysis’ | ) 
这 里 我 们 已 经 通过 以 适当 的 参数 调用 Publisher 的 构造 器 函数 为 Publisher 属性 创建 了 一 个 值 。 注 意 
Publisher 的 这 个 构造 器 函数 必须 被 显示 地 创建 ， 而 不 是 默认 存在 的 ; 可 以 用 与 前 面 22.3 节 中 我 们 看 
到 的 Name 的 构造 器 函数 相似 的 方式 声明 它 。 
如 果 我 们 希望 将 上 面 的 元 组 插入 到 books 关系 中 ,我们 可 以 执行 这 个 语句 : 


insert into books 

values ( ‘Compilers’, array[ ‘Smith’, ‘Jones’ | , 
new Publisher( ‘McGraw-Hill’ , * New York’ ) , 
multiset[ ‘ parsing’ , ‘analysis’ | ) ; 


我 们 可 以 通过 指定 数组 索引 ， 例 如 author_array[ 1 ] ,来 访问 或 更 新 数组 中 的 元 素 。 
22.5.2 查询 以 集合 体 为 值 的 属性 
现在 我 们 考虑 怎样 处 理 查 询 中 的 以 集合 体 为 值 的 属性 。 一 个 计算 得 到 集合 体 的 表达 式 可 以 出 现 


在 关系 名 可 能 出 现 的 任何 地 方 ， 例 如 像 下 个 段落 中 展示 的 那样 出 现在 from 子 句 中 。 我 们 使 用 先前 定 
SLAY books Ro 


如 果 我 们 想 找 出 所 有 的 以 “ database” 为 关键 字 之 一 的 书 ， 我 们 可 以 使 用 这 个 查询 : [957 | 
select title 
from books 


where ‘database’ in ( unnest( keyword_set) ) ; 


请 注意 我 们 使 用 unnest( keyword_set) 的 位 置 ， 这 个 位 置 在 无 艇 套 关系 的 SQL 中 本 来 是 要 求 一 个 
select-from-where 的 子 表 达 式 。 
如 果 我 们 知道 一 本 特定 的 书 有 三 个 作者 ， 我 们 会 这 样 写 : 
select author_array[ 1 ] , author_array[ 2] , author_array[ 3 ] 
from books 
where title = “Database System Concepts’ ; 
现在 ， 假 定 我 们 想得到 一 个 关系 ， 它 包含 形式 为 “ 书 名 ， 作 者 名 ”的 对 ， 对 应 每 本 书 和 书 的 每 个 
作者 。 我 们 可 以 使 用 这 样 的 查询 : 
select B. title, A. author 
from books as B, unnest( B. author_array) as A( author) ; 
由 于 books 的 author_array 属性 是 一 个 以 集合 体 为 值 的 字段 ，unnest( B. author_array) 可 以 用 在 一 个 
from 子 句 中 ， 即 应 该 出 现 一 个 关系 的 位 置 。 注 意 元 组 变量 B 对 这 个 表达 式 是 可 见 的 ， 因 为 它 先 前 已 
经 在 from 子 句 中 定义 了 。 
当 对 一 个 数组 解除 嵌 套 时 ， 上 面 的 查询 丢失 了 数组 中 元 素 的 顺序 信息 。unnest with ordinality 子 
句 可 以 用 于 获得 该 信息 ， 如 下 面 的 查询 所 示 。 这 个 查询 可 以 用 于 从 books 关系 生成 我 们 以 前 见 到 过 的 
authors 关系 。 
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select title, A. author, A. position 
from books as B, 
unnest( B. author_array) with ordinality as A( author, position) ; 


with ordinality 子 句 生成 一 个 额外 的 属性 记录 数组 中 元 素 的 位 置 。 一 个 类 似 的 但 是 不 使 用 with 
ordinality 子 句 的 查询 ， 可 以 用 于 生成 keyword 关系 。 


22.5.3 KEMMRRE 
H—-PMREKAR RMA AED ( MRA KAA AH BENE K i E KARR RE 
(unnesting) , books 关系 有 author_array 和 keyword_set 两 个 属性 是 集合 体 ， 以 及 title 和 publisher 两 个 属 
性 不 是 集合 体 。 假 定 我 们 想 要 将 该 关系 转化 为 一 个 单一 的 平面 关系 ， 使 其 不 包含 藤 套 关系 和 结构 类 
型 作为 属性 。 我 们 可 以 使 用 以 下 查询 来 执行 这 个 任务 : 
select title, A. author, publisher. name as pub_name, publisher. branch 
as pub_branch, K. keyword 


from books as B, unnest( B. author_array) as A( author) , 
unnest( B. keyword_set) as K( keyword) ; 


from 子 句 中 的 变量 B 被 声明 为 以 books 为 取 值 范围 。 变 量 4 被 声明 为 以 书 B 的 author_array 中 的 
作者 为 取 值 范围 ， 同 时 天 被 声明 为 以 书 B 的 keyword_set 中 的 关键 字 为 取 值 范围 。 图 22-1 显示 了 books 
关系 的 一 个 实例 ， 图 22-3 显示 了 我 们 称 之 为 flat_books 的 关系 ， 它 是 上 面 的 查询 的 结果 。 注 意 ,flat_ 
books 关系 是 满足 INF 的 ， 因 为 它 的 所 有 属性 都 是 原子 的 值 。 

title author pubname | pub_branch | keyword 
Compilers | Smith | McGraw-Hill | New York | parsing 


Compilers | Jones McGraw-Hill New York parsing 
Compilers Smith McGraw-Hill New York analysis 






































Compilers | Jones McGraw-Hill New York analysis 
Networks Jones Oxford London Internet 
Networks Frick Oxford London Internet 
Networks Jones Oxford London Web 
Networks Frick Oxford | London Web 





图 22-3 flat_books: 对 books 关系 的 author_array 属性 和 keyword _set R VE fF BRAKE HAR 


将 一 个 INF RAR LARERA WS I EK RE (nesting). Hk AT LAA SQL 中 的 分 组 操作 
的 一 个 扩展 来 执行 。 在 SQL 中 分 组 的 常规 使 用 中 ， 要 对 每 个 组 (逻辑 上 ) 创建 一 个 临时 的 多 重 集合 关 
系 ， 并 且 在 这 个 临时 关系 上 应 用 一 个 聚集 函数 以 获得 一 个 单一 (原子 ) 值 。collect 函数 返回 值 的 多 重 
集合 ， 因 此 我 们 可 以 创建 一 个 艇 套 关系 ， 不 是 创建 一 个 单一 值 。 假 定 给 定 一 个 1NF 关系 flat_books， 
如 图 22-3 所 示 。 下 面 的 查询 在 属性 keyword LIIR RHI T RE: 


select title, author, Publisher( pub_name, pub_branch) as publisher, 
collect( keyword) as keyword_set 

from flat_books 

group by title, author, publisher; 


在 图 22-3 ras hy flat_books 关系 上 执行 这 个 查询 的 结果 如 图 22-4 所 示 。 





















[title | author | Pier .| Keyword sef | 
| 
| Smith | (McGraw-Hill, New (parsing, analysis 
Compilers | Jones (McGraw-Hill, New York) | {parsing, analysis} 

Networks Jones (Oxford, London) {Internet, Web} 









Networks Frick Oxford, London Internet, Web} 


22-4 flat_books RAHI — B57 kB WAS 
如 果 我 们 还 要 将 作者 属性 艇 套 到 多 重 集合 中 ,我 们 可 以 使 用 查询 : 
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select title, collect( author) as author_set, 
Publisher( pub_name, pub_branch) as publisher, 
collect( keyword) as keyword _set 
from flat_books 
group by title, publisher; 
另 一 种 创建 符 套 关系 的 方法 是 在 select 子 句 中 使 用 子 查询 。 子 查询 方法 的 一 个 优势 是 在 子 查询 中 

可 以 使 用 order by 子 句 ， 从 而 以 创建 数组 所 需 的 顺序 来 产生 结果 。 下 面 的 查询 解释 了 这 种 方法 ; 关 
键 字 array 和 multiset 指明 数组 和 多 重 集合 将 用 子 查询 的 结果 来 创建 。 


select title , 
array (select author 
from authors as A 
where A. title = B. title 
order by A. position) as author_array, 
Publisher( pub_name, pub_branch) as publisher , 
multiset ( select keyword 
from keywords as K 
where K. title = B. title) as keyword_set, 
from books4 as B; 


系统 为 外 层 查询 的 from 和 where 子 句 生成 的 每 个 元 组 执行 select FA PANE TA. TERK 
自 外 层 查 询 的 B. title 属性 被 用 到 内 套 查询 中 ， 以 确保 对 每 个 书 名 仅 生 成 正确 的 作者 和 关键 字 集合 
SQL: 2003 在 多 重 集合 上 提供 了 多 种 操作 符 ， 包 括 : ABM set( M) ， 它 返回 多 重 集合 M 的 一 个 无 
重复 元 组 版 本 ;聚集 操作 intersection， 它 返回 一 个 组 中 所 有 多 重 集合 的 交集 ; 聚集 操作 fusion, € 
返回 一 个 组 中 所 有 多 重 集合 的 并 集 ; 谓词 sabmultiset， 它 检测 一 个 多 重 集合 是 否 包含 在 另 一 个 多 重 [950 | 
集合 中 。 | 960 
SQL 标准 不 提供 除了 赋予 新 值 以 外 的 任何 更 新 多 重 集合 属性 的 方法 。 例 如 ， 要 从 多 重 集合 属性 4 
中 删除 一 个 值 vz， 我 们 必须 将 其 置 为 (4A except all multiset[ v] ) 。 


22.6 SQL 中 的 对 象 标 识 和 引用 类 型 


面向 对 象 的 程序 设计 语言 提供 了 引用 对 象 的 能 力 。 类 型 的 一 个 属性 可 以 是 对 一 个 指定 类 型 的 对 
象 的 引用 。 例 如 ， 在 SQL 中 我 们 可 以 定义 一 个 Department 类 型 ， 它 有 一 个 name 域 和 一 个 对 Person 类 
型 进行 引用 的 head 域 ， 并 且 定 义 一 个 Department 类 型 的 表 departments， 如 下 所 示 : 


create type Department ( 

name varchar( 20) , 

head ref( Person) scope people) ; 
create table departments of Department ; 


这 里 ， 引 用 被 限制 在 people 表 中 的 元 组 。 在 SQL 中 ， 对 指向 一 个 表 的 元 组 的 引用 范围 ( scope ) 的 
限制 是 强制 的 ， 它 使 引用 的 行为 与 外 码 类 似 。 
我 们 可 以 省 略 掉 类 型 声明 中 的 scope people 声明 ， 而 在 create table 语句 中 作 补 充 : 


create table departments of Department 
(head with options scope people) ; 


被 引用 的 表 必 须 有 一 个 属性 来 存储 元 组 的 标识 符 。 我 们 通过 在 create table 语句 中 增加 一 个 ref is 
子 句 来 声明 这 个 称 为 自 引 用 属性 (self-referential attribute) 的 属性 : 


create table people of Person 
ref is person_id system generated ; 


这 里 ，person_id 是 一 个 属性 名 ， 不 是 关键 字 ， 而 create table 语句 指定 该 标识 符 是 由 数据 库 自 动 
生成 的 。 

为 了 初始 化 一 个 引用 属性 ， 我 们 需要 得 到 被 引用 元 组 的 标识 符 。 我 们 可 以 通过 查询 得 到 一 个 元 
组 的 标识 符 的 值 。 因 此 ， 为 了 创建 一 个 有 引用 值 的 元 组 ， 我 们 可 以 首先 创建 带 有 空 引 用 的 元 组 ， 然 
后 单独 地 设置 其 引用 : [961 | 
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insert into departments 
values( “ CS’ , null); 
update departments 
set head = (select p. person_id 
from people as p 
where name = ‘John’ ) 
where name = ‘CS’; 


与 系统 生成 标识 符 不 同 的 另 一 种 方法 是 允许 用 户 生 成 标识 符 。 自 引用 属性 的 类 型 必须 指定 为 被 
引用 表 的 类 型 定义 的 一 部 分 ， 而 且 表 定义 中 必须 指定 引用 是 用 户 生成 (user generated) 的 : 


create type Person 
(name varchar( 20) , 
address varchar (20) ) 
ref using varchar( 20) ; 
create table people of Person 
ref is person_id user generated ; 


“4 [8] people 中 插入 元 组 时 ， 我们 必须 为 标识 符 提 供 值 : 
insert into people (person_id, name, address) values 
( ‘01284567’, ‘John’, ‘23 Coyote Run’ ); 


People 表 、 其 父 表 以 及 其 子 表 中 均 不 能 有 其 他 元 组 具有 同样 的 标识 符 。 这 样 我 们 在 向 departments 
中 插入 元 组 时 就 可 以 使 用 标识 符 的 值 ， 而 不 需要 一 个 单独 的 查询 来 获取 标识 符 : 


insert into departments 
values( ‘CS’, ‘01284567’ ); 
还 有 一 种 可 能 的 方法 是 通过 在 类 型 定义 中 包含 ref from 子 句 以 使 用 一 个 已 有 的 主 码 值 作为 标 
WR: 
create type Person 

( name varchar(20) primary key, 

address varchar (20 ) ) 

ref from ( name) ; 


create table people of Person 
ref is person_id derived ; 


注意 表 定 义 必须 指明 引用 是 衍生 出 来 的 ,而且 还 必须 指定 一 个 自 引 用 属性 名 。 这 样 当 向 
departments 中 插入 元 组 时 ， 我 们 就 可 以 使 用 : 
insert into departments 
values( ‘CS’, ‘John’ ); 
SQL: 1999 中 使 用 - > 符号 对 引用 取 内 容 。 考 虑 前 面 定义 的 departments 表 ， 我 们 可 以 使 用 这 个 
查询 来 找 出 各 部 门 负责 人 的 名 字 和 地 址 : 


select head - > name, head — > address 
from departments ; 


“head — > name” 这样 的 表达 式 称 为 路 径 表 达 式 (path expression ) 。 

由 于 head 是 对 people 表 中 一 个 元 组 的 引用 ， 上 述 查 询 中 的 name 属性 就 是 people 表 中 元 组 的 name 
属性 。 引 用 可 以 用 来 隐藏 连接 操作 ; 在 上 面 的 例子 中 ， 如 果 不 使 用 引用 ， 则 department 的 head 字段 
就 会 被 声明 为 people 表 的 一 个 外 码 。 要 找 出 一 个 部 门 负责 人 的 姓名 和 地 址 ， 我 们 就 需要 显 式 地 连接 
departments 关系 与 people 关系 。 使 用 引用 大 大 简化 了 查询 。 

我 们 可 以 使 用 deref 操作 来 返回 引用 所 指向 的 元 组 ， 并 接着 访问 它 的 属性 ， 如 下 所 示 : 


select deref( head). name 
from departments; 


22.7 O-R 特性 的 实现 
WR -关系 数据 库 系 统 基本 上 是 对 已 有 关系 数据 库 系 统 的 扩展 ， 在 数据 库 系 统 的 很 多 层次 上 都 
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明显 需要 改变 。 但 是 ， 为 了 使 对 存储 系统 的 代码 (关系 存储 、 索 引 等 ) 的 改动 最 小 化 ， 对 象 -关系 系 
统 支持 的 复杂 数据 类 型 可 以 转化 为 关系 数据 库 的 较 简 单 的 类 型 系统 

为 了 理解 如 何 进行 转换 ， 我们 只 需 查 看 E-R 模型 的 某 些 特性 是 如 何 转换 成 关系 的 。 例 如 ，E-R 
模型 中 的 多 值 属性 对 应 于 对 象 -关系 模型 中 的 以 多 重 集合 为 值 的 属性 。 复 合 属性 大 致 对 应 于 结构 类 
型 。E-R 模型 中 的 ISA 层次 对 应 于 对 象 - 关系 模型 中 的 表 继 承 。 

我 们 在 7. 6 节 中 看 到 的 将 E-R 模型 的 特性 转换 到 表 的 技术 ， 可 以 通过 某 些 扩展 用 于 在 存储 层 将 
对 象 -关系 数据 转换 成 关系 型 的 数据 。 

子 表 可 以 在 无 需 复 制 所 有 继承 字段 的 情况 下 ， 以 如 下 两 种 方式 之 一 有 效 地 存储 : 

© 每 一 个 表 只 存储 主 码 ( 可 能 是 从 父 表 中 继承 下 来 的 ) 和 局 部 定义 的 属性 。 继 承 属性 ( 主 码 以 外 
的 ) 不 需要 存储 ， 可 以 通过 基于 主 码 的 与 其 父 表 的 连接 得 到 。 

。 每 一 个 表 存 储 所 有 继承 的 和 局 部 定义 的 属性 。 当 插入 一 个 元 组 时 ， 它 仅仅 存储 在 它 所 插入 的 
那个 表 中 ， 它 的 每 个 父 表 通过 推断 判断 它 的 存在 。 因 为 不 需要 连接 ， 所 以 可 以 更 快 地 访问 元 
组 的 所 有 属性 。 

但 是 ,一旦 类 型 系统 允许 一 个 实体 出 现在 两 个 子 表 中 而 不 出 现在 这 两 个 子 表 的 公共 子 表 
中 ， 这 种 表达 可 能 造成 信息 的 重复 。 更 进一步 ， 很 难 将 指向 父 表 的 外 码 转 化 为 子 表 上 的 约 
R; 为 了 有 效 地 实现 这 种 外 码 ， 父 表 必 须 被 定义 为 视图 ， 且 数据 库 系统 必须 支持 视图 上 的 
外 码 。 

实现 时 可 以 选择 直接 表示 数组 和 多 重 集合 ， 或 者 选择 在 内 部 使 用 一 个 标准 化 表达 。 标 准 化 表达 

倾向 于 占用 更 多 的 空间 ， 且 需要 一 个 额外 的 连接 /分 组 代价 以 收集 数组 或 多 重 集合 中 的 数据 。 但 是 ， 
标准 化 表达 可 能 更 加 易于 实现 

ODBC 和 JDBC 应 用 程序 接口 已 被 扩展 以 获取 和 存储 结构 类 型 。JDBC 提供 一 个 getObject( ) 方法 ， 

它 类 似 于 getString( ) ， 但 是 它 返 回 一 个 Java Struct 对 象 ， 从 中 可 以 抽取 出 结构 类 型 的 成 分 。 还 可 以 将 
一 个 Java 类 与 一 个 SQL 结构 类 型 关联 ， 然 后 JDBC 将 在 类 型 之 间 进 行 转 换 。 详 细 信 息 见 ODBC 或 
JDBC 参考 手册 ， 


22.8 持久 化 程序 设计 语言 


不 同 于 传统 程序 设计 语言 ， 数 据 库 语言 直接 操纵 持久 的 数据 ， 即 使 创建 数据 的 程序 已 经 终止 ， 
这 些 数据 仍然 继续 存在 。 数 据 库 中 的 关系 和 关系 中 的 元 组 都 是 持久 数据 的 例子 。 相 比 之 下 ,传统 程 
序 设计 语言 所 直接 操纵 的 唯一 一 种 持久 数据 就 是 文件 。 

对 数据 库 的 访问 只 是 现实 世界 应 用 中 的 一 个 组 成 部 分 。 即 便 一 种 数据 操纵 语言 ( 比如 SQL) 访 问 
数据 是 相当 高 效 的 ， 仍 然 需 要 一 种 程序 设计 语言 来 实现 应 用 中 的 其 他 组 成 部 分 ， 如 用 户 界 面 或 与 其 
他 计算 机 的 通信 。 将 数据 库 语 言 连接 到 程序 设计 语言 上 的 传统 方法 是 在 程序 设计 语言 中 对 人 SQL. 

持久 化 程序 设计 语言 ( persistent programming language) 是 一 种 结构 扩充 了 的 用 于 处 理 持久 数据 的 
RIZE. HALE RIBS SRA SQL 的 语言 可 以 用 至 少 以 下 两 种 方法 进行 区 分 : 

L 带 有 艇 入 语言 的 宿主 语言 的 类 型 系统 通常 与 数据 操纵 语言 的 类 型 系统 有 所 不 同 。 宿 主语 言 和 
SQL 之 间 的 任何 类 型 转化 都 由 程序 员 负 责 。 要 求 程 序 员 来 执行 这 项 任务 有 若干 缺陷 : 

© 对 象 和 元 组 之 间 进 行 转换 的 代码 是 在 面向 对 象 类 型 系统 之 外 执行 的 ， 因 此 存在 没有 检测 到 的 

错误 的 几率 更 高 。 

o 数据 库 中 元 组 的 面向 对 象 格式 和 关系 格式 之 间 的 转换 需要 大 量 的 代码 。 格 式 转换 代码 ， 以 及 

从 一 个 数据 库 中 装 人 和 和 印 出 数据 的 代码 ， 可 能 构成 了 应 用 所 需 全 部 代码 的 相当 大 的 比例 。 

相 比 之 下 ， 在 持久 化 程序 设计 语言 中 ， 查 询 语言 被 完全 集成 到 宿主 语言 中 ， 共 用 相同 的 
类 型 系统 。 对 象 在 数据 库 中 的 创建 和 存储 可 以 不 需要 任何 显 式 的 类 型 或 格式 转换 ; 任何 所 需 
的 格式 转换 都 被 透明 地 执行 。 

2. 使 用 栋 入 式 查 询 语言 的 程序 员 负 责编 写 从 数据 库 取 出 数据 放 入 内 存 的 显 式 的 代码 。 一 旦 执行 
了 任何 数据 更 新 ,程序 员 都 必须 显 式 地 编写 代码 将 更 新 后 的 数据 写 回 到 数据 库 中 。 
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相 比 之 下 ， 在 持久 化 程序 设计 语言 中 ， 程 序 员 可 以 操作 持久 数据 ， 而 无 需 显 式 地 编写 代码 将 数 
据 取 到 内 存 或 写 回 到 磁盘 。 

在 这 一 节 ， 我 们 描述 如 何 将 面向 对 象 程序 设计 语言 (例如 C++ 和 Java) 扩 展 为 持久 化 程序 设计 语 
言 。 这 些 语 言 特性 允许 程序 员 直 接 在 程序 设计 语言 中 操纵 数据 ， 而 不 必 通 过 一 个 像 SQL 那样 的 数据 
操纵 语言 。 这 样 ， 它 们 能 够 比 其 他 方式 ， 如 嵌入 SQL， 提 供 程 序 设 计 语 言 与 数据 库 的 更 加 紧密 的 
集成 。 

不 过 ， 持 久 化 程序 设计 语言 也 有 一 定 的 不 足 之 处 ， 当 我 们 要 决定 是 否 使 用 它 时 必须 记 住 这 一 点 。 
由 于 程序 设计 语言 通常 很 强大 ， 因 此 发 生 破 坏 数据 库 的 编程 错误 相对 容易 。 语 言 的 复杂 性 使 得 自动 
的 高 级 优化 (例如 减少 磁盘 LO) 更 加 困难 。 对 于 许多 应 用 来 说 ， 支 持 声明 性 查询 是 很 重要 的 ， 但 是 
目前 持久 化 程序 设计 语言 并 不 能 很 好 地 支持 声明 性 查询 。 

在 这 一 节 ， 我 们 描述 对 已 有 的 程序 设计 语言 增加 持久 化 时 必须 解决 的 若干 概念 问题 。 我 们 首先 
解决 独立 于 语言 的 问题 ， 并 在 接 下 来 的 小 节 中 讨论 C++ 语言 和 Java 语言 的 特有 问题 。 但 是 ， 我 们 没 
ABAD EWA; 尽管 已 经 有 若干 标准 提出 ,但 没有 一 个 是 被 普遍 认可 的 。 请 参看 文献 注解 
中 的 参考 文献 以 了 解 更 多 具体 语言 扩展 和 进一步 的 实现 细节 。 

22.8.1 ”对象 的 持久 化 

面向 对 象 程序 设计 语言 中 已 经 有 了 对 象 的 概念 、 用 于 定义 对 象 类 型 的 类 型 系统 以 及 用 于 创建 对 
象 的 结构 。 不 过 ， 这 些 对 象 是 瞬 态 的 一 一 程序 终止 时 随 之 消亡， 正如 Java 或 C 程序 中 的 变量 在 程序 
结束 后 消亡 一 样 。 如 果 我 们 想 要 将 这 样 的 一 种 语言 变 成 数据 库 程 序 设 计 语言 ， 第 一 步 就 是 要 提供 一 
种 方法 使 对 象 持 久 化 。 人 们 已 经 提出 了 许多 方法 。 

。 按 类 持久 。 一 种 最 简单 但 最 不 方便 的 方法 是 声明 一 个 类 为 持久 的 。 那 么 该 类 的 所 有 对 象 默认 

情况 下 都 是 持久 对 象 ， 非 持久 类 的 对 象 都 是 瞬 态 的 。 

由 于 经 常 需要 在 单个 类 中 同时 有 了 瞬 态 对 象 和 持久 对 象 ， 因 此 这 种 方法 是 不 灵活 的 。 在 很 
多 面向 对 象 数 据 库 系统 中 ， 声 明 一 个 类 是 持久 的 被 解释 为 该 类 中 的 对 象 可 以 被 持久 化 ， 而 不 
是 该 类 的 所 有 对 象 都 是 持久 的 。 这 些 类 或 许 更 适合 被 称 作 “ 可 持久 的 "类 ， 

。 按 创建 持久 。 这 种 方法 通过 扩展 创建 瞬 态 对 象 的 语法 ， 引 和 人 用 于 创建 持久 对 象 的 新 语法 。 因 
此 ,一 个 对 象 是 持久 的 还 是 瞬 态 的 ， 取 决 于 它们 是 如 何 创建 的 。 有 些 面 向 对 象 数据 库 系统 采 
用 了 这 种 方法 。 

。 按 标志 持久 。 这 是 上 面 方法 的 一 个 变 体 ， 是 在 对 象 被 创建 后 将 它们 标志 为 持久 的 。 所 有 的 对 
象 都 被 创建 为 瞬 态 对 象 ， 但 是 ， 如 果 一 个 对 象 要 在 程序 结束 后 持久 存在 ， 那么 必须 在 程序 终 
止 前 显 式 地 将 这 个 对 象 标 志 为 持久 的 。 与 前 一 种 方法 不 同 ， 这 种 方法 将 决定 对 象 是 持久 的 还 
是 瞬 态 的 推迟 到 对 象 创建 以 后 。 

© 按 可 达 性 持久 。 一 个 或 多 个 对 象 被 显 式 地 声明 为 ( 根 ) 持 久 对 象 。 对 于 所 有 其 他 对 象 来 说 ， 当 
( 且 仅 当 ) 它 们 从 根 结 点 通过 由 一 个 或 更 多 引用 构成 的 序列 可 达 时 ， 它 们 才 是 持久 的 。 

因此 ， 所 有 被 根 持久 对 象 引用 的 对 象 ( 即 其 对 象 标 识 符 存储 在 根 持久 对 象 中 ) 是 持久 的 。 
同时 ， 所 有 被 这 些 对 象 引 用 的 对 象 也 是 持久 的 ， 且 它们 所 引用 的 对 象 也 是 持久 的 ， 依 此 
类 推 。 
这 种 方案 有 一 个 好 处 是 可 以 很 容易 将 整个 数据 结构 变 成 持久 的 ， 只 需 声 明 这 种 结构 的 根 
为 持久 的 就 可 以 了 。 然 而 ， 数 据 库 系 统 就 要 面临 需要 沿 着 引用 链 查找 以 检测 对 象 是 否 持久 的 
负担 ， 而 其 代价 可 能 是 很 高 的 。 
22.8.2 ”对象 标识 和 指针 

在 一 个 尚未 被 扩展 以 处 理 持久 化 的 程序 设计 语言 中 ， 当 创建 一 个 对 象 时 ， 系 统 返 回 一 个 瞬 态 对 
象 的 标识 符 。 瞬 态 对 象 标 识 符 只 有 当 创 建 它 的 程序 正在 执行 时 才 是 有 效 的 ; 程序 结束 之 后 ， 对 象 就 
被 删除 了 ， 同 时 其 标识 符 也 就 没有 任何 意义 了 。 当 一 个 持久 对 象 被 创建 时 ， 它 被 赋予 一 个 持久 对 象 
标识 符 。 
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对 象 标识 的 概念 与 程序 设计 语言 中 的 指针 之 间 存 在 有 趣 的 关系 。 要 得 到 内 置 标识 ， 最 简单 的 方 
法 是 通过 指向 存储 空间 物理 位 置 的 指针 。 特 别 是 ,在 许多 面向 对 象 语言 (例如 C++ ) 中 ， 瞬 态 对 象 标 
识 符 实际 上 就 是 一 个 内 存 指针 。 
然而 ， 一 个 对 象 与 存储 空间 物理 位 置 之 间 的 关联 可 能 随时 间 发 生 改 变 ， 标 识 有 多 种 持久 程度 : 
。 过 程 内 部 。 标 识 仅 在 单个 过 程 的 执行 期 间 保持 。 过 程 内 部 标识 的 例子 是 过 程 内 的 局 部 变量 . 
。 程序 内 部 。 标 识 仅 在 单个 程序 或 查询 的 执行 期 间 保持 。 程 序 内 部 标识 的 例子 是 程序 设计 语言 
中 的 全 局 变量 。 主 存 或 虚拟 内 存 指针 只 提供 程序 内 部 标识 。 
。 程序 之 间 。 从 一 个 程序 执行 到 另 一 个 程序 执行 标识 都 会 保持 。 指 向 磁盘 上 的 文件 系统 数据 的 
指针 提供 了 程序 之 间 的 标识 ， 但 是 当 数 据 在 文件 系统 中 的 存储 方式 发 生变 化 时 ， 它 们 有 可 能 
改变 。 
。 持久 的 。 标 识 的 保持 不 仅仅 跨越 了 各 个 程序 的 执行 ， 还 跨越 了 数据 的 结构 重组 。 这 种 持久 化 
正 是 面向 对 象 系统 所 要 求 的 。 
在 诸如 C++ 这样 的 语言 的 持久 化 扩展 中 ， 持 久 对 象 的 对 象 标 识 符 用 “持久 化 指针 ”来 实现 。 与 内 
存 指针 不 同 ， 持 久 化 指针 即使 在 程序 执行 结束 后 ， 并 且 跨 越 某 些 形 式 的 数据 重组 ， 仍 然 是 有 效 的 。 
程序 员 可 以 像 使 用 程序 设计 语言 中 内 存 指针 一 样 使 用 持久 化 指针 。 从 概念 上 ， 我们 可 以 将 持久 化 指 
针 看 作 指 向 数据 库 中 某 个 对 象 的 指针 。 
22. 8.3 持久 对 象 的 存储 和 访问 

在 数据 库 中 存储 一 个 对 象 的 含义 是 什么 ? 显然 ， 对 象 的 数据 部 分 必须 要 对 每 个 对 象 单独 进行 存 
储 。 在 逻辑 上 ， 实 现 类 的 方法 的 代码 应 该 与 类 的 类 型 定义 在 一 起 ， 作 为 数据 库 模 式 的 一 部 分 存储 在 
数据 库 中 。 然 而 ， 许 多 实现 简单 地 将 代码 存储 在 数据 库 之 外 的 文件 中 ， 以 避免 将 如 编译 器 这 样 的 系 
统 软件 集成 到 数据 库 系 统 中 。 

在 数据 库 中 寻找 对 象 的 方法 有 好 几 种 。 一 种 方法 是 为 对 象 命名 ， 正 如 我 们 为 文件 命名 一 样 。 这 
种 方法 适用 于 对 象 数目 相对 较 少 的 情况 ， 而 不 能 扩展 到 上 百 万 个 对 象 上 。 第 二 种 方法 是 将 对 象 标 识 
符 或 指向 对 象 的 持久 化 指针 暴露 出 来 ， 使 它们 可 以 在 外 部 存储 。 与 名 称 不 同 ， 这 些 指 针 不 必 是 易于 
记忆 的 ， 它们 甚至 可 能 就 是 指向 数据 库 内 部 的 物理 指针 。 
第 三 种 方法 是 存储 对 象 的 集合 体 ， 并 允许 程序 在 集合 体 上 迁 代 寻找 所 需 对 象 。 对 象 的 集合 体 本 
身 可 以 被 建 模 为 集合 体 类 型 的 对 象 。 集 合体 类 型 包括 集合 、 多 重 集合 ( 即 同 一 个 值 可 能 出 现 多 次 的 集 
合 ) 、 列 表 等 。 集 合体 的 一 种 特殊 情形 是 类 区 间 (class extent) ， 它 是 属于 该 类 的 所 有 对 象 的 集合 
当 一 个 类 存在 类 区 间 时 ， 那 么 该 类 的 一 个 对 象 一 旦 被 创建 ， 该 对 象 会 被 自动 插 人 到 类 区 间 中 ， 并 且 
一 旦 对 象 被 删除 ， 该 对 象 也 会 被 从 类 区 间 中 删除 。 由 于 我 们 能 检查 类 中 的 所 有 对 象 ， 正 如 我 们 可 以 
检查 一 个 关系 中 的 所 有 元 组 一 样 ， 类 区 间 允 许 像 关系 一 样 对 待 类 。 
多 数 面向 对 象 数 据 库 系统 都 支持 以 上 三 种 访问 持久 对 象 的 方法 。 它 们 将 标识 符 赋 了 予 所 有 的 对 象 
一 般 只 对 类 区 间 和 其 他 集合 体 对 象 以 及 其 他 所 选择 的 对 象 赋予 名 字 ， 但 对 绝 大 多 数 对 象 并 没有 命名 
它们 通常 为 那些 可 以 有 持久 对 象 的 类 维护 类 区 间 ， 但 是 在 很 多 实现 中 ， 类 区 间 只 包括 类 的 持久 对 象 。 
22.8.4 持久 化 C++ 系统 
已 经 有 一 些 基于 C++ 的 持久 化 扩展 的 面向 对 象 数据 库 ( 参 见 文献 注解 )。 它 们 在 系统 架构 上 有 一 
定 的 差异 ， 然 而 从 程序 设计 语言 的 角度 来 说 它们 有 很 多 公共 的 特性 。 

C++ 语言 的 一 些 面向 对 象 特 性 为 持久 化 提供 支持 ， 而 无 需 改 变 语言 本 身 。 例 如 ， 我 们 可 以 声明 一 个 
名 为 Persistent_Objeet 的 类 ， 它 具有 一 些 属性 和 方法 来 支持 持久 化 ; 其 他 任何 应 该 持久 的 类 可 以 成 为 这 个 
类 的 子 类 ， 从 而 继承 对 持久 化 的 支持 。C++ 语 言 ( 像 其 他 现代 程序 设计 语言 一 样 ) 也 允许 我 们 根据 运算 对 
象 的 类 型 重新 定义 标准 函数 名 和 操作 符 ， 如 + 、- 、 指 针 内 容 操作 符 ( - > ) ， 等 等 。 这 种 能 力 被 称 为 重 
载 ; 它 用 于 重 定义 操作 符 ， 使 得 当 这 些 操作 符 在 持久 对 象 上 操作 时 能 够 按 所 需要 的 方式 工作 。 

通过 类 库 来 提供 持久 化 支持 具有 只 需 对 C++ 做 极 少 的 必要 修改 的 优点 ， 而 且 相 对 容易 实现 。 然 
而 ， 它 也 有 和 缺陷， 程序 员 必 须要 花 更 多 的 时 间 书 写 处 理 持 久 对 象 的 程序 ， 并 且 很 难 在 模式 中 指定 完整 
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性 约束 或 提供 对 声明 性 查询 的 支持 。 一 些 持久 化 C++ 的 实现 支持 对 C++ 语法 的 扩展 以 使 这 些 工作 更 

简单 一 些 。 

在 向 C++( 和 其 他 语言 ) 增 加 持久 化 支持 时 ， 需 要 注意 以 下 这 些 方 面 : 

。 持久 指针 : 必须 定义 一 个 新 的 数据 类 型 以 表示 持久 指针 。 例 如 ，0DMG C++ 标准 定义 了 一 个 模 

板 类 d_Ref <7> 以 表示 指向 类 了 的 持久 指针 。 在 这 个 类 上 的 取 值 操作 符 被 重 定义 为 从 磁盘 中 
(如 果 还 没有 存在 于 内 存 中 ) 获 取 对 象 ， 并 返回 一 个 指向 缓冲 区 的 内 存 指针 ， 该 缓冲 区 是 获取 对 
象 的 位 置 。 因 此 如 果 p 是 一 个 指向 类 了 的 持久 指针 ， 可 以 使 用 标准 语法 如 p- > A 或 者 p- > 
f(v) 来 访问 类 7 了 的 属性 A 或 者 调用 类 7 的 方法 广 

ObjectStore 数据 库 系统 使 用 一 个 不 同 的 方法 来 实现 持久 指针 。 它 使 用 一 般 的 指针 类 型 来 存 
储 持久 化 指针 。 这 带 来 了 两 个 问题 : (1) 内 存 指针 大 小 可 能 只 有 4 字 节 ， 对 于 大 于 46G 的 数据 
库 而 言 太 小 了 ; (2) 当 一 个 对 象 在 磁盘 中 移动 ， 指 向 其 旧 物 理 位 置 的 内 存 指针 就 没有 意义 了 。 
ObjectStore 使 用 一 种 称 为 "hardware swizzling "的 技术 解决 这 两 个 问题 ; 它 从 数据 库 预 取 对 象 到 内 
存 中 ， 并 用 内 存 指针 替换 持久 指针 ， 当 数据 被 存储 回 磁盘 时 ， 用 持久 指针 替换 内 存 指针 。 当 数 
据 在 磁盘 上 时 ， 存 储 在 内 存 指针 域 的 值 并 不 是 真正 的 持久 指针 ， 而 应 该 用 这 个 值 在 一 个 包含 完 
整 的 持久 指针 的 值 的 表 中 查找 。 

。 持久 对 象 的 创建 : C++ 的 new 操作 符 用 于 通过 定义 一 个 “ 重 载 的 "版 本 的 操作 符 ( 用 额外 的 参数 
指定 它 应 该 被 创建 在 数据 库 中 ) 来 创建 持久 对 象 。 因 此 应 该 调用 new (db) T( ) 来 创建 一 个 持久 
对 象 ， 而 不 是 用 new T( ) ， 其 中 db 标识 数据 库 。 

类 区 间 : 每 个 类 的 类 区 间 是 自动 创建 和 维护 的 。0DMG C++ 标准 要 求 类 的 名 字 以 附加 参数 的 形 

式 传递 给 new 操作 。 这 还 允许 了 通过 传递 不 同 的 名 字 来 维护 类 的 多 个 区 间 ，。 

。 联系 : 类 之 间 的 联系 常常 通过 存储 每 个 对 象 指向 其 相关 对 象 的 指针 来 实现 。 关 联 到 给 定 类 的 多 
个 对 象 的 对 象 将 存储 一 个 指针 的 集合 。 因 此 如 果 一 对 对 象 之 间 存 在 联系 ， 那 么 每 个 对 象 都 应 该 
存储 一 个 指向 另 一 个 对 象 的 指针 。 持 久 化 C++ 系统 提供 了 一 种 指定 这 种 完整 性 限制 ， 并 通过 
自动 创建 和 删除 指针 来 强制 这 种 完整 性 限制 的 方法 : 例如 ， 如 果 一 个 从 对 象 a 指向 对 象 b 的 指 
针 被 创建 ， 则 自动 向 对 象 b 增加 一 个 指向 对 象 a 的 指针 。 

。 和 迭代 器 接口 : 由 于 程序 需要 在 类 成 员 上 迭代 ， 就 需要 一 个 接口 以 在 类 区 间 的 成 员 上 和 迭代 。 和 迭代 

器 接口 还 允许 指定 选择 条 件 ， 从 而 只 有 满足 选择 谓词 的 对 象 才 需要 被 获取 。 

事务 : 持久 化 C++ 系统 提供 对 启动 、 提 交 或 回 滚 一 个 事务 的 支持 。 

更 新 : 对 程序 设计 语言 提供 持久 化 支持 的 一 个 目标 是 允许 透明 的 持久 化 。 也 就 是 说 ， 一 个 操作 

在 对 象 上 的 函数 应 该 不 需要 知道 这 个 对 象 是 持久 的 ; 因此， 同样 的 函数 可 以 使 用 在 对 象 上 而 不 

需 考虑 它们 是 否 是 持久 的 。 

但 是 存在 一 个 后 果 问 题 ， 那 就 是 很 难 探知 对 象 在 何 时 完成 了 更 新 。 一 些 对 C++ 的 持久 化 
扩展 要 求 程序 员 通过 调用 一 个 函数 mark_modified( ) 显示 指定 一 个 对 象 已 被 修改 了 。 除 了 增加 了 
程序 员 的 工作 ， 这 种 方法 还 增加 了 造成 数据 库 损坏 的 程序 错误 出 现 的 几率 。 如 果 一 个 程序 设计 
人 员 和 忽略 了 对 mark_modified( ) 的 调用 ， 可 能 发 生 这 种 情况 : 某 个 事务 发 出 的 更 新 可 能 永远 不 会 
被 传送 给 数据 库 ， 而 同一 事务 的 另 一 个 更 新 被 传送 了 ， 这 将 破坏 事务 的 原子 性 。 

其 他 系统 ， 例 如 ObjectStore ， 使 用 操作 系统 /硬件 所 提供 的 对 内 存 保 护 的 支持 来 检测 对 内 存 
块 的 写 操作 并 标记 这 个 块 为 一 个 脏 块 ， 脏 块 将 在 稍 后 被 写 到 磁盘 上 。 

。 查询 语言 : 迭代 器 对 简单 选择 查询 提供 支持 。 为 了 支持 更 加 复杂 的 查询 ,持久 化 C++ 系统 定 

义 了 一 个 查询 语言 。 

很 多 基于 C++ 的 面向 对 象 数据 库 系统 是 在 20 世纪 80 年 代 末 到 20 世纪 90 年 代 初 被 开发 出 来 的 。 
但 是 ， 这 种 数据 库 的 市 场 被 证 实 比 预期 的 小 很 多 ， 因 为 通过 如 ODBC 或 JDBC 的 接口 使 用 SQL 就 可 以 
充分 满足 大 多 数 的 应 用 需求 。 结 果 ， 那 个 时 期 开发 的 很 多 面向 对 象 数 据 库 系统 都 已 不 复 存 在 了 。 对 象 
数据 管理 团体 (ODMG ZE 20 世纪 90 年 代 定 义 了 对 C++ Java 增加 持久 化 的 标准 。 但 是 ， 这 个 团体 在 
2002 年 左右 停止 了 活动 。ObjectStore 和 Versant 是 最 初 的 面向 对 象 数据 库 系 统 中 至 今 还 存在 的 。 
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尽管 面向 对 象 数据 库 系统 没有 获得 人 们 所 希望 的 商业 上 的 成 功 ， 对 程序 设计 语言 增加 持久 化 的 动 
机 仍然 存在 。 很 多 有 高 性 能 需求 的 应 用 运行 在 面向 对 象 数据 库 系 统 上 ; 使 用 SQL 会 对 很 多 这 种 系统 强 
加 过 高 的 性 能 代价 。 使 用 目前 提供 了 对 包括 引用 在 内 的 复杂 数据 类 型 的 支持 的 对 象 - 关系 数据 库 ， 在 
SQL 数据 库 中 存储 程序 设计 语言 对 象 变 得 更 加 容易 。 用 对 象 - 关系 数据 库 作 为 后 端的 新 一 代 的 面向 对 
象 数据 库 系 统 可 能 会 出 现 。 
22.8.5 持久 化 Java 系统 

最 近 几 年 Java 语言 的 使 用 经 历 了 巨大 的 成 长 。 在 Java 程序 中 支持 数据 持久 化 的 需求 也 相应 地 增 
Ko A Java 中 的 持久 化 创建 一 个 标准 的 最 初 尝试 是 由 ODMG 协会 倡导 的 ; 随后 协会 终止 了 该 工作 ， 而 
是 将 其 设计 迁移 到 了 Java 数据 库 对 象 (Java Database Object, JDO) 之 上 。 该 项 研究 是 由 Sun 
Microsystems 协助 的 。 

用 于 Java 程序 对 象 持久 化 的 JDO 模型 不 同 于 用 于 C++ 程序 的 持久 化 支持 的 模型 。 其 特性 包括 : 


按 可 达 性 持久 : 对 象 并 不 是 在 数据 库 中 显 式 地 创建 的 。 显 式 地 注册 一 个 对 象 为 持久 的 (使 用 
PersistenceManager 类 的 makePersistent( ) 方法 ) 使 得 这 个 对 象 是 持久 的 。 另外， 任何 从 一 个 持久 
对 象 可 达 的 对 象 都 是 持久 的 。 
字 节 代码 加 强 : 其 对 象 可 能 被 持久 化 的 类 在 一 个 配置 文件 (以 . jdo 为 后 缓 ) 中 指定 ， 而 不 是 在 Java 
代码 中 声明 这 个 类 为 持久 的 。 执 行 一 个 依赖 于 实现 的 加 强 (enhancer) 程序 ， 该 程序 读 人 配置 文件 
并 完成 两 个 任务 。 第 一 ， 它 可 能 在 数据 库 中 创建 结构 以 存储 类 的 对 象 ; 第 二 ， 它 修改 字 节 代 码 
(通过 编译 Java 程序 而 生成 ) 以 处 理 与 持久 化 相关 的 任务 。 以 下 是 这 种 修改 的 一 些 例子 : 
O 任何 访问 对 象 的 代码 可 以 被 修改 为 首先 检查 对 象 是 否 在 内 存 中 ， 如 果 不 在 ， 则 执行 一 些 步骤 
将 其 读 人 内 存 中 。 
O 任何 修改 对 象 的 代码 被 修改 为 额外 地 记录 该 对 象 已 被 修改 。 这 些 代码 还 可 能 被 修改 为 保存 一 
个 预 更 新 值 ， 以 防 这 个 更 新 需要 被 撤销 ( 即 如 果 事 务 被 回 滚 ) 。 

可 能 也 会 执行 对 字 节 代码 的 其 他 修改 。 这 种 字 节 代码 修改 是 可 能 的 ， 因 为 字 节 代码 是 跨 平 
台 的 标准 ， 且 比 编译 过 的 对 象 代 码 包含 更 多 的 信息 。 
数据 库 映射 : JDO 没有 定义 数据 如 何 存储 在 后 端 数据 库 。 例 如 ， 一 个 普遍 的 场景 是 在 一 个 关系 
数据 库 中 存储 对 象 。 加 强 程序 可 能 在 数据 库 中 创建 一 个 合适 的 模式 以 存储 类 对 象 。 它 到 底 如 何 
做 到 这 一 点 是 依赖 于 实现 的 ， 且 不 是 由 JDO 定义 的 。 一 些 属性 可 能 被 映射 为 关系 属性 ， 而 其 他 
属性 可 能 以 序列 化 的 形式 存储 ， 被 数据 库 看 作 一 个 二 进 制 对 象 来 对 待 。JDO 实现 可 能 允许 通过 
定义 一 个 合适 的 映射 将 已 有 的 关系 数据 视 为 对 象 。 
类 区 间 : 每 个 声明 为 持久 的 类 的 类 区 间 是 自动 创建 和 维护 的 。 所 有 持久 对 象 被 自动 增加 到 对 应 
于 其 类 的 类 区 间 中 。JDO 程序 可 能 访问 一 个 类 区 间 ， 并 在 被 选择 的 成 员 上 和 迭代 。jJava 提供 的 
Iterator 接口 可 以 用 于 创建 类 区 间 上 的 和 迭代 器 ， 并 在 类 区 间 的 成 员 上 扫 过 。JDO0 还 允许 当 在 一 个 
类 区 间 上 创建 迭代 器 时 指定 选择 条 件 ， 只 有 满足 选择 条 件 的 对 象 才能 被 获取 。 
单个 引用 类 型 : 对 瞬 态 对 象 的 引用 和 对 持久 对 象 的 引用 之 间 在 类 型 上 没有 区 别 。 

一 种 实现 这 种 指针 类 型 的 统一 的 方法 是 将 整个 数据 库 载 人 到 内 存 ， 用 内 存 指针 代替 所 有 持 
久 指针 。 更 新 完成 后 ， 执 行 相反 的 过 程 ， 将 已 更 新 的 对 象 写 回 到 磁盘 中 。 这 样 的 方法 对 于 大 型 
数据 库 将 是 非常 低 效 的 。 

我 们 现在 描述 另 一 种 可 选 的 方法 ， 它 允许 持久 对 象 在 需要 时 被 自动 取 到 内 存 中 ， 同 时 允许 
所 有 内 存 对 象 包含 的 引用 为 内 存 引 用 。 当 一 个 对 象 4 被 取 回 ， 为 其 引用 的 每 个 对 象 8 创建 一 
个 空 对 象 (hollow object), 的 内 存 副 本 具有 对 每 个 B 对 应 的 空 对 象 的 引用 。 当 然 ， 系 统 必 须 
保证 如 果 一 个 对 象 B, 已 经 被 取 回 ， 引 用 将 指向 这 个 已 经 取 回 的 对 象 而 不 是 创建 一 个 新 的 空 对 
象 。 类 似 地 ， 如 果 一 个 对 象 尚 未 被 取 回 ， 但 它 被 早先 已 经 取 回 的 另 一 个 对 象 引 用 ， 那么 它 将 已 
经 有 了 一 个 为 它 创 建 的 空 对 象 ; 对 已 有 空 对 象 的 引用 被 重用 ， 而 不 是 创建 一 个 新 的 空 对 和 象 。 

这 样 ， 对 于 每 个 已 经 取 回 的 对 象 0;,，0; 中 的 每 个 引用 或 者 指向 一 个 已 经 取 回 的 对 象 ， 或 
者 指向 一 个 空 对 象 。 空 对 象形 成 了 一 个 环绕 着 已 取 回 对 象 的 边缘 (fringe) 。 
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一 旦 程序 真正 去 访问 一 个 空 对 象 0， 加 强 的 字 节 代 码 会 检测 到 它 ， 并 从 数据 库 中 取出 对 
象 。 当 这 个 对 象 被 取 回 ， 对 0 引用 的 所 有 对 象 执 行 创建 空 对 象 的 相同 过 程 。 此 后 ， 对 该 对 象 的 
访问 允许 被 继续 。” 

需要 一 个 将 持久 指针 映射 到 内 存 引 用 的 内 存 索引 结构 来 实现 这 个 方案 。 在 把 对 象 写 回 到 磁 
盘 上 时 ， 需 要 使 用 这 个 索引 来 完成 在 要 写 回 磁盘 的 副本 中 用 持久 指针 代替 内 存 引 用 的 工作 。 


22.9 对象- 关系 映 射 


到 目前 为 止 ， 我 们 已 经 看 到 了 两 种 将 面向 对 象 数据 模型 和 面向 对 象 编 程 语 言 整合 到 数据 库 系统 中 
的 方法 。 对 象 -关系 映射 (object-relational mapping) 系统 提供 了 把 面向 对 象 编程 语言 和 数据 库 整 合 起 来 
的 第 三 种 方法 。 

对 象 -关系 映射 系统 建立 于 传统 关系 数据 库 之 上 。 它 允许 程序 员 定 义 数据 库 关 系 中 的 元 组 与 程序 
设计 语言 中 的 对 象 之 间 的 映射 。 不 同 于 持久 化 程序 设计 语言 ， 对 象 是 瞬 态 的 ， 并且 没有 持久 的 对 象 
标识 。 

可 以 基于 属性 上 的 选择 条 件 来 获取 一 个 对 象 或 对 象 的 集合 ; 按照 选择 条 件 从 底层 数据 库 中 将 相关 
数据 取出 ， 然 后 ， 基 于 预先 指定 的 对 象 和 关系 之 间 的 映射 ， 由 获取 的 数据 创建 出 一 个 或 多 个 对 象 。 程 
序 可 以 选择 性 地 更 新 这 样 的 对 象 、 创 建新 对 象 或 者 指定 某 个 对 象 将 被 删除 ， 随 后 发 出 一 个 执行 存储 的 
命令 ; 从 对 象 到 关系 的 映射 将 被 用 于 在 数据 库 中 相应 地 更 新 、 插 和 人 或 者 删除 元 组 。 

9.4.2 节 对 对 象 - 关系 映射 系统 做 了 宏观 的 描述 ， 并 特别 介绍 了 已 被 广泛 使 用 的 Hibernate AZ, 
它 为 Java 提供 了 对 象 - 关系 映射 。 

对 象 -关系 映射 系统 的 首要 目标 是 通过 向 程序 员 提 供 对 象 模型 来 减轻 他 们 建造 应 用 的 工作 ， 同 时 
保持 了 在 底层 使 用 一 个 健壮 的 关系 数据 库 所 带 来 的 好 处 。 另 一 个 额外 的 好 处 是 ， 在 操纵 缓存 于 内 存 中 
的 对 象 时 ， 相 比 直接 访问 下 层 数 据 库 ， 对 象 -关系 系统 可 以 带 来 巨大 的 性 能 提升 。 

对 象 -关系 映射 系统 也 提供 查询 语言 。 程 序 员 可 以 利用 查询 语言 直接 写 出 对 对 象 模型 的 查询 请 求 
这 种 查询 被 翻译 为 下 层 关系 数据 库 上 的 SQL 查询 ， 结 果 对 象 也 是 从 SQL 查询 结果 转换 而 来 的 。 

一 个 负面 影响 是 ， 对 象 - 关系 映射 系统 可 能 会 面临 大 规模 数据 更 新 所 带 来 的 巨大 的 开销 ， 而 且 可 
能 仅 提 供 有 限 的 查询 能 力 。 不 过 ， 绕 过 对 象 -关系 映射 系统 而 直接 更 新 数据 库 ， 以 及 直接 用 SQL 书写 
复杂 的 查询 也 都 是 可 行 的 。 对 于 大 多 数 应 用 ， 对 象 -关系 映射 系统 利 大 于 次 。 最 近 几 年 内 ,对象 - 关 
系 映射 系统 已 被 广泛 采用 。 


22.10 面向 对 象 与 对 象 - 关系 


我 们 现在 已 经 研究 了 对 象 - 关系 数据 库 ， 它 是 建立 在 关系 模型 之 上 的 面向 对 象 数据 库 ; 也 研究 了 
面向 对 象 数据 库 ， 它 是 建立 在 持久 化 程序 设计 语言 基础 上 的 ; 还 研究 了 对 象 - 关系 映射 系统 ， 它 在 传 
统 关 系数 据 库 之 上 构造 了 一 个 对 象 层 。 

以 上 每 种 方法 都 定位 于 不 同 的 市 场 。SQL 语言 的 声明 性 本 质 和 有 限 的 能 力 ( 与 程序 设计 语言 相 比 ) 
为 防止 程序 设计 错误 对 数据 造成 破坏 提供 了 很 好 的 保护 ， 同 时 使 得 一 些 高 级 优化 (例如 减少 [0O ) 相对 
容易 。( 我 们 已 在 第 13 章 阐 述 了 关系 表达 式 的 优化 。) 对 象 -关系 系统 的 目标 在 于 通过 使 用 复杂 数据 类 
型 使 得 数据 建 模 和 查询 更 加 容易 。 典 型 的 应 用 包括 复杂 数据 (包括 多 媒体 数据 ) 的 存储 和 查询 。 

然而 ， 对 于 那些 主要 在 主 存 中 运行 以 及 对 数据 库 进 行 大 量 访问 的 特定 类 型 的 应 用 来 说 ， 声 明 性 语 
言 (如 SQL) 会 带 来 显著 的 性 能 损失 。 持 久 化 程序 设计 语言 定位 于 那些 有 高 性 能 要 求 的 应 用 。 它 们 提供 
了 对 持久 数据 的 低 开销 存 取 ,并且 消 除了 数据 转换 的 需求 (如 果 这 些 数据 将 要 用 程序 设计 语言 来 进行 





O 上 面 介绍 的 使 用 空 对 象 的 技术 与 hardware swizzling 技术 ( 在 前 面 的 22. 8. 4 节 提 到 过 ) 紧 密 相关 。 一 些 持久 化 C++ 
实现 使 用 hardware swizzling 以 为 持久 指针 和 内 存 指针 提供 一 个 单 指针 类 型 。hardware swizzling 使 用 操作 系统 提供 
的 虚拟 内 存 保护 技术 来 检测 对 页 的 访问 ， 并 在 需要 时 从 数据 库 中 获取 页 。 相 反 ，Java 版 本 修改 字 节 代码 来 检查 空 
对 象 ， 而 不 是 使 用 内 存 保护 ， 且 在 需要 时 获取 对 象 而 不 是 从 数据 库 中 获取 整个 页 。 
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操纵 的 话 ) 。 但 是 ， 它 们 更 易于 导致 由 程序 错误 而 引起 的 数据 损坏 ， 并 且 通 常 缺乏 强大 的 查询 能 力 。 典 


型 的 应 

对 
据 。 从 
它们 需 


用 包括 CAD 数据 库 。 

象 - 关系 映射 系统 允许 程序 员 用 对 象 模型 来 生成 应 用 程序 ， 同 时 使 用 传统 数据 库 系 统 来 存储 数 
而 ， 它 们 结合 了 被 广泛 使 用 的 关系 数据 库 系 统 的 健壮 性 和 用 对 象 模 型 编写 应 用 的 威力 。 不 过 ， 
要 承受 在 对 象 模型 和 用 于 存储 数据 的 关系 模型 之 间 进 行 数 据 转换 所 人 带 来 的 运算 开销 


我 们 可 以 这 样 总 结 各 种 数据 库 系 统 的 能 力 : 


关系 系统 : 简单 数据 类 型 ， 功 能 强大 的 查询 语言 ， 高 保护 性 。 

基于 持久 化 程序 设计 语言 的 面向 对 象 数据 库 : 复杂 的 数据 类 型 ， 与 程序 设计 语言 集成 ， 高 
性 能 。 

对 象 -关系 系统 : 复杂 数据 类 型 ， 强 大 的 查询 语言 ， 高 保护 性 。 

对 象 -关系 映射 系统 : 集成 于 程序 设计 语言 中 的 复杂 数据 类 型 ， 设 计 为 位 于 关系 数据 库 系 统 之 
上 的 一 层 。 


这 些 描述 一 般 来 说 是 成 立 的 ,但 是 请 记 住 对 有 些 数据 库 系统 来 说 这 里 的 分 界线 是 模糊 的 。 例 如 ， 
以 持久 化 程序 设计 语言 为 基础 而 建立 的 面向 对 象 数据 库 系统 可 以 在 一 个 关系 数据 库 系 统 或 对 象 - 关系 
数据 库 系 统 之 上 实现 。 这 样 的 系统 的 性 能 可 能 低 于 那些 直接 建立 在 存储 系统 上 的 面向 对 象 数据 库 系统 ， 
但 它 提 供 了 关系 系统 具有 的 一 些 更 强 的 保护 性 保证 。 


22. 11 总 结 


WR -关系 数据 模型 通过 提供 一 个 更 丰富 的 类 型 系统 (包括 集合 体 类 型 和 面向 对 象 ) 来 扩展 关系 数据 
模型 。 

集合 体 类 型 包括 嵌 套 关系 、 集 合 、 多 重 集合 和 数组 ， 对 象 -关系 模型 允许 表 的 属性 为 集合 体 ， 
面向 对 象 提供 了 子 类 型 和 子 表 的 继承 ， 以 及 对 象 (元 组 ) 引 用 。 

SQL 标准 包括 SQL 数据 定义 与 查询 语言 的 扩展 以 处 理 新 的 数据 类 型 和 面向 对 象 。 其 中 包括 对 以 集合 
体 为 值 的 属性 、 继 承 以 及 元 组 引用 的 支持 。 这 种 扩展 试图 在 扩展 建 模 能 力 的 同时 保持 关系 的 基础 ， 
尤其 是 对 数据 的 声明 性 的 访问 。 

对 象 -关系 数据 库 系统 ( 即 基 于 对 象 -关系 模型 的 数据 库 系统 ) 为 希望 使 用 面向 对 象 特性 的 关系 数据 
库 用 户 提供 了 方便 的 移植 途径 。 

C++ Ail Java 的 持久 化 扩展 无 缝 且 正 交 地 将 持久 化 整合 到 了 已 有 的 程序 设计 语言 结构 中 ， 因 而 易于 
使 用 。 

ODMG 标准 为 在 C++ 中 创建 和 访问 持久 对 象 定义 了 类 和 其 他 结构 ， 而 IDO 标准 为 Java 提供 了 相同 的 
功能 。 

对 象 -关系 映射 系统 为 存储 在 关系 数据 库 中 的 数据 提供 了 对 象 访问 方式 。 对 象 是 瞬 态 的 ， 并 无 持久 
对 象 标识 的 概念 。 对 象 是 由 关系 数据 按 需 创建 的 ， 而 且 对 对 象 的 更 新 是 通过 更 新 关系 数据 来 实现 的 。 
对 象 - 关系 映射 系统 已 被 广泛 采用 。 相 比 之 下 ， 持 久 化 程序 设计 语言 的 应 用 要 少见 一 些 。 

我 们 讨论 了 持久 化 程序 设计 语言 和 对 象 -关系 系统 的 区 别 ， 并 且 提 到 了 二 者 的 选择 标准 。 














术语 回顾 

© KBKAR 。 结构 类 型 。 最 明确 类 型 
。 KREKARH 。 方法 。 表 继 承 

。 复杂 类 型 o 行 类 型 °. FK 

。 集合 体 类 型 。 构造 器 。 HAN Te 
© 大 对 象 类 型 。 继承 。 引用 类 型 
。 集合 O 单 继承 。 引用 的 范围 
。 数组 多 重 继承 。 自 引 用 属性 
。 多 重 集合 。 类 型 继承 。 路 径 表 达 式 
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。 KREMBRRE 口 按 创建 e JDO 
© SQL 函数 和 过 程 按 标记 O 按 可 达 性 持久 
。 持久 化 程序 设计 语言 O 按 可 达 性 口 根 
。 持久 化 © ODMG C++ 绑 定 口 空 对 象 

口 按 类 è ObjectStore 。 对 象 -关系 映射 
实践 习题 


22.1 一 个 汽车 租赁 公司 为 其 当前 车 队 中 的 所 有 车 辆 维护 着 一 个 数据 库 。 对 于 所 有 的 车 辆 ， 数 据 库 中 包括 的 
信息 有 车 辆 识别 号 、 牌 照 号 、 制 造 商 、 型 号 、 购 买 日 期 以 及 颜色 ， 对 于 某 些 类 型 的 车 辆 还 包含 特殊 的 
数据 : 

。 卡车 : 载 货 容量 。 

。 跑车 : 马力 、 对 租用 者 的 年 龄 限制 。 

。 有 厢 式 货车 : 载 客 数目 。 

。 越野 车 : 离 地 距离 、 驱 动 系统 (四 轮 或 两 轮 驱 动 ) 。 

为 这 个 数据 库 构造 SQL 模式 定义 ,在 适当 的 地 方 使 用 继承 。 

22.2 考虑 这 样 一 个 数据 库 模 式 ， 关系 Emp 的 属性 如 下 所 示 ， 其 类 型 被 指定 为 多 值 属 性 。 
Emp = (ename, ChildrenSet multiset( Children) , SkillSet multiset( Skills ) ) 

Children = (name, birthday) 
Skills = (type, ExamSet setof( Exams) ) 


Exams = (year, city) 





975 a. 用 SQL 定义 上 面 的 模式 ， 为 每 个 属性 使 用 适当 的 类 型 。 
976 b 使 用 上 面 的 模式 ， 用 SQL 写 出 下 面 的 查询 。 
i. 找 出 所 有 符合 条 件 的 职员 的 名 字 : 其 孩子 出 生 在 2000 年 1 月 1 日 以 后 (包括 2000 年 1 月 1 
A). 


ii 找到 那些 在 “Dayton "城市 参加 过 技能 类 型 为 “typing "的 考试 的 职员 。 
ii. 列 出 关系 Emp 中 所 有 的 技能 类 型 。 
22.3 考虑 图 22-5 中 的 包含 成 分 属性 、 多 值 属 性 和 衍生 属性 的 E-R 图 。 


instructor 


ID 

name 
first_name 
middle_inital 
last_name 

address 
street 


street_number 

street_name 

apt_number 
city 


state 


zip 
{phone_number} 
date_of_birth 
age () 


图 22-5 包含 成 分 属性 、 多 值 属性 和 衍生 属性 的 E-R 图 
a 给 出 对 应 于 这 个 E-R 图 的 SQL 模式 定义 。 
b. 给 出 上 面 定 义 的 每 一 个 结构 类 型 的 构造 器 。 
22.4 考虑 图 22-6 中 的 关系 模式 。 





第 22 章 基于 对 象 的 数据 库 S51 





| employee (person_name, street, city) 

| works (personname, company_name, salary) 
company (company_name, city) 
manages (person_name, manager-name) 


E 22-6 ”实践 习题 22. 4 的 关系 数据 库 


a. 给 出 对 应 于 该 关系 模式 的 SQL 中 的 一 个 模式 定义 ， 但 是 要 使 用 引用 来 表达 外 码 关系 

b. 基于 上 面 的 模式 使 用 SQL 书写 习题 6. 13 中 给 出 的 每 个 查询 。 

22.5 ”假设 你 受聘 为 顾问 ， 要 为 客户 的 应 用 选择 一 个 数据 库 系 统 。 对 于 下 面 这 些 应 用 中 的 每 一 种 ， 说 明 你 将 
推荐 哪 种 类 型 的 数据 库 系统 (关系 数据 库 、 基 于 持久 化 程序 设计 语言 的 面向 对 象 数据 库 、 对 象 -关系 
数据 库 ; 无 需 指定 某 个 商业 产品 ) ， 并 且 解 释 你 的 推荐 的 正确 性 。 

a. 为 飞机 制造 商 开发 的 计算 机 辅助 设计 系统 。 

b. 为 政府 机 关 设 计 的 对 候选 人 的 捐款 进行 追踪 的 系统 。 

c. 支持 电影 制作 的 信息 系统 。 

22.6 面向 对 象 模型 中 对 象 的 概念 与 实体 - 联系 模型 中 的 实体 的 概念 有 什么 不 同 ? 

习题 

22.7 重新 设计 实践 习题 22. 2 中 的 数据 库 使 之 满足 第 一 范式 和 第 四 范式 。 列 出 你 所 设想 的 任何 函数 依赖 和 
多 值 依赖 。 同 时 列 出 在 第 一 范式 和 第 四 范式 的 模式 中 应 该 存在 的 所 有 的 参照 完整 性 约束 。 

22.8 考虑 实践 习题 22. 2 中 的 模式 。 

a. 给 出 SQL DDL 语句 来 创建 关系 Emp4， 它 与 关系 Emp 具有 
相同 的 信息 ,但 是 以 多 重 集合 为 值 的 属性 ChildrenSet、 
SkillsSet 和 ExamsSet 被 替换 为 以 数组 为 值 的 属性 
ChildrenArray 、SkillsArray 和 ExamsArray s 

. 写 出 一 个 查询 将 数据 从 Emp 的 模式 转化 为 EmpA 的 模式 ， 

其 中 children 数组 根据 出 生日 期 排序 ，skills 数组 根据 技能 
类 型 排序 ，exams 数组 根据 年 排序 。 

ce 写 出 SQL 语句 对 Emp 关系 做 如 下 更 新 : 为 名 为 George 的 

职员 增加 一 个 出 生 于 2001 年 2 月 5 日 的 孩子 Jeb, 

d 写 出 SQL 语句 实现 与 上 面相 同 的 更 新 ， 但 是 作用 在 Emp4 

关系 上 。 要 保证 children 数组 仍然 根据 出 生日 期 排序 。 

22.9 考虑 22.4 节 中 的 表 people, VIRHE H K people 的 表 students 
和 teachers 的 模式 。 给 出 一 个 表示 相同 信息 的 满足 第 三 范式 ae? ae ne 
的 关系 模式 。 请 回想 子 表 上 的 约束 ， 给 出 为 使 得 关系 模式 的 每 个 数据 库 实例 也 可 以 用 一 个 带 有 继承 的 
模式 实例 所 表示 ， 所 必须 施加 在 该 关系 模式 上 的 所 有 约束 。 

22. 10 ”解释 类 型 x 与 引用 类 型 ref(x) 之 间 的 区 别 。 什 么 情况 下 你 会 选择 使 用 引用 类 型 ? 

22.11 考虑 图 22-7 中 的 E-R 图 。 其 中 包含 了 子 类 型 和 子 表 方 式 的 特殊 化 结构 。 

. 给 出 该 E-R 图 的 一 个 SQL 模式 定义 。 

. 给 出 一 个 SQL 查询 ， 找 出 所 有 不 是 秘书 的 人 员 的 名 字 。 

. 给 出 一 个 SQL 查询 ， 打 印 既 不 是 职员 又 不 是 学 生 的 人 员 的 姓名 。 

. 能 否 在 你 创建 的 模式 中 创建 一 个 人 ,使 其 既是 职员 又 是 学 生 ? 解释 如 何 创建 ， 否 则 说 明 为 什么 不 

可 能 创建 。 

22. 12 ”设想 一 个 JDO 数据 库 有 一 个 对 象 4，4 引用 对 象 B，B 又 引用 对 象 C。 假 设 所 有 对 象 初始 时 都 在 磁盘 
上 。 设 想 一 个 程序 首先 解除 引用 4， 然后 沿 着 4 的 引用 解除 引用 8B， 最 后 解除 引用 C。 给 出 每 次 解除 [977 
引用 后 表示 在 内 存 中 的 对 象 ， 以 及 它们 的 状态 ( 空 或 有 值 ， 以 及 它们 的 引用 字段 的 值 ) 。 en 


IR 
在 对 对 象 - 关系 特性 的 支持 上 ， 不 同 的 数据 库 产 品 之 间 有 巨大 的 差异 。Oracle 大 概 是 主要 数据 库 厂商 中 
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具有 最 多 扩展 支持 的 。Informix 数据 库 系 统 提供 对 很 多 对 象 -关系 特性 的 支持 。Oracle 和 Informix 都 是 在 
SQL: 1999 完成 之 前 提供 对 象 - 关系 特性 的 ， 它 们 还 具有 一 些 不 属于 SQL: 1999 的 特性 。 

关于 ObjectStore 和 Versant 的 信息 ， 包 括 试 用 版 本 的 下 载 ， 可 以 从 它们 各 自 的 Web 站 点 (objectstore. com 
和 versant. com) 上 获得 。Apache DB 项 目 (db. apache. org) 提供 了 一 个 Java 的 对 象 - 关系 映射 工具 ， 它 同时 支 
持 ODMG Java 和 JDO API, JDO 的 一 个 参考 实现 可 以 从 sun. com 获得 ; 请 使 用 搜索 引擎 查询 完整 的 URL。 


文献 注解 


有 很 多 SQL 的 面向 对 象 扩 展 已 经 被 提出 。POSTGRES ( Stonebraker 和 Rowe [ 1986 ] 以 及 Stonebraker 
[1986] ) 是 对 象 -关系 系统 的 一 个 早期 实现 。 其 他 早期 对 象 - 关系 系统 包括 0, 的 SQL 扩展 (Bancilhon 等 
[1989 ] ) 和 UniSQL( UniSQL[ 1991])。SQL: 1999 是 一 个 扩展 的 (而 且 延 期 很 久 的 ) 标准 化 研究 的 成 果 ， 最 初 
由 向 SQL 中 加 入 面向 对 象 特性 开始 ， 而 最 终 添 加 了 很 多 其 他 的 特性 ， 例 如 我 们 前 面 看 到 的 程序 化 结构 。 对 
多 重 集合 类 型 的 支持 被 增加 为 SQL: 2003 的 一 部 分 。 

Melton[ 2002 ] 集中 讲述 了 SQL: 1999 的 对 象 - 关系 特性 。Eisenberg 等 [2004] 给 出 了 对 SOL: 2003 的 一 
个 概览 ， 包 括 它 对 多 重 集合 的 支持 。 

许多 面向 对 象 数据 库 系 统 是 在 20 世纪 80 年 代 末 到 20 世纪 90 年 代 初 开发 的 ， 其 中 比较 有 名 的 商业 系统 
有 ObjectStore( Lamb 等 [1991 ] ) 、0,( Lecluse 等 [1988 ] ) 和 Versant, Cattell [ 2000 ] 详细 地 介绍 了 对 象 数 据 库 

标准 ODMG。Roos[ 2002]. Tyagi 等 [2003 ] 以 及 Jordan 和 Russell[ 2003 | 介绍 了 JDO. 
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XML 


可 扩展 标记 语言 (Extensible Markup Language, XML) 并 不 是 为 数据 库 应 用 而 设计 的 。 事 实 上 ， 就 像 
万 维 网 以 超 文 本 标记 语言 (HTML ) 为 基础 一 样 ，XML 的 根源 为 文档 管理 ， 并 从 一 种 用 来 构造 大 型 文档 
的 语言 ( 称 为 标准 通用 标记 语言 (SGML) ) 派 生 而 来 。 但 是 ， 不 同 于 SGML 和 HTML, XML 是 用 来 表示 
数据 的 。 当 一 个 应 用 程序 必须 与 另 一 个 应 用 程序 进行 通信 或 是 从 一 些 其 他 的 应 用 程序 中 整合 信息 的 时 
候 ，XML 作为 一 种 数据 格式 特别 有 用 。 当 XML 在 这 些 场合 中 使 用 时 ， 会 出 现 许多 数据 库 问题 ， 包 括 
如 何 组 织 、 操 纵 和 查询 XML 数据 。 这 一 章 我 们 介绍 XML， 同 时 讨论 使 用 数据 库 技 术 的 XML 数据 管理 
和 XML 文档 格式 数据 的 交换 。 


23.1 动机 


要 理解 XML， 理解 其 根源 是 作为 文档 标记 语言 是 很 重要 的 。 标 记 ( markup) 这 个 术语 意 指 文档 中 任 
何不 想 用 于 打印 输出 的 部 分 。 例 如 ， 一 个 作者 创建 了 一 份 最 终 将 要 在 杂志 上 出 版 的 文档 ， 他 可 能 想 要 
做 一 些 关 于 如 何 排版 的 注解 。 采 用 一 种 书写 这 些 注 解 的 方式 来 将 注解 和 实际 内 容 区 分 开 是 很 重要 的 ， 
有 了 这 种 方式 ， 像 “这 个 词 用 大 号 字体 ， 粗 体 显示 "或 “这 里 插入 换行 "这 样 的 注解 就 不 会 被 印刷 在 杂志 
上 。 这 样 的 注解 传达 了 关于 文档 的 额外 信息 。 在 电子 文档 处 理 中 ， 标 记 语 言 (markup language) 就 是 对 
文档 的 哪 部 分 是 内 容 、 哪 部 分 是 标记 以 及 标记 含义 的 形式 化 描述 。 

正如 数据 库 系 统 从 物理 文件 处 理 中 演化 发 展 为 提供 独立 的 逻辑 视图 ， 标 记 语 言 从 说 明 如 何 打印 文 
档 各 部 分 的 指令 演化 发 展 为 指定 内 容 的 功能 。 比 如， 通过 功能 化 标记 ， 表 示 章 节 标 题 的 文本 ( 对 于 本 闻 
而 言 ， 是 “动机 "这 个 词 ) 就 被 标记 为 章节 的 标题 ， 而 不 是 以 大 号 、 粗 体 字 打印 的 文本 。 从 排版 角度 来 
看 ， 这 种 功能 化 标记 允许 文档 在 不 同情 况 下 有 不 同 的 格式 。 功 能 化 标记 还 有 助 于 一 个 大 文档 的 不 同 部 
分 或 是 一 个 大 网 站 的 不 同 页 面 以 统一 的 方式 格式 化 。 更 重要 的 是 ， 功 能 化 标记 帮助 记录 文档 每 个 部 分 
在 语义 上 分 别 代表 什么 内 容 ， 并 相应 地 帮助 自动 提取 文档 的 关键 部 分 。 

对 于 包括 HTML, SGML 以 及 XML 在 内 的 标记 语言 家 族 ， 标 记 采 用 的 形式 是 封闭 在 尖 括 号 ( < > ) 内 
的 标签 (tag) 。 标 签 都 是 成 对 使 用 的 ， 以 <tag > 和 < /tag > 来 界定 该 标签 所 指 的 那 部 分 文档 的 开始 和 结 
束 。 例 如 ， 文 档 的 标题 可 以 如 下 标记 : 


<title > Database System Concepts < /title > 


和 HTML 不 同 ，XML 没有 指定 的 标签 集 ， 每 个 应 用 可 以 选择 自己 需要 的 标签 集 。 这 项 特性 是 XML 
主要 用 于 数据 表示 和 交换 而 HTML 主要 用 于 文档 格式 化 的 关键 所 在 。 

例如 ， 在 我 们 采用 的 大 学 应 用 中 ， 系 、 课 程 以 及 教师 信息 可 以 表示 为 XML 文档 的 一 部 分 ， 如 图 
23-1 和 图 23-2 所 示 。 注 意 如 department, course, instructor 和 teaches 这 样 的 标签 的 使 用 。 为 了 使 例子 简 
单 ， 我 们 使 用 忽略 了 课程 段 信 息 的 大 学 模式 简化 版 。 我 们 还 使 用 ID 标签 来 表示 教师 的 标识 符 。 稍 后 
我 们 将 分 析 其 原因 。 

这 些 标签 为 每 个 值 提供 了 上 下 文 环境 ， 并 且 允 许 识别 值 的 语义 。 对 于 这 个 例子 ，XML 数据 表示 并 不 
提供 任何 比 传统 关系 数据 表示 更 明显 的 优势 ; 但 是 由 于 它 简 洁 ， 所 以 我 们 使 用 这 个 例子 作为 讲解 实例 。 

图 23-3 显示 了 关于 购物 订单 的 信息 如 何在 XML 中 进行 表示 ， 它 是 对 XML 的 一 个 更 加 现实 的 使 用 。 
典型 地 ， 购 物 订单 由 一 个 机 构 生 成 并 发 送 给 另 一 个 机 构 。 在 传统 方式 下 ， 这 些 订单 由 购买 者 打印 在 纸 上 
并 发 送 给 供应 商 ; 供应 商 手工 地 将 数据 重新 输入 计算 机 系统 。 这 个 缓慢 的 过 程 可 以 通过 在 购买 者 和 供应 
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商 之 间 电 子 化 传送 信息 而 大 幅 提 高 速度 。 骨 套 的 表示 方式 允许 购物 订单 里 的 所 有 信息 被 自然 地 表示 在 单 
个 文档 中 。( 真实 的 购物 订单 比 这 个 简化 例子 中 描述 的 订单 具有 更 为 丰富 的 信息 。)XML 提供 了 给 数据 加 
标签 的 标准 方式 ; 当然 这 两 个 机 构 必 须 在 购物 订单 中 出 现 什 么 标签 以 及 这 些 标签 的 含义 上 达成 一 致 。 





<university> 

<department> 
<dept_name> Comp. Sci. </dept_name> 
<building> Taylor </building> 
<budget> 100000 </budget> 

</department> 

<department> 
<dept_name> Biology </dept_name> 
<building> Watson </building> 
<budget> 90000 </budget> 

</department> 

<course> 
<course_id> CS-101 </course_id> 
<title> Intro. to Computer Science </title> 
<dept_name> Comp. Sci </dept_name> 
<credits> 4 </credits> 

</course> 

<course> 
<course_id> BIO-301 </course_id> 
<title> Genetics </title> 
<dept-name> Biology </dept-name> 
<credits> 4 </credits> 

</course> 








后 部 见 图 23-2 


<instructor> 
<IID> 10101 </IID> 
<name> Srinivasan </name> 
<dept_name> Comp. Sci. </dept_name> 
<salary> 65000 </salary> 
</instructor> 
<instructor> 
<IID> 83821 </IID> 
<name> Brandt </name> 
<dept_name> Comp. Sci. </dept name> 
<salary> 92000 </salary> 
</instructor> 
<instructor> 
<IID> 76766 </IID> 
<name> Crick </name> 
<dept_name> Biology </dept_name> 
<salary> 72000 </salary> 
</instructor> 
<teaches> 
<IID> 10101 </IID> 
<course_id> CS-101 </course_id> 
</teaches> 
<teaches> 
<IID> 83821 </IID> 
<course_id> CS-101 </course_id> 
</teaches> 
<teaches> 
<IID> 76766 </IID> 
<course_id> BIO-301 </course_id> 
</teaches> 
</university> 





图 23-1 (部 分 ) 大 学 信息 的 XML 表示 


图 23-2 续 图 23-1 





<purchase_order> 
<identifier> P-101 </identifier> 
<purchaser> 


</purchaser> 
<supplier> 


</supplier> 
<itemlist> 
<item> 


<name> Cray Z. Coyote </name> 
<address> Mesa Flats, Route 66, Arizona 12345, USA </address> 


<name> Acme Supplies </name> | 
<address> 1 Broadway, New York, NY, USA </address> | 


<identifier> RS1 </identifier> 


<description> Atom powered rocket sled </description> 
<quantity> 2 </quantity> 
<price> 199.95 </price> 
</item> 
<item> 
<identifier> SG2 </identifier> 
<description> Superb glue </description> 
<quantity> 1 </quantity> 
<unit-of-measure> liter </unit-of-measure> 
<price> 29.95 </price> 
</item> | 
</itemlist> | 
<total_cost> 429.85 </total_cost> | 
<payment_terms> Cash-on-delivery </payment-terms> 
<shipping-mode> 1-second-delivery </shipping-mode> 
</purchaseorder> 











图 23-3 一 份 购物 订单 的 XML 表示 
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与 关系 数据 库 中 的 数据 存储 相 比 ，XML 表示 方式 可 能 效率 不 高 ， 因 为 标签 名 称 在 整个 文档 中 被 反 
复 使 用 。 尽 管 有 这 些 不 利之 处 , 但 XML 表示 方式 在 用 于 机 构 间 的 数据 交换 ， 以 及 在 文件 中 存储 复杂 结 
构 信 息 时 有 相当 大 的 优势 : 

。 首先 ， 标 签 的 存在 使 得 消息 是 自 描述 的 (self-documenting ) ; 也 就 是 说 ， 不 需要 参考 模式 就 可 以 

理解 文本 的 含义 ”比如 我 们 可 以 很 容易 地 阅读 上 述 段 落 。 

。 其 次 ,文档 的 格式 不 严格 。 例 如 ， 如 果 某 些 发 送 者 增加 了 一 些 附加 信息 ， 如 记录 访问 某 账户 最 
后 日 期 的 标签 last_accessed，XML 数据 接收 者 可 以 简单 地 忽略 这 个 标签 。 图 23-3 给 出 了 另 一 个 
例子 ， 其 中 标识 符 为 SG2 的 物品 有 一 个 被 称 为 unit-of-measure 的 指定 标签 ， 而 第 一 件 物品 并 没 
有 这 个 标签 。 当 物品 根据 重量 或 体积 排序 时 需要 使 用 这 个 标签 ， 而 当 物 品 只 是 简单 地 根据 数量 
排序 时 ， 则 可 以 省 略 这 个 标签 。 

这 种 识别 和 和 忽略 未 预料 到 的 标签 的 能 力 使 得 数据 格式 可 以 随时 间 不 断 演化 ， 而 不 需要 舍弃 
现 有 的 应 用 程序 。 类 似 地 ， 同 样 的 标签 可 以 多 次 出 现 的 能 力 使 得 可 以 容易 地 表示 多 值 属性 。 
再 次 ，XML AREH, A 23-3 中 所 示 的 购物 订单 显示 了 拥有 嵌 套 结构 的 好 处 。 每 份 购物 
订单 都 有 一 个 购买 者 和 一 个 物品 清单 作为 它 的 两 个 由 套 结构 。 而 每 件 物品 中 都 租 套 地 包含 物品 
标识 符 、 说 明和 价格 ， 而 购买 者 嵌 套 地 包含 姓名 和 地 址 。 

这 样 的 信息 在 关系 模式 中 将 被 拆 分 成 多 个 关系 。 物 品 信息 将 存储 在 一 个 关系 中 ， 购 买 者 信 
息 存储 在 第 二 个 关系 中 ， 购 物 订单 存储 在 第 三 个 关系 中 ， 而 购物 订单 、 购 买 者 和 物品 之 间 的 联 
系 将 存储 在 第 四 个 关系 中 。 

关系 化 表示 有 助 于 避免 匈 余 。 例 如 ， 在 规范 化 关系 模式 中 ， 对 于 每 个 物品 标识 符 的 物品 说 
明 只 存储 一 次 。 但 在 XML 购物 订单 中 ， 如 果 多 个 购物 订单 订购 了 相同 的 物品 ， 物 品 说 明 可 能 
会 重复 出 现 。 尽 管 如 此 ， 当 需要 与 外 部 团体 进行 信息 交换 时 ， 即 使 要 付出 元 余 的 代价 ， 能 够 将 
与 一 份 购物 订单 相关 的 所 有 信息 集中 到 一 个 单一 的 拒 套 结构 中 ， 仍 然 是 有 吸引 力 的 。 

。 最 后 ， 由 于 XML 格式 被 广泛 接受 ， 所 以 有 各 种 各 样 的 工具 可 用 来 辅助 对 它 的 处 理 ， 包 括 创建 

和 读 取 XML 数据 的 程序 设计 语言 API、 浏 览 器 软件 和 数据 库 工 具 。 

我 们 在 后 面 的 23.7 节 介 绍 XML 数据 的 几 个 应 用 。 正 如 SQL 是 查询 关系 数据 的 主导 语言 ，XML 已 

经 成 为 数据 交换 的 主导 格式 。 


23.2 XML 数据 结构 


XML 文档 中 基本 的 结构 是 元 素 (element) 。 一 个 元 素 就 是 一 对 互相 匹配 的 开始 和 结束 标签 ， 以 及 它 
们 之 间 出 现 的 所 有 文本 。 

XML 文档 必须 有 一 个 独立 的 根 (root) 元 素来 包含 文档 里 的 所 有 其 他 元 素 。 在 图 23-1 的 例子 中 ， 
< university > 元 素 构 成 了 根 元 素 。 此 外 ，XML 文档 中 的 元 素 必须 正确 地 赚 套 ( nest) ， 比 如 : 


< course > … <title> … </title > … </course > 


是 正确 的 能 套 ， 而 
< course > … <title> --- </course >--- </title > 

RAB IEAHRE. 

RE ERMRE 2h AE, FAT Sh ee ME MR CAR ER AY FE in 
和 结束 标签 之 间 出 现 ， 那 么 称 该 文本 出 现在 该 元 素 的 上 下 文中 (in the context of) 。 如 果 每 个 开始 标签 都 
在 同一 个 父 元 素 的 上 下 文中 有 唯一 的 结束 标签 与 之 匹配 ， 那 么 该 标签 就 是 正确 嵌 套 的 。 

注意 文本 可 能 会 和 一 个 元 素 的 子 元 素 混合 在 一 起 ， 如 图 23-4 所 示 。 和 一 些 XML 的 其 他 特性 一 样 ， 
这 种 自由 在 文档 处 理 环境 中 比 在 数据 处 理 环境 中 更 有 意义 ， 而 且 对 表示 结构 化 程度 更 高 的 数据 如 XML 
中 的 数据 库 内 容 并 不 是 特别 有 用 。 

这 种 在 其 他 元 素 内 嵌 套 元 素 的 能 力 为 信息 表示 提供 了 一 种 可 选 的 途径 。 图 23-5 展示 了 图 23-1 中 部 
分 大 学 信息 的 表示 ， 但 course TRREL department 元 素 中 。 这 种 舱 套 表示 能 容易 地 找 出 一 个 系 所 开 
设 的 所 有 课程 。 类 似 地 ， 教 师 所 讲授 课程 的 标识 符 被 嵌 套 在 instructor 元 素 中 。 如 果 某 位 教师 讲授 多 门 
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课程 ， 那 么 对 应 的 instructor 元 素 中 将 会 有 多 个 course_id 元 素 。 限 于 篇 幅 ， 图 23-5 中 省 略 了 教师 Brandt 
和 Crick 的 详细 信息 ， 但 它们 与 教师 Srinivasan 的 结构 相似 。 





<course> 
This course is being offered for the first time in 2009. | 
<course_id> BIO-399 </course_id> 
<title> Computational Biology </title> 
<dept_name> Biology </dept-name> 
<credits> 3 </credits> 
</course> 





图 23-4 文本 与 子 元 素 的 混合 





<university-1> 
<department> 
<dept_name> Comp. Sci. </dept_name> 
<building> Taylor </building> 
<budget> 100000 </budget> 
<course> 
<course_id> CS-101 </course_id> 
<title> Intro. to Computer Science </title> 
<credits> 4 </credits> 
</course> 
<course> 
<course_id> CS-347 </course_id> 
<title> Database System Concepts </title> 
<credits> 3 </credits> | 
</course> 
</department> 
<department> 
<dept_name> Biology </dept_name> 
<building> Watson </building> 
<budget> 90000 </budget> 
<course> 
<course_id> BIO-301 </course_id> 
<title> Genetics </title> 
<credits> 4 </credits> 
</course> 
</department> 
<instructor> 
<lIID> 10101 </IID> 
<name> Srinivasan </name> 
<dept_name> Comp. Sci. </dept_name> 
<salary> 65000. </salary> 
<course_id> CS-101 </course_id> 
</instructor> 
</university-1> 


图 23-5 KA BAKE XML 表示 


尽管 XML 中 的 符 套 表示 是 自然 的 ， 但 是 ， 这 会 导致 数据 存储 的 元 余 。 例 如 ， 如 图 23-6 fra, 
设 某 位 教师 讲授 的 课程 的 细节 被 内 套 存储 于 instructor 元 素 中 ， 如 果 某 门 课程 被 多 位 教师 讲授 ， 课 程 信 
息 ( 如 题目 、 院 系 及 学 分 ) 会 元 余地 存储 在 每 位 与 该 课程 相关 联 的 教师 中 。 
986 为 了 避免 连接 ， 髓 套 表示 在 XML 数据 交换 应 用 中 广 为 使 用 。 例 如 ， 一 次 订购 会 在 多 份 购物 订单 上 
on? 宛 余 地 存储 发 送 者 和 接收 者 的 完整 地 址 ， 而 规范 化 表示 可 能 需要 将 购物 订单 记录 与 关系 company _ 
address 进行 连接 以 获得 地 址 信息 。 
除了 元 素 以 外 ，XML 还 定义 了 属性 ( attribute ) 的 概念 。 例 如 ， 课 程 的 标识 符 可 以 表示 为 课程 的 一 
个 属性 ， 如 图 23-7 所 示 。 一 个 元 素 的 属性 作为 在 标签 的 结束 符 ”> "之 前 的 name = value 对 出 现 。 属 性 
是 字符 串 ， 不 包含 标记 。 此 外 ， 属 性 在 给 定 标签 中 只 可 以 出 现 一 次 ， 不 像 子 元 素 那样 可 以 重复 。 
注意 在 文档 构造 环境 中 ， 子 元 素 和 属性 之 间 的 区 别 很 重要 一 一 属性 是 隐 式 的 、 不 出 现在 打印 或 显 
示 文 档 中 的 文本 。 但 是 在 数据 库 和 XML 的 数据 交换 应 用 中 ， 这 种 区 别 不 那么 重要 ， 选 择 将 数据 表示 为 
属性 还 是 子 元 素 常 常 是 随意 的 。 总 之 ， 仅 将 属性 用 于 表示 标识 符 ， 而 将 所 有 其 他 数据 存放 于 子 元 素 中 
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是 明智 的 。 





| <university-2> 
<instructor> 
<ID> 10101 </ID> 
<name> Srinivasan </name> 
<dept_name> Comp. Sci.</dept_name> 
<salary> 65000 </salary> 
<teaches> 
<course> 
<course_id> CS-101 </course_id> 
<title> Intro. to Computer Science </title> 
<dept_name> Comp. Sci. </dept_name> 
<credits> 4 </credits> 
</course> 
</teaches> 
</instructor> 


<instructor> 
<ID> 83821 </ID> 
<name> Brandt </name> 
<dept_name> Comp. Sci. </dept_name> 
<salary> 92000 </salary> 
<teaches> 
<course> 
<course_id> CS-101 </course_id> 
<title> Intro. to Computer Science </title> | 
<dept_name> Comp. Sci. </dept_name> 
<credits> 4 </credits> 
</course> 
</teaches> 
</instructor> 
</university-2> 











23-6 WE XML 表示 中 的 元 余 





<course course_id= “CS-101"> 
| <title> Intro. to Computer Science</title> 
<dept.name> Comp. Sci. </dept_name> 
<credits> 4 </credits> 
</course> 





23-7 属性 的 使 用 


最 后 一 个 有 关 句 法 的 注意 事项 是 ， 有 一 种 形 为 < element > < /element > 的 元 素 ， 它 不 包含 任何 子 元 
素 或 文本 ， 可 以 缩写 为 <element > ; 但 是 缩写 的 元 素 可 以 包含 属性 。 

由 于 设计 XML 文档 是 为 了 应 用 程序 之 间 的 交换 ， 为 了 允许 组 织 机 构 指定 全 球 唯一 的 名 字 作为 文档 
中 的 元 素 标签 使 用 ， 所 以 就 引入 了 名 字 空 间 (namespace) 机 制 。 名 字 空 间 的 思想 就 是 在 每 个 标签 或 属性 
的 前 面 加 上 通用 资源 标识 符 ( 比如 网 址 ) 。 举 例 来 说 ， 如 果 耶 鲁 大 学 想 确保 创建 的 XML 文档 中 的 标签 不 
会 与 任何 商业 伙伴 的 XML 文档 中 的 标签 重复 ， 可 以 在 每 个 标签 名 称 前 面 加 上 一 个 唯一 标识 符 ， 并 用 冒 
号 相隔 。 该 大 学 可 能 使 用 如 下 Web URL: 

http: //www. yale. edu 


作为 唯一 标识 符 。 在 每 个 标签 中 都 使 用 长 唯一 标识 符 很 不 方便 ， 所 以 名 字 空 间 标准 提供 了 一 种 定义 标 
识 符 缩写 的 方法 。 

在 图 23-8 中 ， 根 元 素 (university) 有 个 属性 xmlns: yale， 它 声明 yale 被 定义 为 上 述 给 定 URL 的 缩 
写 。 这 个 缩写 随后 可 用 于 各 种 元 素 标 签 中 ， 如 图 23-8 中 所 示 。 

一 份 文档 可 以 有 不 止 一 个 名 字 空 间 ， 它 们 声明 为 根 元 素 的 一 部 分 。 不 同 元 素 可 以 与 不 同名 字 空 间 
相关 联 。 可 以 通过 在 根 元 素 中 使 用 属性 xmlns 代替 xmlns: yale 来 定义 默认 名 字 空 间 (default 
namespace) 。 没 有 显 式 名 字 空 间 前 级 的 元 素 就 属于 默认 名 字 空 间 。 
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| <university xmins:yale=“http://www.yale.edu™ > 


<yale:course> 
<yale:course_id> CS-101 </yale:course_id> 
<yale:title> Intro. to Computer Science</yale:title > 
<yale:dept_name> Comp. Sci. </yale:dept_name> 
<yale:credits> 4 </yale:credits> 

</yale:course> 


</university> 
图 23-8 通过 使 用 名 字 空 间 来 指定 唯一 标签 名 


有 时 我 们 需要 存储 包含 标签 的 值 而 又 不 想 将 其 中 的 标签 解释 为 XML 的 标签 。 为 了 能 这 样 做 ，XML 
允许 这 样 的 结构 : 





< ! [CDATA[ < course >… </course > ] ] > 


因为 文本 < course > 包含 在 CDATA 中 ,所 以 它 被 作为 正常 的 文本 数据 ， 而 不 是 当 作 标签 。 术 语 
CDATA 代表 字符 数据 。 


23.3 XML 文档 模式 


数据 库 有 模式 ， 用 来 限制 什么 信息 可 以 存储 在 数据 库 中 并 限制 存储 信息 的 数据 类 型 。 与 此 相反 ， 
在 默认 情况 下 XML 文档 可 以 不 需 任 何 相 关 模 式 而 被 创建 : 这 样 ， 一 个 元 素 可 以 有 任意 的 子 元 素 或 属 
性 。 虽然 在 XML 文档 给 定 了 数据 格式 的 自 描述 特性 的 情况 下 ， 这 样 的 自由 有 时 是 可 以 接受 的 ， 但 是 当 
XML 文档 必须 作为 应 用 程序 的 一 部 分 进行 自动 处 理 时 ， 甚 至 当 大 量 的 相关 数据 需要 在 XML 中 进行 格 
式 化 时 ， 这 种 自由 通常 是 没有 用 处 的 。 

在 此 ， 我 们 介绍 作为 XML 标准 组 成 部 分 的 第 一 种 模式 定义 语言 一 一 文档 类 型 定义 ， 以 及 新 近 被 定 
义 的 其 替代 者 一 一 XML 模式 (XML schema) 。 另 外 一 个 也 被 使 用 的 XML 模式 定义 语言 称 作 Relax NG, 
但 是 我 们 在 这 里 并 不 介绍 它 ; 关于 Relax NG 的 更 多 信息 ， 请 参阅 文献 注解 部 分 的 参考 文献 
23. 3.1 文档 类 型 定义 

文档 类 型 定义 ( Document Type Definition, DTD) 是 XML 文档 的 一 个 可 选 部 分 。DTD 的 主要 目的 与 
模式 很 像 : 对 文档 中 出 现 的 信息 进行 约束 和 类 型 限定 。 但 是 事实 上 DTD 并 不 限制 基本 类 型 ( 如 整数 和 
PB) 意义 上 的 类 型 ， 它 只 限制 元 素 中 子 元 素 和 属性 的 出 现 。DTD 主要 是 有 关 一 个 元 素 中 可 以 出 现 
何 种 模式 的 子 元 素 的 一 系列 规则 。 图 23-9 展示 了 一 个 大 学 信息 文档 的 DTD 实例 的 一 部 分 ， 图 23-1 中 
的 XML 文档 就 遵循 该 DTD。 





| <!DOCTYPE university [ 

<!ELEMENT university ( (department|course|instructor|teaches)+)> 
<!ELEMENT department ( dept_name, building, budget)> 
<!ELEMENT course ( course id, title, dept_name, credits)> 
<!ELEMENT instructor (IID, name, dept_name, salary) > 
<!ELEMENT teaches (IID, course_id)> 

<!ELEMENT dept_name{ #PCDATA )> 

<!ELEMENT building( #PCDATA )> 

<!ELEMENT budget( #PCDATA )> 

<!ELEMENT course_id ( #PCDATA )> 

<!ELEMENT title ( #PCDATA )> 

<!ELEMENT credits( #PCDATA )> 

<!ELEMENT IID( #PCDATA )> 

<!ELEMENT name( #PCDATA )> 

<!ELEMENT salary( #PCDATA )> 











图 23-9 一 个 DTD 示例 
每 个 声明 都 以 一 个 元 素 的 子 元 素 的 正则 表达 式 形 式 出 现 。 这 样 ， 在 图 23-9 的 DTD F, 一 个 
university 元 素 包 含 一 个 或 多 个 course, department 或 instructor 元 素 ;“ | ”操作 符 意 指 “ 或 "， 而 “+” 操 
作 符 意 指 " 一 个 或 多 个 "。 还 有 两 个 操作 符 在 这 里 没有 出 现 :“ * "操作 符 用 来 表示 ”“ 零 个 或 多 个 ”， 而 
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“?” 操 作 符 用 来 指定 一 个 可 选 的 元 素 ( 即 “ 零 个 或 一 个 ” )。 

course 元 素 包 含 子 元 素 course_id, title, dept_name 和 credits ( 按 此 顺序 )。 类 似 地 ， 在 DTD 中 ， 
department 和 instructor 将 它们 的 关系 模式 属性 定义 为 子 元 素 。 

最 后 ， 元 素 course_id title, dept_name, credits, building, budget, IID, name 和 salary 都 被 声明 为 
#PCDATA 类 型 。 关 键 字 #PCDATA 表示 文本 数据 ; 它 的 名 字 在 历史 上 来 源 于 “被 解析 的 字符 数据 ” 
(parsed character data) 。 男 外 两 种 专门 的 类 型 声明 是 empty( 是 说 这 个 元 素 没 有 内 容 ) 和 any( 是 说 对 这 个 
元 素 的 子 元 素 没 有 限制 ; 也 就 是 说 ， 任 何 元 素 甚 至 没有 在 DID 中 提 到 的 元 素 都 可 以 作为 该 元 素 的 子 元 
素 出 现 ) 。 一 个 元 素 没有 声明 等 同 于 将 其 显 式 地 声明 为 any 类 型 。 

每 个 元 素 所 允许 的 属性 也 在 DTD 中 声明 。 与 子 元 素 不 同 ， 属 性 没有 顺序 之 分 。 属 性 可 以 指定 为 
CDATA, ID, IDREF 或 IDREFS 类 型 。CDATA 类 型 只 是 说 这 个 属性 包含 字符 数据 ， 而 另外 三 个 就 没有 
这 么 简单 ， 一 会 儿 将 对 它们 进行 详细 解释 。 例 如 ， 下 面 是 来 自 DTD 中 的 一 行 ， 它 指定 course 元 素 有 个 
类 型 为 course_id 的 属性 ， 并 且 该 属性 必须 有 值 。 

<! ATTILIST course course_id CDATA #REQUIRED > 

属性 必须 有 一 个 类 型 声明 和 一 个 默认 声明 。 默 认 声 明 可 以 包含 该 属性 的 一 个 默认 值 ， 也 可 以 包含 # 
REQUIRED ( 意思 是 每 个 元 素 在 该 属性 上 必须 指定 一 个 值 ) 或 上 MPLIED( 意思 是 指 没有 提供 默认 值 ， 文 
档 可 以 忽略 这 个 属性 ) 。 如 果 一 个 属性 有 默认 值 ， 那 么 对 每 个 没有 为 该 属性 指定 值 的 元 素 ， 这 个 默认 值 
在 读 取 XML 文档 时 被 自动 填 进 去 。 

类 型 为 ID 的 属性 提供 该 元 素 的 唯一 标识 符 ; 出 现在 一 个 元 素 的 D 属性 中 的 值 一 定 不 能 在 同一 文 
档 中 的 任何 其 他 元 素 中 出 现 。 一 个 元 素 最 多 只 有 一 个 属性 允许 为 了 D 类 型 。( 在 XML 表示 中 ， 为 了 避免 
H ID 类 型 的 冲突 ， 我们 将 instructor 关系 的 ID 属性 更 名 为 ID。) 

类 型 为 IDREF 的 属性 是 对 一 个 元 素 的 引用 ， 这 个 属性 必须 包含 出 现在 文档 中 某 个 元 素 的 ID 属性 
上 的 值 。IDREFS 类 型 允许 以 空格 分 开 的 一 个 引用 列表 。 

图 23-10 展示 了 一 个 DTD 示例 ， 其 中 课程 、 系 和 教师 的 标识 用 ID 属性 来 表示 ， 而 它们 之 间 的 联系 
用 IDREF 和 IDREFS 属性 来 表示 。course 元 素 使 用 course_id 作为 它们 的 标识 符 属性 。 为 了 做 到 这 一 点 ， 
course_id 被 设置 为 course 的 一 个 属性 而 不 是 子 元 素 。 此 外 ， 每 个 course 元 素 还 包含 一 个 与 该 course 对 
应 的 department 的 IDREF 属性 ， 以 及 一 个 IDREFS 属性 instructors ， 它 表示 讲授 该 课程 的 那些 教师 。 
department 元 素 具 有 一 个 称 作 dept_name 的 标识 符 属性 instructor 元 素 具 有 一 个 称 作 ID 的 标识 符 属性 ， 
以 及 一 个 IDREF 属性 dept_name， 表 示 该 教师 所 在 的 系 。 





| <!DOCTYPE university-3 [ | 
| <!ELEMENT university ( (departmenticourselinstructon+)> | 
<!ELEMENT department ( building, budget )> 
<!ATTLIST department 
dept_name ID #REQUIRED > 
<!ELEMENT course (title, credits )> 
<!ATTLIST Course 
| course_id ID #REQUIRED 
| dept_name IDREF #REQUIRED 
instructors IDREFS #IMPLIED > 
<!ELEMENT instructor (name, salary )> 
<!ATTLIST instructor 
IID ID #REQUIRED 
dept_name IDREF #REQUIRED > 
--- declarations for title, credits, building, 
budget, name and salary - - - 
| d= 


图 23-10 具有 ID 和 IDREFS 属性 类 型 的 DTD 


23-11 展示 了 一 个 基于 图 23-10 中 DTD 的 XML 文档 示例 。 
ID 和 IDREF 属性 在 面向 对 象 和 对 象 - 关系 数据 库 中 扮演 着 同样 的 引用 机 制 的 角色 ， 人 允许 构造 复杂 
数据 关系 。 
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| <university-3> 
<department dept-name="Comp. Sci.” > 
<building> Taylor </building> 
<budget> 100000 </budget> 
</department> 
<department dept_name="Biology”> 
<building> Watson </building> 
<budget> 90000 </budget> 
</department> 
<course course_id="CS-101" dept.name="Comp. Sci” 
instructors="10101 83821"> 
<title> Intro. to Computer Science </title> 
<credits> 4 </credits> 
</course> 
- <course course_id=“BIO-301" dept_-name=“Biology”™ 
instructors="76766" > 
<title> Genetics </title> 
<credits> 4 </credits> 
</course> 
<instructor IID="10101" dept_name="Comp. Sci.” > 
<name> Srinivasan </name> 
<salary> 65000 </salary> 
</instructor> 
<instructor IID="83821" dept.name="Comp. Sci.” > 
<name> Brandt </name> 
<salary> 72000 </salary> 
</instructor> 
<instructor |ID="76766" dept_name="Biology”> 
<name> Crick </name> 
<salary> 72000 </salary> 
</instructor> 
</university-3> 











Al 23-11 具有 ID 和 IDREF 属性 的 XML 数据 


文档 类 型 定义 与 XML 的 文档 格式 继承 有 很 强 的 联系 。 由 于 这 个 原因 ， 将 文档 类 型 定义 作为 数据 处 
理应 用 中 的 XML 类 型 结构 在 很 多 方面 是 不 合适 的 。 尽 管 如 此 ， 大 量 的 数据 交换 格式 是 以 DTD 来 定义 
的 ， 因 为 它们 是 最 初 标准 的 一 部 分 。 下 面 是 一 些 以 DTD 作为 模式 机 制 的 局 限 性 : 
。 单个 文本 元 素 和 属性 不 能 更 进一步 限定 类 型 。 比 如 ，balance 元 素 不 能 被 限制 为 一 个 正 数 。 缺 乏 
这 样 的 约束 在 数据 处 理 和 交换 应 用 中 是 有 问题 的 ， 这 就 必须 包含 一 些 代码 来 验证 元 素 和 属性 的 
类 型 。 

© 很 难 用 DTD 机 制 来 指定 子 元 素 的 无 序 集合 。 顺 序 在 数据 交换 中 很 少 有 重要 用 处 (不 像 文档 排版 
那样 严格 ) 。 虽 然 图 23-9 中 或 操作 符 ( | 操作 符 ) 和 * 或 + 操作 符 的 组 合 允 许 指定 标签 的 无 序 集 
合 ， 可 是 很 难 指定 每 个 标签 只 可 以 出 现 一 次 。 

e ID 和 IDREF 中 缺乏 类 型 限定 。 这 样 就 没有 办 法 来 指定 IDREF 或 IDREFS 属性 应 该 引用 的 元 素 
类 型 。 于 是 ， 图 23-10 中 的 DTD 不 能 阻止 一 个 course 元 素 的 “dept_name” 属性 引用 其 他 course 
的 现象 ， 尽管 这 样 做 毫 无 意义 。 

23.3.2 XML Schema 


为 了 弥补 DTD 机 制 的 缺陷 ， 发 展 出 了 一 种 更 完善 的 模式 语言 一 一 XML Schema。 我 们 给 出 XML 
Schema 的 概览 ， 然 后 列 出 它 对 DTD 改进 的 一 些 方面 。 

XML Schema 定义 了 很 多 内 置 类 型 ， 例 如 string、integer、decimal date 和 boolean。 此 外 ， 它 允许 用 
户 自 定 义 类 型 ， 这些 用 户 自 定义 类 型 可 能 是 增加 了 限制 的 简单 类 型 ,或 是 使 用 诸如 complexType 和 
sequence 那样 的 构造 符 构造 出 的 复杂 类 型 。 

图 23-12 和 图 23-13 显示 了 图 23-9 中 的 DTD 是 如 何 用 XML Schema 来 表示 的 。 下 面 我 们 介绍 图 中 
示例 的 XML Schema 特性 。 





<XS; 
<XS; 
<xXS; 


</XS; 
<XS: 


</XS; 
<XS: 


</XS: 





schema xmins; xs = “http: //www. w3. org/2001/XMLSchema” > 
element name = “university” type = “universityType” / > 
element name = “department” > 
<xs: complexType > 
<XS: Sequence > 
<xs; element name =“dept_ name” type =“xs; string”/ > 
<xs; element name =“ building” type =“xs: string”/ > 
<xs: element name = “budget” type =“xs: decimal”/ > 
</xS; sequence > 
</xs: complexType > 
element > 
element name =“ course” > 
<xs: complexType > 
<XS: sequence > 
<xs: element name =“course_ id” type =“xs: string”/ > 
<xs; element name = “title” type =“xs; string”/ > 
<xs; element name =“dept_ name” type =“xs: string”/ > 
<xs; element name = “credits” type =“xs; decimal”/ > 
</xS; sequence > 
</xs; complexType > 
element > 
element name = “instructor” > 
<xs: complexType > 
<xS; sequence > 
<xs; element name = “IID” type =“xs; string”/ > 
<xs; element name = “name” type =“xs: string”/ > 
<xs; element name = “dept_ name” type = “xs; string”/ > 
<xs; element name = “salary” type =“xs: decimal”/ > 
</xS; sequence > 
</xs; complexType > 
element > 
后 部 见 图 23-13 








图 23-12 图 23-9 中 DTD 的 XML Schema 版 本 





<xs:element name='teaches > 
<xs:complexType> 
<xs:sequence> 
<xs:element name=“IID" type="xs:string’/> 
<xs:element name=“course_id” type="xs:string’/> 
</xs:sequence> 
</xs:complexType> 
</xs:element> 
<xs:complexType name=“UniversityType”> 
<xs:sequence> 
<xs:element ref="department™ minOccurs=“0” 
maxOccurs=“unbounded’’/> 
<xs:element ref=“course” minOccurs="0" 
maxOccurs=“unbounded”/> 
<xs:element ref=“instructor” minOccurs=‘‘0” 
maxOccurs=“unbounded’/> 
<xs:element ref=“teaches” minOccurs="0" 
maxOccurs=“unbounded’/> 
</xs:sequence> 
</xs:complexType> 
</xs:schema> 











K 23-13 续 图 23-12 
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第 一 个 要 注意 的 问题 是 XML Schema 中 的 模式 定义 本 身 是 利用 XML Schema 定义 的 各 种 标签 用 XML 
语法 指定 的 。 为 了 避免 与 用 户 定 义 标签 发 生 冲 突 ， 我 们 在 XML Schema 标签 上 增加 名 字 空 间 的 前 组 
“xs:”， 这 个 前 缀 通过 根 元 素 的 xmlns: xs 声明 与 XML Schema 名 字 空 间 相 关联 : 

<xs: schema xmlns: xs = “http: //www. w3. org/2001/XMLSchema” > 
注意 任何 名 字 空 间 前 缀 都 可 用 来 替换 xs; 因此 我 们 可 以 用 "xsd: ”替换 模式 定义 中 的 所 有 ”xs:”， 而 不 需 
改变 模式 定义 的 含义 。XML Schema 定义 的 所 有 类 型 必须 加 上 这 个 名 字 空 间 前 级 。 

第 一 个 元 素 是 根 元 素 university， 它 的 类 型 被 指定 为 后 面 声 明 的 UniversityType， 接 着 这 个 例子 定义 
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了 元 素 department course, instructor 和 teaches 的 类 型 。 注 意 每 个 元 素 都 用 带 xs: element 标签 的 元 素 指 
定 ， 其 内 容 包含 类 型 的 定义 。 

department 类 型 被 定义 为 复杂 类 型 ， 并 进而 被 指定 为 一 个 由 元 素 dept_name building 和 budget 构成 
的 序列 。 任 何 具有 属性 或 能 套子 元 素 的 类 型 必须 被 指定 为 复杂 类 型 。 

或 者 ， 元 素 的 类 型 可 以 通过 属性 type 被 指定 为 一 个 预定 义 类 型 ; 观察 XML Schema 类 型 xs: string 
和 xs: decimal 是 如 何 被 用 于 限制 数据 元 素 ( 如 dept_name 和 credits) 的 类 型 的 

最 后 ， 这 个 例子 定义 了 UniversityType 类 型 ， 它 包括 每 个 department 、course 、instructor 和 teaches 的 
零 个 或 多 个 出 现 。 注 意 用 ref 指明 前 面 定义 元 素 的 出 现 。XML Schema 可 以 用 minOccurs 和 maxOccurs 来 
定义 子 元素 出 现 的 最 少 次 数 和 最 多 次 数 。 最 少 次 数 和 最 多 次 数 的 默认 值 都 为 1， 因 此 必须 显 式 指定 这 
两 个 值 以 允许 出 现 零 个 或 多 个 department 、course 、instructor 和 teaches 元 素 。 

属性 用 xs: attribute 标签 来 指定 。 例 如 ， 我 们 可 以 通过 在 department 元 素 的 声明 中 增加 : 


<xs; attribute name = “dept_name”/ > 


来 把 dept_name 定义 为 属性 。 在 上 述 属 性 声明 中 增加 属性 use = “required” 表示 该 属性 必须 被 指定 ， 而 
use 的 默认 值 为 optional。 属 性 声明 应 直接 出 现在 包含 它 的 complexType 声明 之 下 ， 即 使 元 素 是 组 套 在 序 
列 声明 中 的 。 

我 们 可 以 使 用 xs:complexType 元 素来 创建 命名 的 复杂 类 型 ; 除了 要 为 xs:complexType 元 素 增加 
name = typeName ( 其 中 typeName 是 我 们 要 赋 给 类 型 的 名 字 ) 属性 外 ， 语法 与 图 23- 12 中 用 于 
xs:complexType 元 素 的 语法 相同 。 然 后 我 们 就 可 以 通过 使 用 type 属性 用 这 个 已 命名 的 类 型 来 指定 元 素 
的 类 型 ， 就 如 我 们 在 例子 中 使 用 xs:decimal 和 xs: string 一 样 。 

除了 定义 类 型 ， 关 系 模式 还 允许 指定 约束 。XML Schema 允许 指定 键 和 键 引用 ， 对 应 于 SQL 中 的 主 
码 和 外 码 定义 。 在 SQL 中 ,， 主 码 约束 或 唯一 性 约束 保证 关系 中 的 属性 值 不 会 重复 出 现 。 在 XML 的 上 下 
文 环境 中 ， 我 们 需要 指定 一 个 范围 ， 在 这 个 范围 内 值 是 唯一 的 并 形成 键 。selector 是 定义 约束 范围 的 路 
径 表 达 式 ，field 声明 指定 形成 键 的 元 素 或 属性 “要 指定 dept_name 构成 根 元 素 university 下 的 
department 元 素 的 键 ， 我 们 在 模式 定义 中 增加 下 面 的 约束 声明 : 

<xs; key name = “deptKey” > 
<xs; selector xpath = “/university/department” / > 
<xs: field xpath = “dept_name”/ > 

</xs; key > 


相应 地 ， 从 course 到 department 的 外 码 约束 可 以 定义 如 下 : 


<xsS; name = “courseDeptFKey” refer = “deptKey” > 
<xs; selector xpath = “/university/course” / > 
<xs; field xpath = “dept_name”/ > 

</xs; keyref > 


注意 refer 属性 指定 被 引用 的 键 声明 的 名 字 ， 而 field 声明 指明 引用 属性 。 
XML Schema 有 很 多 优 于 DTD 之 处 ， 目 前 正 被 广泛 应 用 。 我 们 从 上 述 例子 中 所 看 到 的 优点 有 : 
© 它 允 许 把 元 素 中 出 现 的 文本 限制 为 专门 的 类 型 (如 特定 格式 的 数字 类 型 ) 或 复杂 类 型 (如 其 他 类 
型 元 素 的 序列 ) 。 
。 它 允 许 创 建 用 户 定义 类 型 。 
© 它 允 许 唯一 性 和 外 键 约束 。 
© 它 与 名 字 空 间 结合 以 允许 文档 的 不 同 部 分 遵循 不 同 的 模式 。 
除 我 们 已 经 看 到 的 特性 外 ，XML Schema 还 支持 若干 DTD 不 支持 的 其 他 特性 ， 如 : 
© 它 允 许 为 创 建 专 门 的 类 型 而 对 类 型 进行 限制 ， 如 指定 最 小 和 最 大 值 。 
© 它 允 许 以 使 用 继承 的 形式 来 扩展 复杂 类 型 。 





O 这 里 我 们 使 用 熟悉 的 语法 来 书写 简单 路 径 表 达 式 。XML 拥有 丰富 的 路 径 表达 式 语 法 ， 称 作 XPath, RIE 
23.4.2 节 中 加 以 介绍 。 
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我 们 对 XML Schema 只 进行 了 概括 性 的 介绍 ， 要 了 解 更 多 有 关 XML Schema 的 信息 ， 请 参看 文献 注 [997 
解 中 的 参考 文献 。 


23.4 查询 和 转换 


考虑 到 越 来 越 多 的 应 用 使 用 XML 来 交换 数据 、 作 为 数据 中 介 并 存储 数据 ， 有 效 管理 XML 数据 的 
工具 就 变 得 越 来 越 重要 了 。XML 数据 的 查询 和 转换 工具 对 于 从 体积 庞大 的 XML 数据 中 提取 信息 以 及 
在 XML 的 不 同 表示 (模式 ) 之 间 转 换 数 据 来 说 尤为 重要 。 就 像 关系 查询 的 输出 是 关系 一 样 ，XML 查询 
的 输出 可 以 是 XML 文档 。 因 此 查询 和 转换 可 以 结合 在 一 个 工具 中 。 

在 本 节 我 们 介绍 XPath 和 XQuery 语言 

。 XPath 是 一 种 用 于 路 径 表达 式 的 语言 ， 事 实 上 也 是 XQuery 的 基石 。 

。 XQuery 是 查询 XML 数据 的 标准 语言 。 它 的 模型 是 仿照 SQL 的 ， 但 由 于 它 要 处 理 嵌 套 XML 数 

据 ， 因 此 与 SQL 有 明显 的 差异 。XQuery 也 结合 了 XPath RAR. 

XSLT 语言 是 为 XML 转换 而 设计 的 另 一 种 语言 。 不 过 ， 它 主要 用 于 文档 格式 化 而 非 数据 管理 应 用 
中 。 因 此 本 书 将 不 对 此 进行 讨论 。 

本 章 未 尾 的 “工具 "部 分 提供 了 对 几 种 软件 的 引用 ， 这 些 软件 可 用 于 执行 由 XPath 和 XQuery 书写 的 
查询 。 

23. 4. 1 XML 树 模型 


这 些 语言 都 使 用 了 XML 数据 的 树 模型 (tree model) 。 一 份 XML 文档 被 建 模 为 一 棵 树 (tree) ， 其 结 点 
(node) 对 应 于 元 素 和 属性 。 元 素 结 点 可 以 有 子 结 点 ， 子 结 点 可 以 是 该 元 素 的 子 元素 或 属性 。 相 应 地 ， 除 
根 元 素 外 的 每 个 结 点 (不 管 是 属性 还 是 元 素 ) 都 有 一 个 元 素 是 其 父 结 点 。XML 文档 中 元 素 和 属性 的 顺序 根 
据 树 的 子 结 点 的 顺序 建 模 。XML 数据 的 树 模型 中 使 用 了 父亲 、 孩 子 、 祖 先 、 后 代 以 及 兄弟 等 术语 。 

元 素 的 文本 内 容 可 以 建 模 为 该 元 素 的 文本 子 结 点 。 包 含 由 于 子 元 素 的 插 和 人 而 导致 间断 的 文本 的 元 
素 可 以 有 多 个 文本 子 结 点 。 例 如 ， 包 含 “this is a <bold > wonderful </bold > book” 的 元 素 将 有 一 个 子 
元 素 孩 子 对 应 于 bold 元 素 以 及 两 个 文本 子 结 点 对 应 于 "this is a” A“ book” 。 由 于 这 种 结构 在 数据 表示 中 
并 不 常用 ， 我 们 将 假设 元 素 不 会 既 包 含 文本 又 包含 子 元 素 。 DF] 
23.4.2 XPath 

XPath 通过 路 径 表达 趟 指向 XML 文档 的 部 分 内 容 。 这 种 语言 可 以 看 作 是 面向 对 象 和 对 象 - 关系 数 
据 库 ( 见 22.6 节 ) 中 简单 路 径 表达 式 的 扩展 。XPath 标准 的 当前 版 本 是 XPath 2. 0， 我 们 的 介绍 就 基于 这 
个 版 本 的 。 

XPath 中 的 路 径 表达 式 (path expression) 是 由 "/”( 蔡 代 了 SQL 中 用 于 分 隔 定 位 步骤 的 “操作 符 ) 隔 开 的 
定位 步骤 的 一 个 序列 。 路 径 表达 式 的 结果 是 一 个 结 点 的 集合 。 例 如 ， 在 图 23-11 的 文档 中 ，XPath 表达 式 


/university - 3/instructor/name 

















会 返回 这 些 元 素 : 
<name > Srinivasan </name > 
<name >Brandt </name > 


表达 式 
/university ~ 3/instructor/name/ text( ) 

会 返回 相同 的 名 字 ， 但 是 没有 外 围 标签 。 

路 径 表 达 式 是 从 左 到 右 执 行 计算 的 。 像 目录 层次 结构 一 样 ， 初 始 的 “人 表示 文档 的 根 。 注 意 ， 这 
是 一 个 在 作为 文档 标签 的 < university -3 > “之 上 "的 抽象 的 根 。 

当 计 算 路 径 表 达 式 时 ， 任 意 时 刻 路 径 的 结果 由 文档 中 某 些 结 点 的 一 个 有 序 集合 构成 。 初 始 时 ” 当 
前 ”元素 集合 只 包含 一 个 结 点 ， 即 抽象 的 根 。 当 路 径 表 达 式 的 下 一 步骤 是 一 个 元 素 名 ， 如 instructor 时 ， 
此 步骤 的 结果 由 当前 元 素 集中 元 素 的 子 元 素 中 具有 该 指定 名 字 的 元 素 所 对 应 的 结 点 构成 。 这 些 结 点 随 
之 成 为 路 径 表 达 式 计算 的 下 个 步骤 所 使 用 的 当前 元 素 集 。 因 此 ， 表 达 式 : 
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/university -3 


返回 对 应 于 标签 : 
<university—3 > 
的 单个 结 点 。 而 : 
/university - 3/instructor 
返回 对 应 于 
instructor 
的 两 个 结 点 ,它们 是 结 点 : 
university -3 


的 子 结 点 。 

路 径 表 达 式 的 结果 是 经 过 最 后 一 步 路 径 表达 式 计 算 后 所 得 到 的 结 点 集合 。 每 个 步骤 返回 结 点 的 顺 
序 与 它们 在 文档 中 出 现 的 顺序 一 致 。 

由 于 多 个 孩子 可 以 有 同样 的 名 字 ， 所 以 结 点 集中 结 点 的 数量 可 能 在 每 个 操作 步骤 中 增加 或 减少 。 
还 可 以 使 用 “@ "符号 访问 属性 值 ， 例 如 ，/university —3/course/@ course_id 返回 course 元 素 的 course_id 
属性 的 所 有 值 的 集合 。 默 认 情 况 下 ， 并 不 考虑 IDREF 链接 ; 我 们 将 在 稍 后 看 到 如 何 处 理 IDREF。 

XPath 支持 许多 其 他 特性 : 

。 可 以 在 路 径 的 每 个 操作 步骤 中 使 用 选择 谓词 ， 选 择 谓词 包含 在 方 括号 中 ， 例 如， 


/university ~ 3/course[ credits >=4] 


返回 学 分 大 于 或 等 于 4 的 course 元 素 ， 而 : 
/university ~ 3/course[ credits >=4]/@ course_id 
返回 这 些 课程 的 课程 标识 。 
我 们 可 以 通过 列 出 一 个 子 元 素 而 不 使 用 任何 比较 运算 的 方式 来 测试 该 子 元 素 是 否 存在 。 例 如 ， 如 
果 我 们 只 是 将 上 面 的 ”>=4” 去 掉 ， 这 个 表达 式 就 会 返回 具有 学 分 子 元 素 的 所 有 课程 的 标识 ， 而 不 考虑 
学 分 的 值 。 
o XPath 提供 了 一 些 可 以 作为 谓词 的 一 部 分 使 用 的 函数 ， 包 括 测试 当前 结 点 在 兄弟 顺序 当中 的 位 
置 以 及 聚集 函数 count( ) ， 它 计算 与 函数 所 作用 的 表达 式 相 匹配 的 结 点 数量 。 例 如 ， 在 图 23-6 
中 的 XML 表示 中 ， 路 径 表 达 式 : 


/university ~ 2/instructor[ count(. /teaches/course) > 2] 


返回 讲授 两 门 以 上 课程 的 教师 。 布 尔 连 接 and 和 or 可 以 在 谓词 中 使 用 ， 而 函数 not(…) 可 用 于 


否定 。 
© PAR id( “foo”) 返 回 属性 的 类 型 为 ID 且 值 为 foo" 的 结 点 (如 果 存 在 的 话 ) RA id 甚至 可 以 应 
用 于 引用 的 集合 ， 或 者 包含 用 空格 隔 开 的 多 个 引用 的 字符 串 ， 如 IDREFS。 例如， 路 径 : 


/university ~ 3/course/id( @ dept_name) 
返回 被 course 元 素 的 dept_name 属性 引用 的 所 有 系 元 素 。 而 : 


/university ~ 3/course/id( @ instructors ) 
返回 被 course 元 素 的 instructors 属性 所 引用 的 教师 元 素 。 
。 操作 符 | 允许 对 表达 式 结果 进行 合并 。 例 如 ， 给 定 图 23-11 中 所 示 的 模式 下 的 数据 ， 我 们 可 以 
使 用 表达 式 : 
/university ~ 3/course[ @ dept_name = “Comp. Sci” | | 
/university - 3/course| @ dept_name = “ Biology” | 
来 查找 Computer Science 和 Biology 所 开设 课程 的 并 集 。 但 是 | 操作 符 不 能 艇 套 在 其 他 操作 符 
中 。 还 有 一 点 值得 注意 ,“ 并 "中 的 结 点 依照 它们 在 文档 中 出 现 的 顺序 被 返回 。 
e XPath 表达 式 可 以 使 用 “//” 来 跳 过 多 层 结 点 。 举 例 来 说 ， 表 达 式 /university - 3//name 找 出 / 
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university -3 元 素 下 的 任意 位 置 上 的 所 有 name 元 素 ， 而 不 管 它们 被 包含 在 哪个 元 素 中 ， 也 不 管 


在 university -3 和 name 元 素 之 间 存 在 多 少 个 层次 的 元 素 。 这 个 例子 演示 了 在 没有 关于 模式 全 部 


知识 的 情况 下 查找 所 需 数据 的 能 力 。 
路 径 中 的 操作 步骤 不 需要 只 是 在 当前 结 点 集 的 子 结 点 中 进行 选择 。 事 实 上 ,这 只 是 路 径 中 一 个 
步骤 可 能 执行 的 若干 方向 ( 如 父亲 、 兄 弟 、 祖 先 和 后 代 ) 中 的 一 个 。 我 们 在 这 里 省 略 详细 描述 ， 
但 是 请 注意 ， 上 面 描述 的 “//”" 是 用 于 指定 “所 有 后 代 " 的 一 种 缩写 形式 ， 而 “. . "指定 父亲 。 
© 内 置 函 数 doc(name) 返 回 一 个 已 命名 文档 的 根 ; 这 个 名 字 可 以 是 文件 名 或 是 URL, 该 函数 返回 
的 根 可 用 于 路 径 表 达 式 中 以 访问 文档 的 内 容 。 因 此 ， 路 径 表 达 式 可 以 应 用 在 特定 文档 上 ， 而 不 
是 当前 默认 文档 上 。 
例如 ， 如 果 我 们 的 大 学 例子 中 的 大 学 数据 包含 在 文件 "university. xml” 中 ， 下 述 路 径 表 达 式 
将 返回 大 学 中 的 所 有 系 : 


doc( “university. xml” ) /university/ department 


函数 collection( name) 与 doc 相似 ， 但 返回 以 name 标识 的 文档 集合 。 例 如 ，collection 函数 可 用 
于 打开 一 个 被 视 为 文档 集合 的 XML 数据 库 。XPath 表达 式 中 随后 的 元 素 可 以 从 集合 中 选择 出 适 
当 的 文档 。 
在 大 多 数 例子 中 ， 我 们 假设 表达 式 是 在 数据 库 上 下 文中 计算 的 ， 该 数据 库 隐 式 地 提供 了 一 
个 “文档 ”的 集合 ，XPath 表达 式 就 在 这 个 集合 上 进行 计算 。 在 这 种 情况 下 ， 我 们 不 需要 使 用 
doc PAŽIN collection 函数 。 
23.4.3 XQuery 
万 维 网 联盟 ( World Wide Web Consortium, W3C) F&T XQuery, EX XML 标准 的 查询 语言 。 我 们 
的 讨论 是 基于 2007 年 1 月 23 日 发 布 的 W3C 推荐 版 本 XQuery 1.0。 
23.4.3.1 FLWOR 表达 式 
XQuery 查询 模仿 SQL 查询 ,但 是 与 SQL 有 明显 的 差异 。 它 包含 五 个 部 分 : for let, where, 
order by 和 return。 它 们 被 称 为 “FLWOR”( 读 作 “flower” ) 表 达 式 ，FLWOR 中 的 字母 代表 这 五 个 部 分 。 
如 下 所 示 是 一 个 简单 的 FLWOR 表达 式 ， 它 基于 图 23-11 中 使 用 了 ID 和 IDREFS 的 XML 文档 ， 返 
回 学 分 大 于 3 的 课程 标识 。 


for $ x in /university —-3/course 

let $ courseld : = $ x/@course_id 

where $ xX/credits >3 

return <course_id>{ $ courseld | </course_id > 


for 子 句 就 像 SQL 中 的 from 子 句 ， 指 定 在 XPath 表达 式 结 果 范 围 内 变动 的 变量 。 当 指定 的 变量 多 
于 一 个 时 ， 结 果 包 含 这 些 变量 所 有 可 能 值 的 笛 卡 儿 积 ， 就 像 SQL 的 from 子 句 所 做 的 一 样 。 

let 子 句 允许 将 XPath 表达 式 结果 赋值 给 变量 名 以 简化 表达 。where 子 句 同 SQL 的 where 子 名 一样 ， 
对 来 自 for 子 句 的 连接 元 组 执行 附加 测试 。order by 子 句 与 SQL 的 order by 子 名 一样， 允许 对 输出 排 
序 。 最 后 ，return 子 句 允许 构造 XML 形式 的 结果 。 

FLWOR 查询 不 需要 包含 所 有 子 句 ; 例如 一 个 查询 可 能 只 包含 for 和 return 子 句 ， 而 省 略 let, 
where 和 order by 子 句 。 前 面 的 XQuery 查询 中 就 没有 包含 order by 子 句 。 事 实 上 ， 由 于 这 个 查询 很 简 
单 ， 我 们 可 以 容易 地 去 掉 let 子 句 ， 并 把 return 子 句 中 的 $courseld 变量 替换 为 $x/@ course_id。 进 而 言 
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Z, HF for 子 句 使 用 了 XPath 表达 式 ， 选 择 可 以 发 生 在 XPath 表达 式 内 部 。 这 样 ， 可 以 只 用 for 和 [1002] 


return 子 句 构造 一 个 等 价 的 查询 : 


for $x in /university -3/course[ credits > 3] 
return < course_id > | $x/@course_id} </course_id > 


然而 ，let 子 句 有 助 于 简化 复杂 查询 。 还 要 注意 如 果 右 侧 的 路 径 表达 式 返回 一 个 由 多 个 元 素 或 值 构成 的 
序列 ， 那 么 由 let 子 句 赋值 的 变量 可 能 包含 由 多 个 元 素 或 值 所 构成 的 序列 。 
观察 在 return 子 句 中 对 大 括号 (“| 1}”) 的 使 用 。 当 XQuery 找到 一 个 表达 式 开 头 的 元 素 时 ， 如 
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< course_id > ， 它 将 这 个 元 素 的 内 容 看 作 普 通 的 XML 文本 ， 只 有 大 括号 内 部 的 内 容 会 被 当 作 表达 式 计 
算 。 因 此 ， 如 果 我 们 省 略 掉 上 述 return 子 句 中 的 大 括号 ， 结 果 将 包含 字符 串 ”$x/@ course_id” 的 多 个 
拷贝 ， 其 中 每 个 都 包含 在 一 个 course_id 标签 中 。 而 大 括号 中 的 内 容 是 被 当 作 表达 式 计算 的 。 注 意 即 使 
当 大 括号 出 现在 引号 中 时 ， 这 个 规定 也 是 成 立 的 。 因 此 ， 我 们 可 以 通过 用 下 述 return 子 句 替换 上 述 
return 子 句 来 修改 上 述 查询 ， 使 其 返回 一 个 带 course 标签 并 以 课程 标识 作为 属性 的 元 素 . 
return < course course_id = “ | $x/@course_id!” / > 
XQuery 提供 了 使 用 element 和 attribute 构造 器 来 构造 元 素 的 另 一 种 方法 。 例 如 ， 如 果 前 面 查询 中 
的 return 子 句 用 下 面 的 return 子 名 替换， 查询 将 返回 具有 course_id 和 dept_name 属性 有 日 包含 title 和 
credits 子 元 素 的 元 素 。 
return element course | 
attribute course_id | $x/@course_id! , 
attribute dept_name | $x/dept_name| , 
element title | $x/title! , 
element credits | $x/credits | 
注意 同 前 面 一 样 ， 需 要 使 用 大 括号 以 使 一 个 字符 串 被 当 作 表达 式 计算 . 
23.4.3.2 连接 
在 XQuery 中 指定 连接 与 在 SQL 中 指定 连接 很 相似 。 图 23-1 中 course, instructor 和 teaches 元 素 的 
连接 可 以 这 样 用 XQuery 来 写 : 
for $c in /university/course, 
$i in /university/instructor , 
St in /university/teaches 
where $C/course_id= $t/course_id 
and $t/IID = SiIID 
return <course_instructor> | $c $i | </course_instructor > 


可 以 用 XPath 的 选择 操作 表达 同样 的 查询 : 
for $c in /university/course , 
$i in /university/instructor , 
$t in /university/teaches{ $c/course_id= $t/course_id 
and $t/IID = s$i/IID] 
return <course_instructor> | $c $i | </course_instructor > 

XQuery 中 的 路 径 表 达 式 与 XPath 2.0 中 的 路 径 表 达 式 相同 。 路 径 表 达 式 可 以 返回 单个 值 或 元 素 ， 
或 返回 一 个 值 或 元 素 的 序列 。 如 果 没 有 模式 信息 ， 就 可 能 无 法 确定 一 个 路 径 表 达 式 是 返回 单个 值 还 是 
一 个 值 的 序列 。 这 样 的 路 径 表 达 式 可 以 出 现在 比较 运算 如 = 、< 和 > =F. 

XQuery 对 序列 上 的 比较 运算 有 一 个 有 趣 的 定义 。 例 如 ， 如 果 $x/credits 的 结果 是 单个 值 ， 表 达 式 
$x/credits >3 可 能 具有 通常 的 含义 ; 但 如 果 其 结果 是 一 个 包含 多 个 值 的 序列 ， 那 么 表达 式 在 至 少 有 一 
个 值 大 于 3 时 为 真 。 类 似 地 ， 表 达 式 Sx/credits = $y/credits 的 值 在 第 一 个 表达 式 返 回 值 中 的 任意 一 个 
与 第 二 个 表达 式 返 回 值 中 的 任意 一 个 相等 时 为 真 。 如 果 这 种 操作 不 合适 ， 可 以 使 用 操作 符 eq, ne, It, 
外、le、ge 来 代替 。 这 些 操作 符 在 它们 的 任意 一 个 输入 是 一 个 多 个 值 的 序列 时 就 会 报错 。 

23.4.3.3 KES 

XQuery FLWOR KART URET return FAP, WARE A HEC PM cRRE. fon, 
图 23-5 HRR ERE TE Bt KIC A BBR EI RAY XML 结构 ， 可 以 从 图 23-1 中 的 结构 用 图 23-14 
所 示 的 查询 来 生成 。 

这 个 查询 还 引入 了 $d 人 句法 ， 它 是 指 绑 定 到 变量 $d 的 结 点 (或 结 点 序列 ) 的 所 有 孩子。 类 似 地 ， 
$d/text( ) 给 出 一 个 元 素 的 不 带 标签 的 文本 内 容 。 

XQuery 提供 很 多 可 以 应 用 在 元 素 或 值 的 序列 上 的 聚集 函数 ， 如 sum( ) 和 count( ) 。 应 用 在 序列 上 
的 distinct-values( ) 函数 返回 不 含 重复 值 的 序列 。 由 路 径 表 达 式 返回 的 值 的 序列 (集合 体 ) 中 可 能 有 些 值 

是 重复 的 ， 因 为 它们 在 文档 中 是 重复 的 ， 尽 管 文档 中 的 每 个 结 点 至 多 可 以 在 XPath 表达 式 结果 中 出 现 
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一 次 。XQuery 还 文 持 很 多 其 他 函数 ， 更 多 信息 请 参见 文献 注解 中 的 参考 文献 。 这 些 函 数 实际 上 在 
XPath 2. 0 和 XQuery 中 是 通用 的 ， 而 且 可 以 使 用 在 任何 XPath 路 径 表达 式 中 。 





| <university-1 > 


| for $d in /university/department 
| return 
<department> 
{ $d/* } 
{ for $c in /university/course[dept_name = $d/dept_name] 
return $c } 
</department> 


for $i in /university/instructor 
return 
<instructor> 
{ $i/* } 
{ for $c in /university/teaches[IID = $i/IID] 
return $c/course_id } 
</instructor> 





</university-1 > 








图 23-14 J XQuery 创建 嵌 套 结构 
为 了 避免 名 字 空间 冲突 ， 函 数 与 如 下 名 字 空 间 相 关 ; 
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该 名 字 空间 有 一 个 默认 名 字 空间 前 级 和 句 。 因 此 ， 这 些 函 数 可 以 以 fn sum 或 血 :count 的 形式 被 无 歧义 地 
调用 。 
H F XQuery 不 提供 group by 构造 ， 聚 集 查询 可 以 用 路 径 或 FLOWR RERE return 子 句 中 
的 ) 上 的 聚集 函数 来 书写 。 例 如 ， 以 下 在 university XML schema 上 的 查询 找 出 每 个 系 所 有 教师 的 总 
薪酬 ; 
for $d in /university/department 
return 
< department-total-salary > 
< dept_name > | $d/dept_name} </dept_name > 
<total_salary > | fn; sum( 
for $i in /university/instructor[ dept_name = $d/dept_name | 
return $i/salary 
) | </total_salary > 
</department-total-salary > 


23.4.3.4 结果 的 排序 1005 
在 XQuery 中 可 以 用 order by 子 句 对 结果 排序 。 例 如 ， 这 个 查询 输出 根据 name 子 元 素 排序 的 所 有 
教师 元 素 : 
for $i in /university/instructor 
order by $i/name 
return <instructor > | $i/* | </instructor > 
可 以 使 用 order by $i/name descending 使 结果 按 降 序 排 列 。 
可 以 在 藤 套 的 多 个 层次 上 进行 排序 。 例 如 ， 我 们 通过 下 面 的 查询 ， 可 以 获得 根据 系 名 排序 的 大 学 
信息 的 柑 套 表示 ， 其 中 每 门 课程 按 课程 标识 排序 : 


< university -1> | 
for $d in /university/department 
order by $d/dept_name 
return 
< department > 
| $d/* | 
| for $c in /university/course{ dept_name = $d/dept_name ] 
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order by $C/course_id 
return < course > | $c/* | </course> | 
</department > 
| </university - 1 > 


23.4.3.5 函数 和 类 型 
XQuery 提供 很 多 内 置 函数 ， 如 数字 型 函数 和 字符 串 匹配 与 操作 函数 。 除 此 以 外 ，XQuery 支持 用 户 
自 定 义 函 数 。 下 面 的 用 户 自 定义 函数 以 教师 标识 为 输入 ， 返 回 该 教师 所 属 院 系 开设 的 所 有 课程 的 列表 : 


declare function local: dept_courses( $iid as xs: string) as element( course) ° | 
for $i in /university/instructor[ IID = $iid], 
$c in /university/courses[ dept_name = $i/dept_name | 
return $C 

i 


在 上 例 中 用 到 的 名 字 空 间 前 级 xs: 是 XQuery 预定 义 的 ， 表 示 与 XML Schema 名 字 空 间 相 关联 。 而 名 字 
空间 local: 也 是 预定 义 的 ， 表 示 与 XQuery 本 地 函数 相关 联 。 
函数 参数 和 返回 值 的 类 型 声明 是 可 选 的 ， 可 以 省 略 。XQuery 使 用 XML Schema 的 类 型 系统 。 
1006] element 类 型 允许 元 素 带 有 任何 标签 ， 而 element( course) 允许 元 素 带 有 course 标签 。 类 型 可 以 带 有 后 组 
* 以 表示 该 具有 类 型 值 的 一 个 序列 。 例 如 ， 函 数 dept_courses 的 定义 指定 其 返回 值 为 course 元 素 的 一 个 
序列 。 
下 面 的 查询 展示 了 函数 调用 ， 它 打印 名 为 Srinivasan 的 那些 教师 所 在 院 系 开设 的 课程 : 


for $i in /university/instructor[ name = “Srinivasan” |, 
return local; dept_courses( $i/lID) 


当 需 要 时 ，XQuery 进行 自动 的 类 型 转换 。 例 如 ， 如 果 用 一 个 由 字符 串 表 示 的 数值 型 的 值 与 一 个 数 
值 类 型 进行 比较 ,将 自动 进行 从 字符 串 到 数值 类 型 的 类 型 转换 。 当 一 个 元 素 被 传 给 以 字符 串 值 为 参数 
的 函数 时 ， 通 过 拼接 包含 ( 艇 套 ) 在 元 素 内 的 所 有 文本 值 的 方式 进行 类 型 转换 。 因 此 ， 对 于 检测 字符 串 
a 是 否 包 含 字 符 串 b 的 函数 contains(a，b) ， 在 其 第 一 个 参数 被 设置 为 一 个 元 素 时 ， 可 以 用 于 检测 元 素 
a 是 否 包含 嵌 套 在 其 内 部 任何 地 方 的 字符 串 bo XQuery 还 提供 在 类 型 之 间 进 行 转 换 的 函数 。 例 如 ， 
number(x) 将 一 个 字符 串 转换 为 一 个 数 。 

23.4.3.6 其 他 特性 

XQuery 提供 大 量 其 他 特性 ， 例 如 if-then-else 结构 ， 它 可 以 用 在 return 子 句 中 ; 以 及 存在 量词 与 全 
称 量词 ， 它 们 可 以 应 用 于 where 子 句 的 谓词 中 。 例 如 ， 存 在 量词 可 以 在 where 子 句 中 通过 使 用 : 

some $e in path satisfies P 

来 表达 ， 这 里 path 是 一 个 路 径 表 达 式 ，P 是 一 个 可 以 使 用 $e 的 谓词 。 全 称 量词 可 以 通过 使 用 every 代 
$ some 来 表达 。 

例如 ， 欲 查找 所 有 教师 的 薪酬 都 高 于 50 000 美元 的 系 ， 我 们 可 以 使 用 下 面 的 查询 : 


for $d in /university/department 

where every $i in /university/instructor| dept_name = $d/dept_name | 
satisfies $i/salary > 50000 

return $d 


但 是 请 注意 ， 如 果 某 个 系 没 有 教师 ， 那 么 该 系 也 显然 满足 上 述 条 件 。 可 以 用 一 个 额外 的 子 句 : 
and fn; exists(/university/instructor[ dept_name = $d/dept_name | ) 
来 保证 系 中 至 少 有 一 名 教师 。 子 句 中 使 用 的 内 置 函数 exists ( ) 在 输入 参数 不 为 空 的 情况 下 返回 true. 


XQJ 标准 提供 了 向 XML 数据 库 提交 XQuery 查询 和 取 回 XML 结果 的 API。 其 功能 类 似 于 
JDBC API, 


23.5 XML 应 用 程序 接口 


随 着 人 们 对 XML 作为 一 种 数据 表示 与 交换 格式 的 广泛 认可 ， 用 于 操纵 XML 数据 的 软件 工具 也 大 
量 出 现 。 有 两 种 程序 化 操纵 XML 的 标准 模型 ， 每 种 都 适用 于 多 种 流行 的 程序 设计 语言 。 这 两 种 API 都 
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可 以 用 于 解析 一 份 XML 文档 并 创建 该 文档 的 内 存 表示 。 它 们 用 于 处 理 单个 XML 文档 的 应 用 。 但 是 注 
意 ， 它 们 不 适合 查询 大 的 XML 数据 的 集合 ， 描 述 性 查询 机 制 如 XPath 和 XQuery 更 适合 于 这 项 任务 。 

其 中 一 种 操纵 XML 的 标准 API 基于 文档 对 象 模型 ( Document Object Model，DOM) ， 它 把 XML 内 容 
看 作 树 ， 其 每 个 元 素 用 结 点 表示 ， 称 为 DOMNode。 程 序 可 以 从 根 结 点 开始 ， 以 一 种 导航 的 方式 来 访问 
文档 的 组 成 部 分 。 

DOM 库 可 用 于 大 多 数 常用 的 编程 语言 ， 甚 至 也 出 现在 Web 浏览 器 中 ， 用 于 操纵 显示 给 用 户 的 文 
档 。 为 了 对 DOM 有 一 个 初步 了 解 ， 我 们 在 此 概述 一 些 用 于 DOM 的 Java API 中 的 接口 和 方法 。 

© Java DOM API 提供 了 一 个 称 为 Node 的 接口 ， 以 及 从 Node 接口 继承 下 来 的 Element 和 Attribute 

接口 。 
e Node 接口 提供 诸如 getParentNode( ) getFirstChild ( ) 和 getNextSibling ( ) 这 样 的 方法 ， 用 于 从 根 
结 点 开始 遍历 DOM 树 。 

© 元 素 的 子 元 素 可 以 按 名 字 通 过 getElementsByTagName( name) 来 访问 ， 该 函数 返回 一 个 具有 指定 
标签 名 的 所 有 子 元 素 的 列表 ; 该 列表 中 的 单个 成 员 可 以 通过 item(i) 方 法 来 访问 ， 此 方法 返回 
列表 中 的 第 i 个 元 素 。 

。 元 素 的 属性 值 可 以 通过 名 字 访 问 ， 所 采用 的 方法 是 getAttribute( name) 。 

。 元 素 的 文本 值 被 建 模 为 Text 结 点 ， 它 是 该 元 素 结 点 的 一 个 子 结 点 ; 没有 子 元 素 的 元 素 结 点 只 有 

一 个 这 样 的 子 结 点 。 作 用 在 Text 结 点 上 的 getData( ) 方 法 返回 其 文本 内 容 。 

DOM 还 提供 各 种 用 于 更 新 文档 的 函数 ， 如 增加 和 删除 一 个 结 点 的 属性 及 元 素 子 结 点 ， 设 置 结 点 
值 ， 等 等 。 

书写 实际 的 DOM 程序 还 需要 更 多 的 细节 ， 详 情 请 参见 文献 注解 中 的 文献 。 

DOM 可 用 于 访问 存储 在 数据 库 中 的 XML 数据 ， 可 以 构建 一 个 以 DOM 作为 其 访问 和 修改 数据 的 主 
要 接口 的 XML 数据 库 。 然 而 ，DOM 接口 不 支持 任何 形式 的 描述 性 查询 。 

第 二 种 通用 的 编程 接口 是 Simple API for XYML( SAX) ， 它 是 一 种 事件 (event) 模型， 被 设计 成 提供 在 
语法 分 析 器 和 应 用 程序 之 间 的 通用 接口 。 这 种 API 基于 事件 句柄 (event handler) 的 概念 而 构建 ， 是 由 与 
语法 分 析 事 件 相 关联 的 用 户 指定 函数 构成 的 。 语 法 分 析 事件 对 应 于 文档 组 成 部 分 的 识别 。 例 如 ， 当 找 
到 一 个 元 素 的 开始 标签 时 就 产生 一 个 事件 ， 而 当 找到 结束 标签 时 产生 另 一 个 事件 。 一 个 文档 的 不 同 片 
段 总 是 可 以 按 从 开始 到 结束 的 顺序 找 出 。 

SAX 应 用 开发 者 为 每 个 事件 创建 句柄 函数 ， 并 注册 它们 。 当 一 份 文 档 被 SAX 语法 分 析 器 读 人 时 ， 
随 着 每 个 事件 的 产生 ， 用 事件 描述 (如 元 素 标签 或 文本 内 容 ) 作为 参数 来 调用 句柄 函数 。 然 后 句柄 函数 
执行 它们 的 任务 。 例 如 ， 为 了 构建 一 棵 表示 XML 数据 的 树 ， 用 于 属性 或 元 素 开始 事件 的 句柄 函数 可 以 
在 一 棵 部 分 构建 好 的 树 上 增加 一 个 (或 多 个 ) 结 点 。 开 始 标签 和 结束 标签 的 事件 句柄 也 必须 追踪 树 中 的 
当前 结 点 ， 新 结 点 必须 接 到 这 个 结 点 上 ; 元 素 开始 事件 将 新 元 素 设 置 为 当前 结 点 ， 以 使 后 续 子 结 点 必 
须 连 接 到 该 结 点 。 对 应 的 元 素 结束 事件 将 设置 该 结 点 的 父 结 点 为 当前 结 点 ， 后 续 子 结 点 将 必须 连接 到 
当前 结 点 上 。 

SAX 通常 比 DOM 需要 更 多 的 程序 设计 工作 ， 但 是 当 应 用 程序 需要 创建 自己 的 数据 表示 时 ， 它 有 助 
于 避免 创建 DOM 树 的 开销 。 如 果 将 DOM 用 于 这 样 的 应 用 ， 创 建 DOM 树 将 会 产生 不 必要 的 空间 和 时 间 
开销 。 

23.6 XML 数据 存储 

很 多 应 用 都 要 求 存 储 XML 数据 。 存 储 XML 数据 的 一 种 方式 是 将 其 以 文档 形式 存储 在 文件 系统 中 ， 
而 第 二 种 方式 是 构建 专用 的 数据 库 来 存储 XML 数据 。 还 有 一 种 方法 是 把 XML 数据 转换 为 关系 表示 ， 
并 将 其 存储 到 关系 数据 库 中 。 本 节 简 要 概括 了 几 种 存储 XML 数据 的 可 选 方法 。 

23.6.1 非 关 系 的 数据 存储 


有 几 种 可 选 的 方法 可 以 在 非 关系 的 数据 存储 系统 中 存储 XML 数据 : 
。 存储 在 平面 文件 中 (store in flat file) 。 既 然 XML 首先 是 一 种 文件 格式 ， 一 种 自然 的 存储 机 制 就 
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是 将 其 存储 到 平面 文件 中 。 第 1 章 中 概述 了 这 种 使 用 文件 系统 作为 数据 库 应 用 基础 的 方法 的 许 
多 缺点 ， 尤 其 是 它 缺 少数 据 隔离 、 原 子 性 、 并 发 访问 以 及 安全 性 。 然 而 ， 作 用 在 文件 数据 上 的 
XML 工具 的 广泛 使 用 使 得 访问 和 查询 存储 在 文件 中 的 XML 数据 相对 容易 一 些 ， 因 此 ， 这 种 存 
储 形式 可 能 对 某 些 应 用 而 言 是 足够 的 。 
© 创建 XML 数据 库 ( create an XML database), XML 数据 库 是 指使 用 XML 作为 其 基本 数据 模型 的 
数据 库 。 早 期 的 XML 数据 库 在 基于 C++ 的 面向 对 象 数据 库 上 实现 了 文档 对 象 模型 ， 这 使 得 许 
多 面向 对 象 数据 库 基 础 架构 得 以 重用 ， 同 时 还 提供 了 标准 的 XML 接口 。XQuery 或 其 他 XML 查 
询 语言 的 加 入 提供 了 描述 性 查询 。 其 他 实现 在 提供 事务 支持 的 存储 管理 器 之 上 建立 了 整个 XML 
存储 和 查询 的 基础 架构 。 

尽管 有 几 个 专门 为 存储 XML 数据 而 设计 的 数据 库 已 经 建立 ,但 从 底层 向 上 构建 起 一 个 拥有 完全 特 
征 的 数据 库 系 统 是 一 项 非常 复杂 的 任务 。 这 样 的 数据 库 不 但 必须 支持 XML 数据 存储 和 查询 ， 还 要 支持 
其 他 数据 库 特 性 ， 如 事务 、 安 全 性 、 客 户 端 数据 访问 以 及 各 种 管理 工具 。 这 使 得 使 用 一 个 现 有 的 数据 
库 系 统 来 提供 这 些 工 具 ， 并 将 XML 数据 存储 和 查询 实现 在 关系 抽象 之 上 ， 或 者 实现 为 与 关系 抽象 相 平 
行 的 层次 较为 合理 。 我 们 在 23. 6. 2 节 学 习 这 些 方法 。 

23.6.2 关系 数据 库 

由 于 关系 数据 库 被 广泛 应 用 于 现 有 应 用 程序 中 ,将 XML 数据 存储 于 关系 数据 库 中 使 数据 可 以 被 现 
有 应 用 程序 所 访问 会 带 来 很 大 的 益处 。 

如 果 数 据 一 开始 就 是 由 关系 模式 生成 的 ， 且 XML 仅仅 是 作为 关系 数据 的 一 种 数据 交换 形式 来 使 
H, 那么 将 XML 数据 转换 成 关系 形式 通常 是 直截了当 的 。 然 而 ， 在 很 多 应 用 中 .XML 数据 并 不 是 由 关 
系 模式 生成 的 ， 将 这 些 数据 转换 为 关系 形式 进行 存储 可 能 就 不 那么 直接 了 。 特 别 地 ， 垦 套 元 素 以 及 重 
复出 现 的 元 素 (对 应 于 集合 值 属 性 ) 使 XML 数据 的 关系 形式 存储 复杂 化 。 下 面 我 们 介绍 几 种 可 选 的 存储 
方法 。 

23. 6.2.1 存储 为 字符 串 

小 的 XML 文档 可 以 存储 为 关系 数据 库 元 组 中 的 字符 串 ( clob ) 值 。 对 于 大 的 XML 文档 ， 其 顶层 元 
素 有 很 多 子 元 素 ， 可 以 通过 将 每 个 子 元 素 作为 字符 串 存 储 到 一 个 单独 的 元 组 中 来 处 理 。 例 如 ， 图 23-1 
中 的 XML 数据 可 以 存储 为 elements( data) 关 系 中 的 一 个 元 组 集合 ， 其 中 每 个 元 组 的 data 属性 以 字符 串 
形式 存储 一 个 XML 元 素 (department 、course 、instructor 或 teaches ) 。 

尽管 上 述 表 示 方 法 容易 使 用 ， 但 数据 库 系 统 并 不 知道 所 存储 元 素 的 模式 。 其 结果 是 不 能 直接 查询 
数据 。 事 实 上 ， 如 果 不 扫描 关系 中 的 所 有 元 组 并 检验 每 个 元 组 中 存储 的 字符 串 的 内 容 ， 即 使 是 简单 的 
选择 ， 诸 如 查找 所 有 的 department 元 素 ， 或 是 查找 系 名 为 “Comp.， Sci. ”的 department 元 素 ， 也 是 不 可 能 
实现 的 。 

关于 这 个 问题 的 一 个 部 分 解决 方案 是 把 不 同类 型 的 元 素 存 储 在 不 同 的 关系 中 ， 并 将 一 些 关键 元 素 
的 值 存 储 为 关系 的 属性 以 便 索 引 。 比 如 ， 在 我 们 的 例子 中 ， 关 系 将 会 是 depariment_elements 、course_ 
elements . instructor_elements 以 及 teaches_elements， 每 个 都 有 一 个 data 属性 。 每 个 关系 可 以 有 额外 的 属性 
来 存储 一 些 子 元 素 的 值 ， 例 如 dept_name、course_id 或 者 name。 因 此 ， 采 用 这 种 表示 方式 可 以 有 效 地 回 
答 想 得 到 具有 指定 系 名 的 department 元 素 的 查询 。 这 种 方案 依赖 于 XML 数据 的 类 型 信息 ， 比 如 该 数据 
的 DTD。 

某 些 数据 库 系 统 ， 例 如 Oracle， 支 持 函 数 索 引 ( function index), ， 它 有 助 于 避免 XML 字符 串 和 关系 
属性 之 间 的 属性 重复 。 不 同 于 一 般 的 在 属性 值 上 的 索引 ， 函 数 索引 能 够 根据 用 户 自 定义 函数 作用 于 元 
组 上 的 结果 来 构建 。 例 如 ， 可 以 根据 这 样 一 个 用 户 自 定义 函数 来 构建 函数 索引 ,该 函数 返回 一 个 元 组 
中 XML 字符 串 的 dept_name 子 元 素 的 值 。 然 后 该 索引 能 像 dept_name 属性 上 的 索引 一 样 被 使 用 。 

上 述 方法 的 缺点 在 于 ， 很 大 一 部 分 XML 信息 存储 在 字符 串 中 。 而 将 所 有 信息 保存 在 关系 中 也 是 可 
行 的 ， 接 下 来 我 们 将 介绍 几 种 这 样 的 方法 。 

23.6.2.2 WATE 

任意 的 XML 数据 可 以 被 模式 化 为 树 ， 并 用 一 个 关系 来 保存 : 
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nodes(id, parent_id, type, label, value) 
XML 数据 中 的 每 个 元 素 和 属性 都 被 赋予 一 个 唯一 标识 符 。 对 于 每 个 元 素 和 属性 ， 都 有 一 个 元 组 被 插入 
到 nodes 关系 中 。 该 元 组 的 标识 是 过 ， 其 父 结 点 标识 是 parent_id， 结 点 类 型 是 属性 或 元 素 、 元 素 或 属性 
的 名 称 是 label， 并 且 元 素 或 属性 的 文本 值 是 value, 

如 果 必须 保存 元 素 和 属性 的 次 序 信息 ， 可 以 给 nodes 关系 增加 一 个 额外 的 属性 position， 用 来 指明 
该 子 结 点 在 其 父 结 点 的 所 有 子 结 点 中 的 相对 位 置 。 作 为 一 个 习题 ， 读 者 可 以 用 这 种 技术 来 表示 图 23-1 
中 的 XML 数据 。 

这 种 表示 法 的 优点 在 于 ， 所 有 的 XML 信息 可 以 直接 用 关系 形式 表示 出 来 ， 而 且 许多 XML 查询 可 
以 翻译 为 关系 查询 并 在 数据 库 系统 内 部 执行 。 然 而 ， 它 也 有 缺点 ， 即 每 个 元 素 都 被 分 解 成 很 多 部 分 ， 
而 且 将 子 元 素 重组 为 元 素 需要 大 量 的 连接 运算 。 

23. 6.2.3 了 映射 到 关系 

在 此 方法 中 ， 已 知 模式 的 XML 元 素 被 映射 为 关系 和 属性 。 未 知 模式 的 元 素 按 字符 串 存 储 或 按 树 
存储 。 

对 于 每 个 模式 已 知 并 且 其 类 型 为 复杂 类 型 ( 即 包含 属性 或 子 元 素 ) 的 元 素 类 型 ( 包括 子 元 素 ) 都 创建 
一 个 关系 。 如 果 文档 的 根 元 素 没有 任何 属性 ， 那 么 可 以 在 该 步 中 忽略 根 元 素 。 关 系 的 属性 定义 如 下 : 

。 这 些 元 素 的 所 有 属性 都 存储 为 该 关系 的 以 字符 串 为 值 的 属性 。 

© 如 果 元 素 的 一 个 子 元 素 是 简单 类 型 (也 就 是 说 ， 不 能 有 属性 或 子 元 素 ) ， 就 向 关系 中 增加 一 个 属 

性 来 表示 该 子 元 素 。 这 个 关系 属性 的 类 型 在 默认 情况 下 为 一 个 字符 串 值 ， 但 是 如 果子 元 素 有 
XML Schema 类 型 ， 可 以 使 用 与 之 对 应 的 SQL 类 型 。 

例如 ， 当 应 用 到 图 23- 1 的 数据 模式 (DTD 或 者 XML Schema ) 中 的 department 元 素 时 ， 
department 元 素 的 子 元 素 dept_name, building 以 及 budget 都 变 为 department 关系 的 属性 。 将 该 过 
程 应 用 于 剩余 元 素 ， 我 们 重新 得 到 在 前 几 章 中 使 用 过 的 原始 关系 模式 。 

。 和 否则， 创建 一 个 对 应 于 子 元 素 的 关系 (在 它 的 子 元 素 上 递归 地 使 用 相同 的 规则 ) ， 并 且 : 

O 在 代表 元 素 的 关系 中 增加 一 个 标识 属性 。( 即 使 元 素 有 多 个 子 元 素 , 标识 属性 也 只 增加 
一 次 -) 
O 在 代表 子 元 素 的 关系 中 增加 parent_id 属性 ， 用 于 存储 其 父 元 素 的 标识 。 
如 果 必 须 保持 顺序 ， 那 么 在 代表 子 元 素 的 关系 中 增加 position 属性 。 
例如 ， 如 果 将 上 述 过 程 应 用 于 图 23-5 中 数据 对 应 的 模式 上 ， 我 们 得 到 如 下 关系 : 
department(id, dept_name, building, budget) 














course( parent_id, course_id, dept_name, title, credits ) 

这 个 方法 还 可 以 发 生变 化 。 例 如 ， 可 以 将 最 多 出 现 一 次 的 子 元 素 所 对 应 的 关系 “平面 化 " 到 其 父 关 
系 中 ， 方 法 是 把 它 的 所 有 属性 移 到 其 父 关系 中 。 文 献 注解 中 给 出 了 将 XML 数据 表示 为 关系 的 其 他 方法 
的 参考 文献 。 

23. 6.2.4 ”发布 和 分 解 XML 数据 

当 XML 用 于 在 商业 应 用 之 间 交 换 数据 时 ， 绝 大 多 数 数据 来 源 于 关系 数据 库 。 关 系数 据 库 中 的 数据 
必须 被 发 布 (publish) ( 即 转换 为 XML 格式 ) 以 导出 给 其 他 应 用 。 导 和 的 数据 必须 被 分 解 (shred) ， 即 从 
XML 转换 回 规范 化 关系 形式 并 存储 在 关系 数据 库 中 。 尽 管 应 用 代码 可 以 执行 发 布 和 分 解 操作 ， 但 如 此 
通用 的 操作 应 该 能 够 在 任何 可 能 的 地 方 自动 执行 转换 而 无 需 书 写 应 用 代码 。 数 据 库 厂商 花费 了 巨大 的 
努力 以 使 他 们 的 数据 库 产品 支持 XML, 

一 个 支持 XML 的 数据 库 支持 把 关系 数据 发 布 为 XML 的 自动 机 制 。 用 于 发 布 数据 的 映射 或 简单 或 
复杂 。 一 个 简单 的 、 从 关系 到 XML 的 映射 可 能 为 表 的 每 一 行 创建 一 个 XML 元 素 ， 并 使 该 行 的 每 一 列 
成 为 XML 元 素 的 一 个 子 元 素 。 图 23-1 中 的 XML Schema 可 以 通过 使 用 这 种 映射 从 大 学 信息 的 关系 表示 
创建 出 来 。 这 种 映射 可 以 直接 自动 生成 。 这 种 关系 数据 的 XML 视图 可 被 视 为 虚拟 的 XML 文档， 并 上 且 
XML 查询 可 以 在 虚拟 XML 文档 上 执行 。 

更 复杂 的 映射 允许 创建 入 套 结构 。 人 们 已 经 开发 出 了 在 select 子 句 中 进行 姐 套 查询 的 SQL 扩展 ， 
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以 允许 简单 地 创建 说 套 的 XML 输出， 我 们 在 23. 6. 3 节 概 述 这 些 扩展 ， 

将 XML 数据 分 解 为 关系 表示 的 映射 也 必须 被 定义 。 对 于 由 关系 表示 创建 的 XML 数据 ， 用 于 分 解 
数据 的 映射 就 是 发 布 这 些 数据 所 用 映射 的 逆 过 程 。 对 于 一 般 情况 ， 可 以 根据 23. 6. 2. 3 节 所 介绍 的 方法 
来 生成 映射 。 

23.6.2.5 在 关系 数据 库 中 的 本 地 存储 

一 些 关 系数 据 库 支持 XML 的 本 地 存储 (native storage) 。 这 类 系统 将 XML 数据 存储 为 字符 串 或 更 有 
效 的 二 进 制 表示 ， 而 不 需要 将 数据 转换 为 关系 形式 。 尽 管 CLOB 和 BLOB 数据 类 型 可 以 提供 底层 存储 
机 制 ， 系 统 还 是 引入 了 新 的 数据 类 型 xml 来 表示 XML 数据 。 诸 如 XPath 和 XQuery 这 样 的 XML 查询 语 
言 被 提供 用 来 查询 XML 数据 。 

一 个 带 有 xml 类 型 的 属性 的 关系 可 用 于 存储 XML 文档 的 集合 ; 每 个 文档 作为 一 个 类 型 为 xml 的 值 
存储 在 一 个 单独 的 元 组 中 。 创 建 特殊 用 途 的 索引 来 索引 XML 数据 。 

一 些 数据 库 系统 提供 对 XML 数据 的 本 地 支持 。 它 们 提供 xml 数据 类 型 并 允许 在 SQL Hi PRE 
XQuery 查询 。XQuery 查询 可 以 在 单个 XML 文档 上 执行 ， 并 能 做 入 到 SQL 查询 中 以 允许 它 在 一 个 文档 
集中 的 每 份 文档 (其 中 每 份 文档 存储 在 一 个 单独 的 元 组 中 ) 上 执行 。 例 如 ， 为 了 获得 关于 Microsoft SQL 





Server 2005 对 XML 本 地 支持 的 更 多 细节 ， 请 参见 30. 11 节 。 
23.6.3 SQL/XML | <university> 7 

<department=> 

虽然 XML 被 广泛 用 于 数据 交换 ， 结构 化 数据 aaa t name> Comp. Sci. </dept_name= 
仍然 广泛 存储 在 关系 数据 库 中 。 将 关系 数据 转换 为 < bulding Taylor </building> Pa st 
XML 表示 的 需求 也 很 常见 。 为 了 满足 这 种 需求 ，， me 
SQL/XML 标准 定义 了 SQL 的 一 个 标准 扩展 ， 人 允许 | earn diolo zient 
要 <dept name> Biology </dept name> 
BER AY XML 输出 。 这 个 标准 有 几 个 部 分 , 包 | buildings Watson Y buildings 
括 将 SQL 类 型 映射 到 XML Schema 类 型 的 标准 方 90000 </budget> 
法 ,将 关系 模式 映射 到 XML 模式 的 标准 方法 ， 以 </department> 
及 SQL 查询 语言 扩展 。 gen 
PMN, department 关系 的 SQL/XML 表示 将 有 一 tae = apne Er 

个 XML Schema， 其 最 外 层 元 素 为 department， 每 个 | <dept_name> Comp. Sci </dept name> 
=i z <credits> 4 </credits> 
元 组 映射 为 一 个 XML 元 素 row， 且 每 个 关系 属性 映 atoms 
射 为 一 个 同名 ( 通过 一 些 转换 解决 与 名 字 中 特殊 字 ed BIO-301 </course_id= 
符 的 不 相 容 问题 ) 的 XML 元 素 。 一 个 完整 的 、 有 多 <title> Genetics </title> 
个 关系 的 SQL 模式 也 可 以 用 类 似 的 方式 映射 为 Se a Aa 
XML。 图 23-15 给 出 了 包含 department 和 course 关系 E 
的 图 23-1 P (ZBA) university 数据 的 SQL/XML 表示 。 </university> 








SQL/XML 向 SQL 中 增加 了 一 些 操作 符 和 聚集 ai ae a atti ace 
运算 以 允许 从 扩展 SQL 中 直接 创建 XML 输出 。 ”图 23-15 (部 分 ) 大 学 信息 的 SQLAXML 表示 
xmlelement 函数 可 用 于 创建 XML 元 素 ， 而 xmlattributes 可 用 于 创建 属性 ， 如 下 面 的 查询 所 示 : 


select xmlelement( name “course” , 
xmlattributes( course_id as course_id, dept_name as dept_name) , 
xmielement( name “title” , title), 
xmlelement( name “credits” , credits) ) 

from course 


上 述 查 询 为 每 门 课程 创建 一 个 XML 元 素 ， 其 中 课程 标识 符 和 系 名 用 属性 来 表示 ， 课 程 名 和 学 分 用 
子 元 素 表 示 。 查 询 结果 看 起 来 像 是 图 23-11 中 的 course 元 素 ， 但 是 没有 instructor 属性 。xmlattributes 
操作 符 用 SQL 属性 名 生成 XML 属性 名 ， 也 可 以 像 上 述 查 询 那样 替换 为 使 用 as 子 句 。 

xmiforest 操作 符 简化 了 XML 结构 的 构造 。 它 的 语法 和 行为 与 xmlattributes 类 似 ， 只 不 过 它 创 建 
的 是 一 个 子 元 素 的 森林 (集合 ) ， 而 不 是 属性 的 列表 。 该 操作 符 有 多 个 变 元 ， 它 为 每 个 变 元 创建 一 个 元 
素 ， 使 用 属性 的 SQL 名 作为 XML 元 素 名 。xmlconcat 操作 符 可 用 于 将 由 子 表 达 式 创建 的 元 素 连 接 成 一 
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片 森林 。 
当 用 于 构建 属性 的 SQL 值 为 空 时 ， 忽 略 该 属性 。 在 构建 元 素 主体 时 ， 忽 略 空 值 。 
SQL/XML 还 提供 一 个 聚集 函数 xmlagg， 它 根据 所 操作 的 值 集合 创建 一 个 XML 元 素 的 森林 ( 集 
合 ) 。 下 述 查 询 为 每 个 开设 了 课程 的 系 创建 一 个 元 素 ， 该 系 所 开设 的 所 有 课程 作为 其 子 元素 。 由 于 查询 
中 有 group by dept_name 子 句 ， 聚 集 函 数 将 作用 在 每 个 系 开 设 的 所 有 课程 上 ， 创 建 出 course_id 元 素 的 
一 个 序列 。 
select xmlelement( name “department” , 
dept_name , 
xmlagg ( xmilforest ( course_id ) 
order by course_id) ) 
from course 
group by dept_name 
如 上 述 查 询 所 示 ，SQLAXML 允许 对 xmlagg 创建 的 序列 排序 。 在 文献 注解 部 分 给 出 的 参考 文献 中 
可 以 找到 关于 SQL/XML 的 更 多 信息 。 


23.7 XML 应 用 


我 们 现在 概括 介绍 XML 在 存储 和 传递 (交换 ) 数 据 以 及 访问 Web 服务 (信息 资源 ) 方 面 的 一 些 应 用 。 


23.7.1 存储 复杂 结构 数据 

很 多 应 用 需要 存储 结构 化 的 但 不 易 建 模 为 关系 的 数据 。 例 如 考虑 一 个 应 用 (如 浏览 器 ) 必须 要 存储 
用 户 的 使 用 偏好 设置 。 通 常 有 大 量 的 域 必须 被 记录 ， 如 主页 、 安 全 设置 、 语 言 设 置 和 显示 设置 。 一 些 
域 是 多 值 的 ， 如 一 个 信任 站 点 的 列表 ， 或 是 如 书签 列表 那样 的 可 能 有 序 的 列表 。 传 统 上 ， 应 用 程序 使 
用 某 种 文本 表示 类 型 来 存储 这 些 数 据 。 今 天 ， 大 多 数 这 种 应 用 更 愿意 以 XML 格式 来 存储 这 些 配置 信 
息 。 早 先 使 用 的 即席 文本 表示 需要 做 很 多 工作 来 进行 设计 ， 以 及 创建 词法 分 析 器 以 读 取 文 件 并 将 数据 
转化 为 程序 可 以 使 用 的 形式 ， 而 XML 表示 避免 了 这 些 步 又 。. 

基于 XML 的 表示 现在 已 被 广泛 用 作 存 储 文档 、 电 子 表单 数据 以 及 作为 办 公 应 用 软件 包 的 一 部 分 的 
其 他 数据 。Open Office 软件 包 以 及 其 他 办 公 软 件 包 所 支持 的 开放 文档 格式 (ODF) 以 及 微软 办 公 软 件 包 
所 支持 的 Office Open XML( OOXML) 格 式 都 是 基于 XML 的 文档 表示 标准 。 它 们 是 两 种 使 用 最 广泛 的 可 
编辑 文档 表示 形式 。 

XML 还 用 于 表示 必须 在 一 个 应 用 的 不 同 部 分 之 间 进 行 交换 且 具 有 复杂 结构 的 数据 。 例 如 ， 数 据 库 
系统 可 能 使 用 XML 来 表示 查询 执行 计划 (一 个 关系 代数 表达 式 ， 带 有 额外 的 关于 如 何 执行 操作 的 信 
息 ) 。 这 人 允许 在 没有 共享 数据 结构 的 情况 下 ， 系 统 的 一 部 分 生成 查询 执行 计划 而 另 一 部 分 显示 它 。 例 
如 ， 数 据 可 能 由 服务 器 系统 生成 ， 并 发 送 到 显示 数据 的 客户 端 系统 。 


23.7.2 标准 化 数据 交换 格式 
用 于 各 种 特殊 应 用 的 、 基 于 XML 的 数据 表示 标准 已 经 开发 出 来 了 ， 其 应 用 范围 很 广 ， 从 商业 应 用 
(比如 银行 业 和 运输 业 ) 到 科学 应 用 ( 比如 化 学 和 分 子 生物 学 ) 。 下 面 是 一 些 例子 : 
。 化 学 工业 需要 有 关 化 学 制品 的 信息 ， 例 如 它们 的 分 子 结构 及 其 各 种 重要 属性 ， 如 沸点 和 熔点 、 
热 值 、 在 不 同 溶剂 中 的 溶解 性 。ChemML 就 是 表示 此 类 信息 的 一 个 标准 。 
。 在 运输 业 中 ， 货 物 的 承运 者 、 客 户 以 及 税务 官员 需要 货物 的 运输 记录 ， 其 中 包括 关于 所 运输 的 
货物 、 由 何人 发 往 何 地 、 送 达 给 何人 以 及 送 达 何 地 、 货 物 的 货币 价值 等 详细 信息 。 
© 一 个 能 够 进行 商品 买卖 的 在 线 商场 (所 谓 的 B2B 市 场 ) 需 要 的 信息 如 商品 目录 (包括 详细 的 商品 
描述 和 价格 信息 ) 、 存 货 清单 、 建 议 售 价 和 购物 订单 。 例 如 ， 用 于 电子 商务 应 用 的 RosettaNet 标 
准 为 数据 表示 定义 了 XML 模式 和 语义 ， 并 为 信息 交换 定义 了 标准 。 
用 规范 化 关系 模式 对 这 种 复杂 的 数据 需求 进行 建 模 将 会 产生 出 大 量 的 关系 ， 这 些 关系 并 不 直接 对 
应 于 被 建 模 的 对 象 。 这 样 的 关系 通常 会 有 大 量 属 性 ; 在 XML 中 显 式 地 将 属性 /元 素 的 名 字 与 值 表示 在 
一 起 有 助 于 避免 属性 间 的 混淆 。 娠 套 元 素 表 示 有 助 于 在 元 余 代 价 可 以 接受 的 条 件 下 ， 减 少 必 须 被 表示 
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的 关系 的 数量 ， 以 及 为 获得 必要 信息 所 需要 的 连接 次 数 。 举 例 来 说 ， 在 我 们 的 大 学 的 例子 中 ， 如 图 23- 
5 那样 列 出 在 department TCHR PARE T course 元 素 的 系 而 生成 的 格式 对 某 些 应 用 而 言 比 图 23-1 中 的 规 
范 化 表示 更 加 自然 ， 特 别 是 在 供 人 阅读 方面 。 

23.7.3 Web 服务 


应 用 常常 需要 从 组 织 外 部 获取 数据 ， 或 从 同一 组 织 中 使 用 不 同 数据 库 的 其 他 部 门 获取 数据 。 在 很 
多 这 样 的 情况 下 ， 外 部 组 织 或 部 门 并 不 希望 用 SQL 直接 访问 它 的 数据 库 ， 但 是 愿意 通过 预定 义 接口 提 
供 受 限 形 式 的 信息 。 

当 信息 直接 由 人 使 用 时 ， 组 织 机 构 提 供 基于 Web 的 形式 ， 用 户 可 以 输入 值 并 获得 HTML 形式 的 所 
需 信息 。 但 是 在 很 多 应 用 中 ， 这 样 的 信息 需要 被 软件 程序 访问 ， 而 不 是 由 终端 用 户 访 问 。 提 供 XML 形 
式 的 查询 结果 是 一 种 明确 的 需求 。 除 此 以 外 ， 用 XML 格式 为 查询 指定 输入 值 也 是 有 意义 的 。 

本 质 上 ,信息 提供 者 定义 过 程 ， 这 些 过 程 的 输入 和 输出 都 是 XML 格式 的 。 由 于 HTTP 协议 被 广泛 
应 用 且 可 以 穿越 机 构 为 防止 来 自 互 联网 的 、 不 需要 的 通信 而 使 用 的 防火 墙 ， 因 此 它 被 用 来 传输 输入 和 
输出 信息 。 

简单 对 象 访问 协议 (Simple Object Access Protocol，SOAP) 为 过 程 调用 定义 了 一 个 标准 ， 它 使 用 XML 
来 表示 过 程 的 输入 和 输出 。SOAP 为 表示 过 程 名 和 结果 状态 指示 符 ( 如 失败 /错误 指示 符 ) 定 义 了 标准 的 
XML schema。 过 程 的 参数 和 结果 是 嵌入 在 SOAP XML 标题 中 的 、 依 赖 于 应 用 的 XML 数据 。 

典型 情况 下 ， 使 用 HTTP 作为 SOAP 的 传输 协议 , 但 是 也 可 能 使 用 一 个 基于 消息 的 协议 (例如 
SMTP 协议 上 的 电子 邮件 ) 。 目 前 SOAP 标准 被 广泛 使 用 。 例 如 ，Amazon 和 Google 提供 基于 SOAP 的 过 
程 以 执行 搜索 和 其 他 活动 ， 这 些 过 程 可 以 被 为 用 户 提 供 高 层 服务 的 其 他 应 用 调用 。SOAP 标准 独立 于 下 
层 的 程序 设计 语言 ， 一 个 运行 某 种 语言 (如 C#) 的 站 点 调用 运行 在 一 个 不 同 语言 (如 Java) 上 的 服务 是 可 
能 的 。 

提供 这 样 一 个 SOAP 过 程 集合 的 站 点 被 称 作 Web 服务 (Web service)。 目 前 已 经 定义 了 一 些 标 准 以 
支持 Web 服务 。Web 服务 描述 语言 (Web Services Description Language，WSDL) 是 用 于 描述 Web 服务 能 
力 的 语言 。WSDL 提供 传统 程序 设计 语言 中 接口 定义 (或 函数 定义 ) 所 提供 的 工具 ， 指 定 什么 函数 是 可 
用 的 ， 以 及 它们 的 输入 和 输出 类 型 。 除 此 以 外 ，WSDL 允许 在 调用 Web 服务 时 指定 URL 和 所 使 用 的 网 
络 端口 号 。 还 有 一 个 标准 称 为 通用 描述 、 发 现 和 集成 ( Universal Description, Discovery, and Integration, 
UDDI) ， 它 定义 了 如 何 创建 一 个 可 用 Web 服务 的 目录 ， 以 及 程序 如 何在 目录 中 搜索 以 找到 满足 其 需求 
的 Web 服务 。 

下 面 的 例子 展示 了 Web 服务 的 价值 。 一 家 航空 公司 可 能 定义 了 一 个 Web 服务 ， 提 供 一 组 可 以 被 
旅行 网 站 调用 的 过 程 ， 这 其 中 可 能 包括 用 于 查找 航班 计划 和 价格 信息 的 过 程 ， 以 及 用 于 预订 航班 的 
过 程 。 旅 行 网 站 可 能 与 由 不 同 航空 公司 、 酒 店 和 其 他 公司 提供 的 多 个 Web 服务 交互 ， 以 向 顾客 提供 
旅行 信息 并 进行 旅程 预定 。 通 过 支持 Web 服务 ， 每 家 公司 允许 在 顶层 构建 一 个 有 用 的 服务 ， 它 整合 
了 各 个 独立 的 服务 。 用 户 只 需 与 这 一 个 网 站 交互 就 可 以 进行 旅程 预定 ， 而 不 需要 联系 多 个 独立 的 
网 站 。 

要 调用 一 个 Web 服务 ， 客 户 端 必须 准备 适当 的 SOAP XML 消息 ， 并 将 它 发 送 给 服务 ; 当 接收 到 以 
XML 编码 的 结果 时 ， 客 户 端 必须 从 XML 结果 中 提取 信息 。 在 诸如 Java 和 C# 那 样 的 程序 设计 语言 中 有 
标准 的 API， 用 于 从 SOAP 消息 中 创建 和 提取 信息 。 

在 文献 注解 部 分 的 参考 文献 中 可 以 找到 关于 Web 服务 的 更 多 信息 。 

23.7.4 数据 中 介 

比较 购物 是 数据 中 介 的 一 个 实例 ， 其 中 关于 商品 、 库 存 、 价 格 以 及 运送 费用 的 数据 是 从 销售 特 
定 商 品 的 各 种 不 同 网 站 中 提取 出 来 的 。 聚 集 起 来 的 结果 信息 要 比 单个 站 点 提供 的 单独 信息 有 价值 
得 多 。 

个 人 财务 管理 程序 是 在 银行 业务 环境 中 的 类 似 应 用 。 考 虑 一 个 消费 者 ， 他 有 很 多 不 同 的 账户 要 管 
理 ， 比 如 银行 账户 、 信 用 卡 账户 ， 以 及 退休 金 账户 。 假 设 这 些 账 户 由 不 同 机 构 所 持 有 。 提 供 对 客户 所 
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有 账户 的 集中 式 管理 是 我 们 要 面临 的 一 个 主要 的 挑战 。 基 于 XML 的 中 介 对 该 问题 的 处 理 是 通过 从 持 有 
客户 账户 的 各 个 金融 机 构 各 自 的 网 站 上 提取 账户 信息 的 XML 表示 未 解决 的 。 如 果 机 构 将 这 些 信息 以 标 [1018] 
准 XML 格式 (如 Web 服务 ) 导 出 ， 这 些 信 息 就 可 以 很 容易 地 提取 出 来 。 对 于 不 提供 标准 XML 格式 导出 
信息 的 机 构 ， 可 以 使 用 包装 器 ( wrapper ) 软件 来 根据 网 站 返回 的 HTML 网 页 生成 XML 数据 。 包 装 器 应 
用 需要 经 常 维护 ， 因 为 它们 依赖 于 Web 页 面 的 格式 细节 ， 而 这 些 细节 是 经 常 变化 的 。 尽 管 如 此 ， 中 介 
带 来 的 价值 常常 证 实 为 开发 和 维护 包装 器 所 付出 的 努力 是 值得 的 。 

一 旦 有 了 能 够 从 各 数据 源 提取 信息 的 基础 工具 ， 就 可 以 使 用 中 介 ( mediator) 应 用 在 一 个 单一 的 模式 
下 将 提取 到 的 信息 整合 起 来 。 这 可 能 需要 对 来 自 各 个 站 点 的 XML 数据 作 进一步 的 转换 ， 因 为 不 同 的 站 
点 可 能 用 不 同 的 方式 构造 相同 的 信息 。 它 们 还 可 能 用 不 同 的 名 字 为 同样 的 信息 命名 ( 如 acct_number 和 
account_id) ， 或 者 甚至 可 能 使 用 相同 的 名 字 表 示 不 同 的 信息 。 中 介 必 须 决 定 一 种 单一 的 模式 来 表示 所 
有 必要 信息 ， 同 时 必须 提供 在 不 同 表示 形式 之 间 进 行 数据 转换 的 代码 。 在 19. 8 节 介 绍 分 布 式 数据 库 时 
对 这 样 的 问题 进行 了 更 详细 的 讨论 。XML 查询 语言 ， 如 XSLT 和 XQuery， 在 不 同 XML 表示 之 间 进 行 转 
换 这 一 任务 上 发 挥 了 重要 作用 。 


23.8 总 结 


© 如 同 Web 所 基于 的 超 文 本 标记 语言 (HTML) 一样 ， 可 扩展 标记 语言 (XML) 也 是 源 自 标准 通用 标记 语 
A (SGML), XML 原本 是 为 了 给 Web 文档 提供 功能 标记 ,但 如 今 它 已 经 成 为 应 用 间 数 据 交换 格式 的 
事实 标准 。 

XML 文档 包含 元 素 ， 元 素 的 开头 和 结尾 用 相 匹 配 的 开始 和 结束 标签 来 标记 。 元 素 可 以 包含 任意 多 层 
许 套 的 子 元 素 。 元 素 还 可 以 有 属性 。 在 数据 表示 中 ,通常 可 以 任意 选择 用 属性 或 是 子 元 素来 表示 
信息 。 

元 素 可 以 有 一 个 类 型 为 ID 的 属性 ， 用 于 存储 该 元 素 的 唯一 标识 符 。 通 过 使 用 类 型 为 IDREF 的 属性 ， 
元 素 还 可 以 存储 指向 其 他 元 素 的 引用 。 类 型 为 IDREFS 的 属性 可 以 存储 一 个 引用 列表 。 

文档 可 以 选择 通过 文档 类 型 定义 (DTD) 来 指定 其 模式 。 文 档 的 DTD 指定 什么 元 素 可 以 出 现 ， 它 们 如 
何 嵌 套 ， 以 及 每 个 元 素 可 以 有 什么 属性 。 尽 管 DID 被 广泛 使 用 ， 但 它 有 一 些 局 限 。 例 如 ， 它 们 不 能 


提供 类 型 系统 。 
。 XML Schema 是 目前 指定 XML 文档 模式 的 标准 机 制 。 它 提供 大 量 的 基本 类 型 ， 以 及 用 于 创建 复杂 类 
型 和 声明 完整 性 约束 ( 包括 键 约束 和 外 键 ( keyref) 约束 ) 的 结构 。 [1019] 
。 XML SE Aeon, AMM FIRME E. RRE HARR PHS - 子 结构 来 
反映 。 


路 径 表 达 式 可 用 于 遍历 XML 树 结构 和 定位 数据 。XPath 是 路 径 表 达 式 的 一 种 标准 语言 ， 它 允许 用 类 
似 于 文件 系统 路 径 的 方式 来 指定 所 需 元 素 ， 另 外 它 还 支持 选择 和 其 他 特性 。XPath 还 构成 了 其 他 
XML 查询 语言 的 一 部 分 。 

XQuery 语言 是 查询 XML 数据 的 标准 语言 。 它 有 与 SQL 相似 的 结构 ， 包 括 for, let, where. order by 
和 return 子 句 。 然 而 它 支持 很 多 用 于 处 理 XML 树 特性 的 扩展 ， 并 且 允 许 将 XML 文档 转换 为 另 一 种 
具有 明显 不 同 结构 的 文档 。XPath 路 径 表 达 式 构成 了 XQuery 的 一 部 分 。XQuery 支持 各 套 查询 和 用 户 
自 定义 函数 。 

DOM 和 SAX API 广泛 应 用 于 对 XML 数据 的 程序 式 访 问 。 在 很 多 程序 设计 语言 中 这 些 API 都 是 可 
用 的 。 

可 以 选择 几 种 不 同 的 方法 来 存储 XML 数据 。XML 数据 还 可 以 存储 在 文件 系统 中 ， 或 存储 在 使 用 
XML 作为 其 内 部 表示 的 XML 数据 库 中 。 

XML 数据 可 以 存储 为 关系 数据 库 中 的 字符 串 。 或 者 ， 用 一 些 关 系 将 XML 数据 表示 为 树 。 作 为 另 一 种 
选择 ， 可 以 按照 将 E-R 图 映射 为 关系 模式 的 同样 方式 将 XML 数据 映射 为 关系 。 通 过 在 SQL 中 增加 
xml 数据 类 型 使 得 关系 数据 库 中 的 XML 本 地 存储 更 加 容易 。 

XML 被 使 用 在 各 种 应 用 中 ， 如 存储 复杂 数据 、 在 组 织 之 间 以 一 种 标准 化 形式 交换 数据 、 数 据 中 介 以 
及 Web 服务 。Web 服务 使 用 以 XML 作为 编码 参数 和 结果 的 机 制 ， 提 供 远 程 过 程 调 用 接口 。 
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术语 回顾 
。 可 扩展 标记 语言 ( XML) 口 key 和 keyref 。 文档 对 象 模型 (DOM ) 
© 超 文本 标记 语言 ( HTML) 口 出 现 次 数 约束 。 XML 简单 API( SAX) 
。 标准 通用 标记 语言 。 XML 数据 的 树 模型 。 XML 数据 存储 
。 标记 语言 。 结 点 非 关 系数 据 存储 
。 标签 。 查询 和 转换 关系 数据 库存 储 
。 自 描述 © 路 径 表 达 式 - 存储 为 字符 串 
。 元 素 e XPath - 树 表示 形式 
© RIR © XQuery - 映射 到 关系 
。 mE 口 FLOWR 表达 式 - 发 布 和 分 解 
。 属性 - for - 支持 XML 的 数据 库 
。 名 字 空 间 - let - 本 地 存储 
。 默认 名 字 空 间 - where - SQL/XML 
。 模式 定义 - order by © XML 应 用 
。 文档 类 型 定义 - return 口 存储 复杂 数据 
0 ID O 连接 O 数据 交换 
C IDREF 和 IDREFS O RE FLWOR 表达 式 数据 中 介 
® XML Schema 口 排序 口 SOAP 
口 简单 和 复杂 类 型 e XML API O Web 服务 
口 序列 类 型 
实践 习题 
23.1 给 出 包含 图 23-1 中 相同 数据 的 大 学 信息 的 另 一 种 表示 ， 但 是 使 用 属性 而 非 子 元 素 。 同 时 给 出 该 表示 
的 DTD 或 XML Schema, 
23.2 给 出 用 于 下 述 和 做 套 关系 模式 的 XML 表示 的 DTD BK XML Schema; 
Emp = (ename, ChildrenSet setof( Children) , SkillsSet setof( Skills ) ) 
Children = (name, Birthday) 
Birthday = (day, month, year) 
Skills = (type, ExamsSet setof( Exams) ) 
Exams = (year, city) 
23.3 ”基于 实践 习题 23. 2 中 的 模式 ， 用 XPath 书写 查询 列 出 Emp 中 的 所 有 技能 类 型 。 
23.4 在 图 23-11 中 的 XML 表示 上 用 XQuery 书写 查询 ， 找 出 每 个 系 所 有 教师 的 薪酬 总 额 。 
23.5 在 图 23-1 中 的 XML 表示 上 用 XQuery 书写 查询 ， 计 算 department 元 素 与 course 元 素 的 左 外 连接 。( HE 
示 : 使 用 全 称 量词 。) 
23.6 给 定 图 23-11 中 使 用 了 ID 和 IDREFS 的 大 学 信息 表示 ,用 XQuery 书写 出 查询 来 输出 内 部 舱 套 有 相关 
联 的 course 元 素 的 department 元 素 。 
23.7 给 出 一 个 关系 模式 来 表示 图 23-16 中 的 DID 片断 所 指定 的 书目 信息 。 关 系 模式 必须 保持 author 元 素 的 


顺序 。 可 以 假设 只 有 books 和 articles 作为 XML 文档 中 的 顶层 元 素 出 现 。 





<! DOCTYPE bibliography [ 
<! ELEMENT book(title，author + year, publisher, place?) > 
<! ELEMENT article( title, author +, journal, year, number, volume, pages?) > 
<! ELEMENT author(last_name, first_name) > 
<! ELEMENT title( #PCDATA) > 
… 对 year, publisher, place, journal, year, number, volume, pages, last_name 
和 first_name 的 类 似 PCDATA 声明 ) 











图 23-16 书目 数据 的 DTD 
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23.8 ”给 出 图 23-1 中 XML 数据 的 树 表示 ， 并 使 用 23. 6. 2 节 中 描述 的 nodes 和 child 关系 来 表示 该 树 。 
23.9 考虑 如 下 递归 DTD: 


23. 


23. 


23. 


23. 


23. 


23. 


23. 


23. 


23. 


23. 


<! DOCTYPE parts [ 
<! ELEMENT part (name, subpartinfo” ) > 
<! ELEMENT subpartinfo ( part, quantity) > 
<! ELEMENT name( #PCDATA) > 
<! ELEMENT quantity( #PCDATA) > 
1S 
a. 给 出 对 应 于 上 述 DTD 的 一 个 小 的 数据 实例 。 
b. 给 出 如 何 将 这 个 DTD 映射 成 关系 模式 。 可 以 假设 part 的 名 称 是 唯一 的 ， 即 无 论 一 个 part 出 现在 哪 
里 ， 它 的 subpart 结构 都 是 一 样 的 。 
c. 用 XML Schema 创建 一 个 对 应 于 此 DTD 的 模式 。 


通过 给 定 一 个 DTD ， 给 出 如 何 用 XML 来 表示 22. 2 节 中 的 非 INF 的 books 关系 。 
用 XQuery 写 出 如 下 查询 ， 使 用 实践 习题 23. 2 中 的 模式 。 
a 找 出 孩子 生日 在 三 月 份 的 所 有 雇员 的 名 字 。 
b. 找 出 那些 在 " Dayton” 城市 参加 过 技能 类 型 为 "typing "的 考试 的 雇员 。 
c. 列 出 Emp 中 的 所 有 技能 类 型 。 
考虑 图 23-3 中 给 出 的 XML 数据 。 假 设 我 们 希望 找到 订购 了 两 份 或 两 份 以 上 标识 符 为 123 的 部 件 的 
购物 订单 。 观 察 下 面 这 个 为 解决 该 问题 而 做 的 尝试 : 
for $p in purchaseorder 
where $p/part/id = 123 and $p/part/quantity > =2 
return $p 
解释 为 什么 这 个 查询 可 能 返回 某 些 订购 不 到 两 份 123 部 件 的 购物 订单 ， 给 出 正确 的 查询 。 
用 XQuery 写 出 一 个 查询 来 转换 习题 23. 10 中 的 数据 伐 套 。 也 就 是 说 ， 在 伐 套 的 最 外 层 ， 输 出 中 必须 
有 对 应 于 作者 的 元 素 ， 并 且 每 个 这 样 的 元 素 必须 在 内 部 和 散 套 对 应 于 该 作者 所 写 的 所 有 书 的 项 。 
给 出 图 7-29 中 信息 的 XML 表示 的 DTD。 创 建 一 个 单独 的 元 素 类 型 来 表示 每 种 关系 ， 但 是 要 使 用 ID 
和 IDREF 来 实现 主 码 和 外 码 。 
给 出 习题 23. 14 中 DTD 的 XML Schema 表示 。 
用 XQuery 对 图 23-16 中 书目 的 DTD 片断 写 出 以 下 查询 : 
a. 找 出 在 同一 年 内 著 有 一 本 书 和 一 篇 文章 的 所 有 作者 。 
b. 显示 按 年 排序 的 书 和 文章 。 
c. 列 出 有 一 个 以 上 作者 的 书 。 
d. 找 出 所 有 在 标题 中 包含 “database” 且 作者 名 字 中 包含 "Hank" (不 管 是 姓 还 是 名 ) 的 书 。 
给 出 图 23-3 中 所 示 XML 购物 订单 模式 的 一 个 关系 映射 ， 使 用 23. 6. 2. 3 节 所 介绍 的 方法 。 如 果 商 品 
的 标识 函数 决定 商品 描述 ， 购 买 者 和 供 货 商 名 字 分 别 函 数 决定 购买 者 和 供 货 商 的 地 址 ， 给 出 如 何 去 
除 关 系 模式 中 元 余 的 建议 。 
用 SQL/XML 写 出 查询 语句 ， 将 大 学 数据 从 我 们 在 前 面 章节 所 使 用 的 关系 模式 转换 为 university-1 和 
university-2 的 XML Schema, 
同 习 题 23. 18 一 样 ， 写 出 查询 将 大 学 数据 转换 到 university-1 和 university-2 的 XML Schema， 但 是 这 次 
是 通过 在 默认 的 SQL/ XML 数据 库 到 XML 的 映射 上 书写 XQuery 查询 来 实现 。 
一 种 分 解 XML 文档 的 方法 是 使 用 XQuery 将 模式 转化 为 相应 关系 模式 的 SQLAXML 映射 ,然后 反 向 使 
用 SQL/XML 映射 以 生成 关系 。 
作为 示例 ， 给 出 一 个 XQuery 查询 将 数据 从 university-1 XML Schema 转化 到 图 23-15 所 示 的 SQL/XML 
模式 。 
考虑 23. 3. 2 节 中 的 XML Schema 范例 ， 写 出 XQuery 查询 完成 如 下 任务 : 
a. 检查 是 否 满足 23. 3. 2 节 所 示 的 键 约束 。 
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b. 检查 是 否 满足 23. 3.2 节 所 示 的 键 引用 约束 。 
23.22 ”考虑 实践 习题 23.7， 假 设 作者 还 可 能 作为 顶层 元 素 出 现 ， 那 么 需要 对 关系 模式 进行 什么 修改 ? 


工具 


公用 领域 内 已 经 有 很 多 用 于 处 理 XML 的 工具 。W3C 网 站 www. w3. org 上 有 介绍 各 种 XML 相关 标准 的 页 
面 ， 以 及 指向 软件 工具 ( 如 语言 实现 ) 的 链接 。 很 多 XQuery 实现 的 列表 可 以 在 www. w3. org/XML/Query 上 获 
得 。Saxon D( saxon. sourceforge. net) 和 Galax( http: //www. galaxquery. org/ ) 作为 学 习 工 具 是 有 用 的 ， 虽然 它 
们 都 没有 被 设计 用 来 处 理 大 数据 库 。Exist( exist-db. org) 是 一 个 开源 的 XML 数据 库 ， 它 支持 很 多 特性 。 一 些 
商业 数据 库 ， 包 括 IBM DB2 Oracle 和 Microsoft SQL Server 支持 XML 的 存储 、 通 过 各 种 SQL 扩展 进行 发 布 
以 及 使 用 XPath 和 XQuery 的 查询 。 


文献 注解 


万 维 网 联盟 (W3C ) 作为 Web 相关 标准 的 标准 主体 ， 包 括 基 本 XML 以 及 所 有 XML 相关 语言 ， 如 XPath, 
XSLT 和 XQuery。 在 www. w3. org 上 有 大 量 定义 XML 相关 标准 的 技术 报告 。 这 个 网 站 还 包含 关于 实现 各 种 标 
准 的 软件 的 指南 和 链接 。 

XQuery 语言 是 从 一 种 称 作 Quilt 的 XML 查询 语言 发 展 而 来 的 。Quilt 本 身 包括 了 早期 语言 (如 在 23. 4.2 
节 中 讨论 的 XPath， 以 及 其 他 两 种 XML 查询 语言 : XQL 和 XML-QL) 所 拥有 的 很 多 特性 。Chamberlin 等 
[2000 SAT Quilt, Deutsch 等 [1999 ] 介 绍 了 XML-QL 语言 。W3C 在 2009 年 中 期 发 布 了 对 XQuery 进行 扩展 
的 一 个 推荐 候选 (candidate recommendation ) ， 其 中 包含 对 更 新 的 支持 。 

Katz 等 [2004] 提供 了 涵盖 XQuery 的 详细 教科 书 。 可 以 在 www. w3. org/TR/xquery 上 找到 XQuery 规 
范 。 该 网 站 还 提供 了 对 XQuery 扩展 的 规范 ,包括 XQuery 更 新 工具 和 XQuery 脚本 扩展 。Florescu 等 
[2000] 和 Amer-Yahia 等 [2004] 概述 了 将 关键 字 查询 集成 到 XML 的 方法 。 

Funderburk 等 [2002a ] Florescu 和 Kossmann [ 1999 ] Kanne 和 Moerkotte [ 2000], ， 以 及 Shanmug- 
asundaram 等 [1999 | 介绍 了 XML 数据 的 存储 。Eisenberg 和 Melton[ 2004a ] 提供 了 SQL/XML 的 概览 ， 而 
Funderburk 等 [2002b] 概括 介绍 了 SQL/XML 和 XQuery。 请 参考 第 28 章 ~ 第 30 章 以 获得 关于 商用 数据 
库 对 XML 支持 的 更 多 信息 。Eisenberg 和 Melton[ 2004b] 对 XQuery 的 XQJ API 进行 了 概述 ， 而 标准 定义 
可 以 在 http: //www. w3. org/TR/xquery 上 找到 。 

XML 索引 、 查 询 处 理 和 查询 优化 : 过 去 几 年 中 ， 对 XML 数据 的 索引 以 及 XML 查询 处 理 和 优化 是 
一 个 兴趣 浓厚 的 领域 。 该 领域 发 表 了 很 多 论文 。 索 引 中 遇 到 的 一 个 挑战 是 : 查询 可 以 指定 在 路 径 上 的 
选择 ,例如 /a/b//cL d=“CSE”]。 通 过 索引 必须 能 够 高 效 地 获取 满足 路 径 指定 和 值 选择 的 结 点 。 在 
XML 数据 索引 方面 的 工作 包括 Pal 等 [2004 ] 和 Kaushik 等 [2004 ] 。 如 果 数 据 是 被 分 解 的 并 存放 于 关系 
中 ， 对 路 径 表达 式 的 计算 对 应 于 对 连接 的 计算 。 人 们 已 经 提出 了 几 种 技术 来 高 效 地 计算 这 类 连接 ， 特 
别 是 在 路 径 表 达 式 指定 了 任意 后 继 结 点 (/) 的 情况 下 。 人 们 还 提出 了 几 种 对 XML 数据 中 的 结 点 进行 编 
号 的 技术 ， 用 于 高 效 地 检查 一 个 结 点 是 否 是 另 一 个 结 点 的 后 继 ， 参 见 诸 如 ONeil 等 [2004 | 。XML 查询 
优化 方面 的 工作 包括 McHugh 和 Widom[ 1999], Wu 等 [2003 | 以 及 Krishnaprasad 等 [2004 | 。 


| 第 八 部 分 


Part 8 


高 级 主题 


第 24 章 包 括 了 许多 应 用 开发 中 的 高 级 主题 ， 首 先 介绍 了 为 提高 应 用 系统 速度 而 进行 的 性 
能 调 优 ; 接着 讨论 了 衡量 商用 数据 库 系 统 性 能 的 基准 ; 然后 叙述 了 应 用 开发 中 诸如 应 用 测试 
和 应 用 移植 的 问题 。 本 章 以 对 标准 化 过 程 和 现 有 数据 库 语 言 标准 的 总 结 作为 结束 。 

第 25 章 描述 了 空间 和 时 态 数 据 类 型 、 多 媒体 数据 ， 以 及 在 数据 库 中 存储 这 些 数据 的 问 
题 ， 本 章 同 时 还 介绍 了 有 关 移 动 计算 系统 的 数据 库 问题 。 

最 后 ， 第 26 章 描述 了 几 个 高 级 事务 处 理 技术 ， 包 括 事务 处 理 监 视 器 、 事 务工 作 流 和 电子 [1027] 
商务 中 的 事务 处 理 问题 ; 然后 讨论 了 主 存 数 据 库 系 统 和 实时 事务 系统 ， 并 以 长 事务 的 讨论 作 |1028 
ABER. 
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应 用 开发 有 许多 任务 ， 我 们 已 经 在 第 7 章 到 第 9 章 看 到 了 如 何 设计 和 构建 应 用 系统 。 对 应 用 系 
统 期 望 的 性 能 是 应 用 系统 设计 的 一 个 方面 。 事 实 上 ,一旦 应 用 系统 建立 以 后 ， 人 们 常常 发 现 它 的 运 
行 速度 比 设计 者 期 望 的 要 慢 ， 或 者 每 秒 钟 处 理 的 事务 数量 少 于 需求 的 数量 。 一 个 应 用 系统 花费 过 长 
时 间 执 行 请 求 的 动作 ， 在 最 好 的 情况 下 会 引起 用 户 的 不 满 ， 在 最 坏 的 情况 下 应 用 系统 完全 不 能 使 用 。 

通过 性 能 调整 可 以 大 幅度 提高 应 用 系统 的 运行 速度 。 性 能 调整 包括 发 现 和 消除 瓶颈 ， 以 及 添加 
适当 的 硬件 ， 如 内 存 或 硬盘 。 应 用 系统 开发 者 可 以 有 多 种 方法 进行 性 能 调整 。 数 据 库 系统 管理 员 也 
可 以 有 多 种 方式 来 提高 应 用 系统 的 处 理 速度 。 

基准 是 一 些 任务 的 标准 化 集合 ， 它 们 有 助 于 刻画 数据 库 系统 的 性 能 特征 。 甚 至 在 应 用 系统 构建 
之 前 ， 基 准 对 于 大 致 了 解 应 用 系统 硬件 和 软件 的 要 求 都 是 很 有 用 的 。 

应 用 系统 在 开发 过 程 中 必须 进行 测试 。 测 试 要 求生 成 数据 库 状 态 和 测试 输入 ， 并 验证 输出 是 否 
匹配 预期 的 输出 。 我 们 讨论 应 用 系统 测试 的 问题 。 遗 产 系统 是 已 经 过 时 的 、 通 常 基于 老 一 代 技 术 的 
应 用 系统 。 然 而 ， 它 们 常常 位 于 组 织 机构 的 核心 ， 运 行 一 些 关键 任务 应 用 。 我 们 概述 了 与 遗产 系统 
接口 的 问题 ， 如 何 移植 遗产 系统 的 问题 ， 以 及 如 何 用 更 现代 的 系统 取代 遗产 系统 。 

标准 对 于 应 用 系统 开发 来 说 非常 重要 ， 特 别 是 在 互联 网 时 代 ， 因 为 应 用 之 间 需 要 相互 通信 以 执 
行 有 用 的 任务 。 人 们 已 经 提出 的 各 种 不 同 的 标准 会 影响 数据 库 应 用 的 开发 。 


24.1 性 能 调整 


1029 系统 性 能 调整 包括 调整 各 种 参数 和 选择 设计 方案 ， 以 提高 系统 在 特定 应 用 下 的 性 能 。 数 据 库 系 
统 设计 的 各 个 方面 (其 范围 从 高 层次 方面 ， 如 模式 和 事务 设计 ， 到 数据 库 参 数 ， 如 缓冲 区 大 小 ， 直 到 
硬件 问题 ， 如 磁盘 数目 ) 都 影响 着 应 用 系统 的 性 能 。 为 了 提高 系统 性 能 ， 所 有 这 些 方面 都 可 以 调整 . 
24. 1.1 提高 面向 集合 的 特性 

当 来 自 一 个 应 用 程序 的 SQL 查询 被 执行 时 ， 通 常情 况 下 一 个 查询 会 被 频繁 地 执行 ， 但 是 带 有 不 
同 的 参数 值 。 每 次 调用 除了 在 服务 器 上 的 处 理 开销 ， 还 有 与 服务 器 通信 的 开销 。 
例如 ， 考 虑 一 个 程序 ， 它 遍历 各 个 系 ， 调 用 骨 和 式 的 SQL 查询 来 找 出 系 中 所 有 教师 的 薪酬 总 额 : 


select sum ( salary) 
from instructor 
where dept_name = ? 


如 果 instructor 关系 在 dept_name 上 没有 聚集 索引 ， 每 个 这 样 的 查询 将 导致 对 整个 关系 扫描 一 遍 。 
即使 有 这 样 的 索引 ， 对 每 个 dept_name 的 值 也 会 有 随机 的 1/0 操作 请 求 。 
相反 ， 我 们 可 以 使 用 单个 SQL 查询 来 找 出 每 个 系 的 总 薪酬 费用 : 


select dept_name, sum ( salary) 
from instructor 
group by dept_name; 


这 个 查询 通过 对 instructor 关系 的 单 遍 扫描 来 实现 ， 从 而 避免 对 每 个 系 的 随机 0O。 其 结果 可 以 通过 单 
次 通信 提取 到 客户 端 ， 然 后 客户 端 程序 可 以 遍历 结果 来 找 出 每 个 系 的 聚集 值 。 像 上 述 那样 把 多 个 
SQL 查询 合并 为 单个 SQL 查询 在 很 多 情况 下 可 以 大 大 降低 执行 开销 ， 例 如 ， 如 果 instructor 关系 非常 
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K, 并且 有 很 多 的 系 。 

JDBC API 也 提供 了 一 个 称 作 批量 更 新 (batch update) 的 功能 ,允许 使 用 单 次 数据 库 通 信 来 执行 
多 个 插入 操作 。 图 24-1 展示 了 这 个 功能 的 使 用 情况 。 当 执行 executeBatch ( ) 方法 时 ,图 中 所 示 的 
代码 只 需要 与 数据 库 通信 一 次 ， 相 比 之 下 ， 我 们 前 面 在 图 5-2 中 看 到 的 类 似 代码 没有 批量 更 新 功能 。 
在 没有 批量 更 新 的 情况 下 ,需要 与 数据 库 通信 的 次 数 与 待 插入 的 教师 一 样 多 。 批 量 更 新 功能 也 使 得 
数据 库 可 以 一 次 处 理 一 批 插 入 ， 这 很 可 能 会 比 一 连 串 的 单 记 录 插 入 更 为 有 效 。 

在 客 户 端 -服务 器 系 统 中 广泛 使 用 的 男 一 种 用 来 PreparedStatement pStmt = conn.prepareStatement( | 
减少 通信 开销 和 SQL 编译 的 技术 是 使 用 存储 过 程 。 其 | "insert into instructor values(?,?,?,?)"); 
中 查询 以 过 程 的 形式 存储 在 服务 器 上 ， 它 们 可 以 被 预 BStmtsetstringt2, Peny). 
编译 。 客 户 端 可 以 调用 这 些 存储 过 程 ， 而 不 是 发 送 一 | RSimtsetnt Finance') 

系 列 查 询 o pStmt.addBatch( ); ， 

提高 面向 集合 特性 的 另 一 个 方面 在 于 用 嵌 套 子 查 CSE Stine “thierry 
i] (nested subquery) 重 写 查 询 。 在 过 去 ， 许 多 数据 库 PStmt.setint(3, "Physics"); 
pStmt.setint(4, 100000); 
系统 的 优化 器 不 是 特别 好 ， 所 以 一 个 查询 是 如 何 写 的 pStmt.addBatch( ); pStmt.executeBatch( ); 

将 极 大 地 影响 到 它 是 如 何 被 执行 的 ， 从 而 对 性 能 也 有 2 
很 大 影响 。 当 今 先进 的 优化 器 甚至 可 以 改变 写 得 很 精 人 
糕 的 查询 ， 并 有 效 地 执行 它们 ， 所 以 调整 单个 查询 的 需求 没有 以 前 那么 重要 了 。 然 而 ， 许 多 优化 咒 
并 不 能 很 好 地 优化 包含 嵌 套 子 查 询 的 复杂 查询 。 

我 们 在 第 13. 4. 4 节 看 到 了 去 除 艇 套子 查询 相关 性 的 技术 。 如 果 一 个 子 查询 没有 被 去 除 相关 性 ， 
它 会 被 重复 地 质 行 ， 这 可 能 导致 大 量 的 随机 IO。 与 此 相反 ， 去 除 相关 性 允许 使 用 高 效 的 面向 集合 操 
作 ， 例 如 连接 ， 来 最 小 化 随机 IO。 大 多 数 数据 库 查 询 优化 器 引入 了 一 些 形式 的 去 除 相 关 性 ， 但 有 些 
只 能 处 理 很 简单 的 圣 套 子 查 询 。 优 化 器 选择 的 执行 计划 是 在 前 面 第 13 章 描述 的 。 如 果 优 化 器 不 能 成 
功 去 除 髓 套子 查询 的 相关 性 ， 该 查询 可 以 通过 手工 重 写 来 去 除 相 关 性 。 

24.1.2 批量 加 载 和 更 新 的 调整 

当 把 大 量 数据 加 载 到 数据 库 中 〈 称 为 批量 加 载 (bulk load) 操作 ) 时 ， 如 果 通 过 单独 的 SQL ffi 

和 人 语句 来 执行 插入 ， 人 性 能 通常 会 非常 差 。 其 中 一 个 原因 是 解析 每 个 SQL 查询 的 开销 ; 一 个 更 重要 的 














原因 是 ， 为 每 个 插 人 的 元 组 分 别 执行 完整 性 约束 检查 和 索引 更 新 会 导致 大 量 的 随机 VO 操作 。 如 果 |1030| 
大 批量 执行 插入 ， 可 以 以 一 种 更 加 面向 集合 的 方式 完成 完整 性 约束 检查 和 索引 更 新 ， 从 而 大 大 降低 1031| 


开销 ， 把 性 能 提升 一 个 数量 级 或 更 高 并 不 少见 。 

为 了 支持 批量 加 载 操作 ， 大 多 数 数据 库 系统 提供 了 批量 导入 (bulk import) 功能 ， 以 及 相应 的 批 
BSW (bulk export) 功能 。 批 量 导 人 功能 从 文件 读 取 数 据 ， 并 以 一 种 非常 高 效 的 方式 执行 完整 性 约 
束 检 查 以 及 索引 维护 。 这 样 的 批量 导入 /导出 功能 支持 的 常见 输入 和 输出 文件 格式 包括 文本 文件 ， 它 
们 带 有 如 逗号 或 制 表 符 那 样 的 符号 来 分 隔 属性 值 ， 每 个 记录 单独 占 一 行 (这 样 的 文件 格式 称 为 过 号 
分 隔 的 值 或 制 表 符 分 隔 的 值 格式 ) 。 批 量 导 入 /导出 功能 也 支持 数据 库 特 定 的 二 进 制 格 式 以 及 XML 格 
式 。 批 量 导 入 /导出 功能 的 名 字 随 数据 库 不 同 而 不 同 。 在 PostgreSQL 里 ， 这 些 功 能 被 称 为 pg_dump 和 
pg_restore( PostgreSQL 也 提供 了 一 个 SQL 命令 copy， 它 提供 了 类 似 的 功能 ) Oracle 里 的 批量 导入 / 导 
出 功能 称 为 SQL* Loader, Æ DB2 里 该 功能 被 称 为 bad， 在 SQL Server 里 该 功能 被 称 为 bcp( SQL 
Server 还 提供 了 一 个 称 作 bulk insert 的 SQL 命令 ) 。 

我 们 现在 考虑 调整 批量 更 新 的 情况 。 假 设 我 们 有 一 个 关系 funds_received ( dept_name, amount) , 
它 为 每 个 系 存储 到 账 的 资金 (例如 ， 通 过 电子 资金 转账 ) 。 假 设 现 在 我 们 想 给 相应 系 的 预算 余额 增加 
经 费 。 为 了 使 用 SQL 更 新 语句 来 完成 这 项 任务 ， 我 们 必须 为 department 关系 中 的 每 个 元 组 在 funds _ 
received 关系 上 执行 一 次 查找 。 我 们 可 以 按 如 下 方式 使 用 更 新 子 句 中 的 子 查询 来 完成 这 项 任务 : 为 简 
单 起 见 ， 我 们 假设 funds_received 关系 中 对 每 个 系 最 多 包含 一 个 元 组 。 
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up date department set budget = budget + 
(select amount 
from funds_received 
where funds_received. dept_name = department. depi_name ) 
where exists( 
select * 
from funds_received 
where funds_received. dept_name = department. dept_name ) ; 


注意 更 新 语句 的 where 子 句 里 的 条 件 确 保 了 只 有 在 funds_received 中 有 相应 元 组 的 账户 才 会 被 更 
新 ， 而 set 子 句 中 的 子 查 询 则 计算 出 要 给 每 个 这 样 的 系 增加 的 经 费 量 。 

有 许多 应 用 程序 需要 如 上 所 示 的 更 新 操作 。 通 常情 况 下 ， 有 一 个 我 们 称 之 为 主 表 ( master table) 
的 表 ， 对 主 表 的 更 新 是 批量 进行 的 。 现 在 主 表 必须 相应 地 更 新 。SQL: 2003 提供 了 一 种 特殊 结构 ， 
称 为 merge 结构 ,来 简化 执行 这 样 的 信息 合并 的 任务 。 例 如 ， 上 面 的 更 新 可 以 使 用 merge 表示 如 下 : 


merge into department as A 
using (select * 
from funds_received) as F 
on (A. dept_name = F. dept_name) 
when matched then 
update set budget = budget + F. amount; 


MOE using 子 句子 查询 的 一 条 记录 上 department 关系 中 的 一 条 记录 匹配 时 ， 就 执行 when 
matched 子 句 ， 它 可 以 在 该 关系 上 执行 一 个 更 新 操作 ; 在 这 种 情况 下 ， 在 department 关系 中 匹配 的 记 
录 按 如 上 所 示 的 方式 被 更 新 。 

merge 语句 还 可 以 有 一 个 when not matched then 子 句 ， 它 允许 往 关系 中 插入 新 记录 。 在 上 面 的 
例子 里 ， 当 funds_received 的 元 组 没有 匹配 上 的 系 , 插入 动作 可 以 使 用 以 下 子 句 来 创建 一 个 新 的 系 记 
录 ( 在 building 值 上 取 空 值 ): 


when not matched then 
insert values (F. dept_name, null, F. budget) 


虽然 在 这 个 例子 里 不 是 非常 有 意义 =， 但 在 其 他 情况 下 when not matched then 子 句 是 相当 有 用 
的 。 例如， 假设 本 地 关系 是 主 关系 的 一 个 副本 ， 且 我 们 从 主 关 系 接收 到 了 更 新 的 以 及 新 插入 的 记录 ，。 
merge 语句 可 以 更 新 匹配 上 的 记录 (这 些 是 被 更 新 的 旧 记 录 ) 并且 搬 人 未 匹配 上 的 记录 (这 些 是 新 记 
录 ) 。 

目前 并 非 所 有 的 SQL 实现 都 支持 merge 语句 ， 进 一 步 的 细节 请 参见 相应 的 系统 手册 。 

24.1.3 瓶颈 位 置 

大 多 数 系统 的 性 能 (至 少 在 它们 调整 之 前 ) 通 常 主要 受制 于 一 个 或 几 个 部 件 的 性 能 ， 这 样 的 部 件 
称 为 瓶颈 (bottleneck) 。 例 如 ， 一 个 程序 可 能 有 80% 的 时 间 花 在 代码 中 的 一 个 小 循环 上 ， 而 其 余 20% 
的 时 间 用 在 剩余 的 代码 上 ; 那么 这 个 小 循环 就 是 一 个 瓶颈 。 提 高 非 瓶 颈 部 件 的 性 能 对 于 提高 系统 的 
总 体 速度 没 多 大 帮助 ， 在 上 述 例子 中 ， 提 高 剩余 代码 的 速度 不 可 能 使 总 体 速 度 提高 20% 以 上 ， 而 提 
高 该 瓶颈 循环 的 速度 在 最 好 的 情况 下 可 以 将 总 体 速度 提高 将 近 80% ， 

因此 ， 在 对 系统 进行 性 能 调整 时 ， 我 们 必须 首先 试 着 找 出 瓶颈 是 什么 ， 然 后 通过 提高 导致 这 些 
瓶颈 的 系统 部 件 的 性 能 来 消除 瓶颈 。 消 除 一 个 瓶颈 后 ， 可 能 另 一 个 部 件 又 成 为 瓶颈 。 在 一 个 性 能 均 
衡 的 系统 中 ， 任 何 单个 的 部 件 都 不 会 成 为 瓶颈 。 如 果 系 统 中 存在 瓶颈 ， 没 有 构成 瓶颈 的 那些 部 件 就 
不 能 被 充分 使 用 ， 因 而 可 以 使 用 性 能 较 低 、 价 格 较 便 宜 的 部 件 来 代替 。 

对 简单 的 程序 来 说 ， 在 代码 的 各 个 部 分 花费 的 时 间 决 定 了 总 体 执 行 时 间 。 然 而 ， 数 据 库 系 统 要 
复杂 得 多 ， 可 以 用 排队 系统 (queueing system ) 来 建 模 。 一 个 事务 向 数据 库 系 统 请 求 各 种 服务 ， 从 进入 
一 个 服务 器 进程 开始 ， 在 执行 过 程 中 需要 读 磁 盘 ， 需 要 CPU 周期 ， 以 及 并 发 控制 所 需要 的 锁 。 每 个 





O 在 这 里 一 个 更 好 的 动作 是 把 这 些 记 录 搬 人 到 一 个 错误 关系 中 ， 但 是 用 merge 语句 不 能 这 样 来 实现 . 
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这 样 的 服务 都 有 一 个 队列 与 之 相 联 ， 而 小 事务 可 能 把 它们 大 多 数 的 时 间 都 花费 在 队列 (尤其 是 磁盘 L/ 
0 队列 ) 等待 上 ， 而 不 是 代码 的 执行 上 。 图 24-2 举例 说 明了 数据 库 系 统 中 的 一 些 队 列 。 


并 发 控制 管理 器 





图 24-2 数据 库 系统 中 的 队列 


由 于 数据 库 系统 中 存在 大 量 队 列 ， 数 据 库 系统 中 的 瓶颈 常常 表现 为 某 个 特定 服务 的 队列 很 长 ， 
或 者 等 价 地 说 ， 某 个 特定 服务 的 利用 率 很 高 。 如 果 请 求 的 分 布 非常 均匀 ， 并 且 为 一 个 请 求 服务 的 时 
间 小 于 或 等 于 下 一 请 求 到 来 的 时 间 ， 那 么 每 个 请 求 都 会 发 现 资源 是 空闲 的 ， 因 此 可 以 立即 开始 执行 
而 不 需 等 待 。 遗 憾 的 是 ， 数 据 库 系统 中 请 求 的 到 达 从 不 是 均匀 的 ， 而 总 是 随机 的 。 

如 果 一 个 资源 (如 磁盘 ) 的 利用 率 低 ， 那 么 当 提 出 请 求 时 ， 该 资源 很 可 能 是 空闲 的 ， 这 时 请 求 的 
等 待 时 间 为 0。 假 设 请 求 的 到 达 均 匀 地 随机 分 布 ， 队 列 长 度 (以 及 相应 的 等 待 时 间 ) 随 利用 率 呈 指数 
增长 ; 当 利用 率 接近 100% 时 ， 队 列 长 度 急 剧 增加 ， 导 致 等待 时 间 过 长 。 因 此 资源 的 利用 率 应 保持 足 
够 低 ， 使 队列 长 度 很 短 。 经 验 表明 ， 利 用 率 在 70% 左右 较 好 ， 而 超过 90% 就 太 大 ， 因 为 这 会 带 来 显 
著 的 延迟 。 要 进一步 了 解 关于 排队 系统 理论 ( 通常 称 作 排队 论 ( queueing theory) ) 的 更 多 知识 ， 请 参阅 
文献 注解 中 所 给 出 的 参考 文献 。 

24.1.4 TASA 

数据 库 管理 员 可 以 在 三 个 级 别 上 对 数据 库 系 统 进行 调整 。 最 低级 别 是 在 硬件 层 上 。 这 一 级 上 调 
整 系统 的 选项 包括 : 如 果 磁 盘 1/0 是 瓶 碳 ， 则 增加 磁盘 或 使 用 RAID 系统 ; 如果 磁盘 缓冲 容量 是 瓶 
颈 ， 则 增加 更 多 内 存 ; 如 果 CPU 使 用 是 瓶 项 ， 则 改 用 更 快 的 处 理 器 。 

第 二 个 级 别 由 数据 库 系统 参数 组 成 ， 比 如 缓冲 区 大 小 和 检查 点 间隔 。 可 调 的 数据 库 系统 参数 的 
集合 取决 于 特定 的 数据 库 系 统 。 大 多 数 数据 库 系统 手册 提供 了 有 关 哪 些 数据 库 系统 参数 可 调 以 及 如 
何 选择 参数 值 这 些 方面 的 信息 。 设 计 良 好 的 数据 库 系统 自动 进行 尽 可 能 多 的 调整 ， 以 减轻 用 户 或 数 
据 库 管 理 员 的 负担 。 例 如 ， 很 多 数据 库 系统 的 缓冲 区 大 小 是 固定 的 ， 但 是 是 可 调 的 。 如 果 系统 能 够 
根据 诸如 页 错误 率 这 样 的 指标 来 自动 调整 缓冲 区 大 小 ,那么 数据 库 管 理 员 就 不 必 为 调整 缓冲 区 大 小 
而 烦恼 。 

第 三 级 别 是 最 高 级 别 。 它 包括 模式 和 事务 。 管 理 员 可 以 调整 模式 的 设计 、 创 建 的 索引 以 及 执行 
的 事务 来 提高 性 能 。 这 一 级 的 调整 与 系统 相对 独立 。 

这 三 级 的 调整 相互 影响 ， 当 对 系统 进行 调整 时 ， 我 们 必须 将 三 者 结合 起 来 考虑 。 例 如 ， 在 某 个 
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更 高 级 别 上 所 做 的 调整 可 能 导致 硬件 瓶颈 从 磁盘 系统 上 移 到 CPU 上 ， 反 之 亦 然 。 
24.1.5 硬件 调整 
即使 在 设计 良好 的 事务 处 理 系统 中 ， 如 果 事 务 所 需 的 数据 在 磁盘 上 ， 那 么 每 个 事务 通常 至 少 需 
要 几 次 VO 操作。 调整 事务 处 理 系统 的 一 个 重要 因素 就 是 确保 磁盘 子 系 统 能 够 处 理 LO 操作 所 需要 
的 速率 。 例 如 ， 考 虑 一 个 访问 时 间 大 约 是 10 上 毫秒 的 磁盘 ， 其 平均 传输 率 是 每 秒 25MB 到 100MB ( 当 
今 相 当 典 型 的 磁盘 ) ， 这 样 的 磁盘 为 每 次 4KB 的 IO 操作 提供 每 秒 略 少 于 100 次 的 随机 访问 。 如 果 每 
个 事务 只 需 2 次 VO 操作 ， 单 个 磁盘 每 秒 最 多 可 支持 50 个 事务 。 要 想 每 秒 支持 更 多 的 事务 ， 唯 一 的 
方法 是 增加 磁盘 的 数量 。 如 果 系 统 每 秒 需 支持 n 个 事务 ， 每 个 事务 执行 2 次 VOR, MARY 
须 被 分 (或 划分 ) 在 至 少 n/50 个 磁盘 上 (忽略 偏 斜 的 影响 ) 。 
在 此 必须 注意 的 是 ， 限 制 因素 并 不 是 磁盘 容量 ， 而 是 能 够 随机 进行 数据 访问 的 速度 ( 相应 地 取决 
于 磁盘 臂 的 移动 速度 ) 。 将 更 多 的 数据 存 到 内 存 中 ， 可 减少 每 个 事务 进行 IO 操作 的 次 数 。 如 果 所 有 
数据 都 放 在 内 存 中 ， 除 了 写 操作 以 外 将 不 会 有 磁盘 IO 操作 。 i irii 
磁盘 IO 次 数 而 增加 的 额外 的 内 存 开销 是 值得 的 。 把 不 经 常 使 用 的 数据 放 在 内 存 中 是 一 种 浪费 ， 
为 内 存 比 磁盘 要 昂贵 得 多 。 
问题 是 ， 如 果 用 给 定数 量 的 钱 购买 磁盘 或 内 存 ， 如 何 分 配 这 笔 钱 才 能 获得 每 秒 最 大 的 事务 量 呢 ? 
每 秒 减少 一 次 IO 操作 将 节省 : 
(每 个 磁盘 驱动 器 的 价格 )/( 每 个 磁盘 每 秒 的 访问 量 ) 
因此 ， 如 果 一 个 特定 的 页 每 秒 被 访问 nn 次 ,由 于 把 该 页 放 在 内 存 中 而 带 来 的 节省 将 是 上 面值 的 
倍 。 在 内 存 中 存储 一 页 的 成 本 是 : 
(每 MB 内 存 的 价格 )/ (每 MB 内 存 的 页 数 ) 
因此 ， 收 支 平衡 点 的 计算 如 下 : 
,每 个 磁盘 驱动 器 的 价格 “每 MB 内 存 的 价格 
”每 个 磁盘 每 秒 的 在 取 量 ”每 MB 内 存 的 页 数 


我 们 可 将 上 面 的 公式 变形 ， 并 用 当前 的 值 蔡 换 上 面 公 式 中 的 每 个 参数 ， 就 会 得 到 的 值 ; 如 果 某 一 
页 的 访问 频率 大 于 该 值 ， 就 值得 买 足够 的 内 存 来 存储 它 。 对 于 随机 访问 的 页 来 说 ， 基 于 当前 的 磁盘 
技术 ， 内 存 和 磁盘 的 价格 (我 们 假设 每 个 磁盘 大 约 50 美元 ， 即 每 MBO. 020 美元 ) ， 可 得 到 的 值 是 
大 约 每 秒 1/6400 次 (或 相当 于 接近 两 小 时 一 次 ) 。 基 于 几 年 前 的 磁盘 和 内 存 的 成 本 和 速度 ， 相 应 的 值 
为 5 分 钟 一 次 。 

这 个 推理 可 由 最 初 被 称 为 5 分 钟 规则 (5-minute rule) 的 经 验 规则 来 描述 : 如果 一 页 在 5 分 钟 里 被 使 用 
的 次 数 多 于 一 次 ， 它 就 应 当 存 储 在 内 存 中 。 换 句 话 说， 几 年 前 此 规则 建议 购买 足够 的 内 存 来 存储 所 有 那 
些 平均 5 分 钟 至 少 被 访问 一 次 的 页 。 今 天 ， 值 得 买 足够 的 内 存 来 存储 所 有 那些 平均 2 小 时 至 少 被 访问 一 
次 的 页 。 对 于 访问 不 那么 频繁 的 数据 ， 应 购买 足够 的 磁盘 以 支持 这 些 数据 所 需 的 VO 访问 率 。 

对 于 顺序 访问 的 数据 ， 每 秒 可 能 会 读 取 非常 多 的 页 。 假 设 一 次 读 取 1MB 的 数据 ， 几 年 前 我 们 有 1 
分 钟 规则 (1-minute rule) ， 就 是 说 ， 如 果 顺 序 访问 的 数据 一 分 钟 内 至 少 访问 一 次 ,就 应 该 把 它们 放 到 内 
存 中 。 根 据 我 们 之 前 的 例子 ， 用 现在 的 内 存 和 磁盘 成 本 ， 相 应 的 数字 是 30 秒 左 右 。 令 人 惊讶 的 是 ， 这 
个 数字 多 年 来 并 没有 很 大 变化 ， 因 为 磁盘 传输 率 已 经 大 大 提高 了 ， 尽 管 一 兆 内 存 的 价格 相对 于 磁盘 价 
格 已 经 大 大 降低 了 。 

WR, 每 次 VO 操作 读 取 的 数据 量 对 上 述 时 间 的 影响 很 大 ; 实际 上 ， 如 果 每 次 VO 操作 读 或 写 大 
约 100KB 的 数据 ，5 分 钟 规则 仍然 适用 。 

5 分 钟 经 验 规则 及 其 变 体 只 考虑 了 IO 操作 的 次 数 ， 并 没有 考虑 诸如 响应 时 间 这 样 的 因素 。 有 些 
应 用 甚至 将 不 常 使 用 的 数据 也 保存 在 内 存 中 ， 以 提供 低 于 或 与 磁盘 访问 时 间 相 当 的 响应 时 间 。 

随 着 闪存 以 及 基于 闪存 的 “固态 硬盘 ”的 普及 ， 系 统 设计 者 现在 可 以 把 经 常 使 用 的 数据 存储 在 闪存 
存储 器 上 ， 而 不 是 磁盘 上 。 男 外 ， 在 闪存 作为 缓冲 区 (flash-as-buffer) 的 方式 中 ,闪存 存 储 器 被 用 作 持 
久 缓冲 区 ， 每 一 块 在 磁盘 上 都 有 永久 的 位 置 ， 但 是 只 要 它 被 经 常 使 用 就 被 存储 在 闪存 中 ， 而 不 是 写 入 
磁盘 。 当 闪存 存储 器 满 时 ， 不 经 常 使 用 的 块 就 被 收回 ， 而 且 如 果 它 从 磁盘 读 出 后 被 更 新 过 ， 就 把 它 写 
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回 到 磁盘 。 

闪存 作为 缓冲 区 方式 需要 改变 数据 库 系 统 本 身 。 即 使 数据 库 系 统 不 支持 闪存 作为 缓冲 区 ， 数 据 库 
管理 员 也 可 以 控制 关系 或 索引 到 磁盘 的 映射 ， 并 给 经 常 使 用 的 关系 /索引 分 配 闪 存 存 储 。 大 多 数 数 据 库 
系统 支持 的 表 空 间 功 能 可 用 作 映 射 控制 ， 即 通过 在 闪存 存储 器 上 创建 表 空 间 ， 并 把 所 期 望 的 关系 和 索 
引 分配 到 该 表 空 间 。 然 而 ， 在 比 关系 更 细 的 粒度 级 别 上 控制 映射 ， 需 要 更 改 数据 库 系统 的 代码 。 

除了 主 存 和 硬盘 ,“5 分 钟 " 规则 已 经 扩展 到 数据 可 以 存储 到 闪存 的 情况 下 。 更 多 信息 请 参阅 文献 
注解 中 所 给 出 的 参考 文献 。 

调整 的 另 一 个 方面 是 选择 RAID 1 还 是 RAIDS 的 问题 。 答 案 取决 于 数据 更 新 的 频繁 程度 。 因 为 
RAID 5 tt RAID 1 在 随机 写 上 要 慢 得 多 : RAIDS 执行 单个 随机 的 写 请 求 需要 两 次 读 和 两 次 写 。 如 果 一 
个 应 用 程序 为 支持 特定 的 吞吐 率 每 秒 要 执行 上 次 随机 读 和 zw 次 随机 写 ， 用 RAID 5 实现 ， 每 秒 需要 + 
4w 次 VO 操作 ， 而 用 RAID 1 实现 ， 每 秒 需 r+2w 次 IO 操作 。 将 这 个 结果 除 以 每 秒 100 次 IO 操作 
( 当代 磁盘 的 VO 速度 ) ， 我 们 可 以 算出 为 支持 每 秒 所 需 的 LO 操作 数 所 需 的 磁盘 数量 。 对 于 许多 应 用 
来 说 , r 和 是 很 大 的 ，(r+w)/100 个 磁盘 足以 容纳 全 部 数据 的 两 个 副本 。 对 于 这 些 应 用 ， 如 果 使 用 
RAID 1， 所 需 的 磁盘 数 实际 上 要 少 于 使 用 RAID 5 所 需 的 磁盘 数 ! 只 有 在 数据 存储 量 要 求 很 大 ， 而 更 新 
率 ( 尤 其 是 随机 更 新 率 ) 较 小 时 ,或 者 说 对 于 非常 大 而 且 非 常 “ 冷 ”的 数据 ，RAID 5 才 是 有 效 的 。 
24. 1.6 模式 调整 

在 所 采用 的 范式 的 约束 下 ， 可 以 对 关系 进行 垂直 划分 。 例 如 ， 考 虑 course 关系 ， 其 模式 为 

course(course_id, title, dept_name, credits) 

其 中 course_id 是 码 。 在 所 采用 范式 (BCNF 和 第 三 范式 ) WARP, FEAT course 关系 划分 为 两 个 
关系 : 





course_credit( course_id, credits ) 
course_title_dept( course_id, title, dept_name ) 


由 于 course_id 是 码 ， 这 两 种 表示 在 逻辑 上 等 价 , 但 是 它们 的 性 能 特征 不 同 。 

如 果 大 多 数 对 课程 信息 的 访问 只 是 查看 course_id 和 credits ， 那 么 这 些 访问 可 以 在 course_credit 关系 
上 运行 ， 由 于 不 读 取 title 和 dept_name 属性 ， 这 些 访 问 可 能 在 一 定 程 度 上 加 快 。 由 于 相同 的 原因 ， 缓 冲 
区 中 能 够 放下 的 course_credit 元 组 比 相应 的 course 元 组 多 ， 这 也 可 以 提高 性 能 。 如 果 title 和 dept_name JE 
性 很 大 ， 那 么 效果 尤为 明显 。 因 此 ， 在 这 种 情况 下 由 course_credit 和 course_title_dept 构成 的 模式 比 由 
course 关系 构成 的 模式 更 为 优越 。 

另 一 方面 ， 如 果 大 多 数 对 课程 信息 的 访问 同时 需要 dept_name 和 credits ， 那 么 使 用 course 关系 会 更 
好 ， 因 为 这 样 可 以 避免 course_credit 和 course_title_dept 的 连接 开销 。 另 外 ， 存 储 开 销 也 会 更 小 ， 因 为 这 
时 只 有 一 个 关系 ， 而 且 属性 course_id 不 会 重复 。 

列 存储 ( column store) 方式 存储 数据 是 基于 垂直 划分 的 ， 但 是 通过 把 关系 的 每 个 关系 属性 ( 列 ) 都 存 
储 在 一 个 单独 的 文件 中 使 垂直 划分 达到 了 极限 。 好 几 个 数据 仓库 应 用 已 经 展示 了 列 存储 的 良好 性 能 . 

提高 性 能 的 另 一 个 技巧 是 存储 解除 规范 化 的 关系 (denormalized relation), ， 例 如 instructor 和 
department 的 连接 ， 其 中 关于 dept_name, building 和 budget 信息 会 为 每 位 教师 重复 一 次 。 每 当 更 新 发 生 
时 ， 维 护 关系 的 一 致 性 需要 付出 更 大 的 代价 。 但 是 ， 读 取 教 师 姓 名 及 其 所 在 建筑 的 查询 速度 将 会 提高 ， 
因为 instructor 和 department 的 连接 已 经 预先 计算 好 了 。 如 果 这 样 的 查询 执行 得 很 频繁 ， 并且 需 要 尽 可 
能 高 效 地 执行 ， 那 么 使 用 解除 规范 化 的 关系 不 无 神 益 。 

物化 视图 能 够 提供 解除 规范 化 关系 所 带 来 的 好 处 ,但 是 需要 额外 的 存储 代价 。 我 们 将 在 24.1.8 节 
中 介绍 物化 视图 的 性 能 调整 。 物 化 视图 与 解除 规范 化 关系 相 比 ， 一 个 主要 的 优点 是 维护 元 余数 据 的 一 
致 性 成 为 数据 库 管理 系统 而 不 是 程序 员 的 任务 。 因 此 ， 只 要 数据 库 系统 支持 ， 物 化 视图 是 更 可 取 的 。 

另 一 种 不 使 用 物化 视图 来 提高 连接 计算 速度 的 方法 是 将 连接 中 匹配 的 记录 聚集 到 相同 的 磁盘 页 面 
上 。 我 们 已 经 在 10. 6. 2 节 中 看 到 过 这 样 的 聚集 文件 组 织 。 


24.1.7 索引 调整 
我 们 可 以 调整 数据 库 系 统 中 的 索引 来 提高 性 能 。 如 果 查 询 是 瓶颈 ， 那 么 我 们 常常 可 以 通过 在 关系 
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上 创建 适当 的 索引 来 加 快 查询 。 如 果 更 新 是 瓶颈 ， 那 么 可 能 是 索引 太 多 ， 这 些 索引 在 关系 被 更 新 时 也 
必须 被 更 新 。 删 除 索 引 可 以 加 快 某 些 更 新 。 

索引 类 型 的 选择 也 很 重要 。 一 些 数 据 库 系 统 支持 不 同类 型 的 索引 ， 例 如 散 列 索引 和 B 树 索 引 。 如 
果 经 常 使 用 范围 查询 ， 那 么 B 树 索 引 比 散 列 索引 更 适合 。 是 否 使 索引 成 为 聚集 索引 是 另 一 个 可 调 参 数 
一 个 关系 上 只 人 允许 一 个 聚集 索引 ， 聚 集 索 引 按照 索引 属性 顺序 来 存储 关系 。 通 常 应 该 将 有 利于 最 大 数 
量 的 查询 和 更 新 的 索引 设 为 聚集 索引 。 

为 了 有 助 于 确定 建立 何 种 索引 ， 以 及 确定 每 个 关系 上 的 哪个 索引 ( 如 果 有 多 个 的 话 ) 应 该 是 聚集 索 
引 ， 大 多 数 商 用 数据 库 系 统 提供 了 调整 向 导 (tuning wizard) ， 对 此 将 在 24.1.9 节 中 进行 详细 介绍 。 这 
些 工具 使 用 查询 和 更 新 ( 称 为 工作 负载 ) 的 历史 信息 来 估算 不 同 索 引 对 工作 负载 中 查询 和 更 新 的 执行 时 
间 所 产生 的 影响 ， 并 根据 这 些 估算 值 来 建议 创建 何 种 索引 。 

24.1.8 ”使 用 物化 视图 

维护 物化 视图 可 以 在 很 大 程度 上 加 快 某 类 查询 的 速度 ， 特 别 是 聚集 查询 。 回 顾 13. 5 节 的 例子 ， 需 
要 频繁 地 查询 每 个 系 的 工资 总 额 (通过 累加 该 系 每 位 教师 的 工资 数额 得 到 ) 。 在 那 一 节 里 我 们 看 到 ， 创 
建 一 个 物化 视图 为 每 个 系 存储 其 工资 总 额 ， 可 以 极 大 地 加 快 此 类 查询 的 速度 。 

但 是 ， 物 化 视图 必须 小 心 使 用 ， 因 为 不 仅 需要 存储 物化 视图 的 空间 开销 ， 而 且 更 重要 的 是 ， 还 需 
要 有 维护 物化 视图 的 时 间 开 销 。 在 立即 视图 维护 (immediate view maintenance) 的 情况 下 ， 如 果 一 个 事务 
的 更 新 操作 影响 到 物化 视图 ,那么 这 个 物化 视图 必须 作为 该 事务 的 一 部 分 进行 更 新 ， 因 此 事务 的 运行 
会 变 慢 。 在 延迟 视图 维护 ( deferred view maintenance) 的 情况 下 ， 物 化 视图 会 在 以 后 更 新 。 在 物化 视图 更 

新 前 ， 物 化 视图 可 能 会 与 数据 库 关 系 不 一 致 。 例 如 ， 物 化 视图 可 以 在 查询 使 用 到 该 物化 视图 时 再 进行 
更 新 ， 或 者 进行 周期 性 的 更 新 。 使 用 延迟 的 视图 维护 减轻 了 更 新 事务 的 负担 。 

数据 库 管 理 员 负责 物化 视图 的 选择 和 视图 维护 策略 。 数 据 库 管理 员 可 以 通过 检查 工作 负载 中 的 查 
询 类 型 来 手动 地 做 出 选择 ， 找 出 哪些 查询 需要 执行 得 更 快 一 些 ， 哪 些 查 询 或 更 新 可 以 执行 得 更 慢 一 些 
通过 检查 ,数据 库 管 理 员 可 以 选择 一 个 适当 的 物化 视图 集合 。 例 如 ,管理 员 可 能 发 现 某 种 聚集 操作 使 
用 频繁 ， 从 而 选择 将 它 物化 ; 或 是 发 现 某 个 特定 的 连接 运算 使 用 频繁 ， 因 此 选择 将 它 物化 。 

但 是 ， 即 使 对 于 中 等 规模 的 查询 类 型 集 来 说 ， 手 工 选择 物化 视图 仍然 是 很 费劲 的 ， 并 且 要 做 出 一 
种 较 好 的 选择 也 是 很 困难 的 ， 因 为 这 需要 了 解 不 同方 案 的 代价 ， 只 有 查询 优化 器 能 够 在 没有 实际 执行 
查询 的 情况 下 估算 出 较为 精确 的 代价 值 。 因 此 一 个 好 的 物化 视图 集 只 有 通过 试验 和 错误 才能 得 到 ， 也 
就 是 说 ， 物 化 一 个 或 多 个 视图 ， 运 行 工 作 负载 ， 测 量 在 该 工作 负载 中 执行 查询 所 需 的 时 间 。 管 理 员 重 
复 这 个 过 程 ， 直 到 得 到 一 个 能 够 给 出 可 接受 性 能 的 物化 视图 集 为 止 

一 种 更 好 的 选择 是 数据 库 系统 本 身 提供 选择 物化 视图 的 机 制 ， 并 与 查询 优化 器 集成 在 一 起 。 我 们 
将 在 24. 1. 9 节 中 详细 介绍 这 种 方法 。 

24.1.9 物理 设计 的 自动 调整 

大 多 数 商 用 数据 库 系 统 现在 都 提供 工具 ， 帮 助 数据 库 管 理 员 进 行 索 引 和 物化 视图 的 选择 ， 以 及 其 
他 与 物理 数据 库 设 计 相 关 的 任务 ， 比 如 如 何在 并 行 数 据 库 系统 中 对 数据 进行 分 区 。 

这 些 工 具 检查 工作 负载 (workload) (查询 和 更 新 的 历史 信息 ) ， 建 议 需 要 创建 的 索引 和 物化 的 视图 . 
数据 库 管理 员 可 以 指定 加 快 不 同 查询 的 重要 程度 ， 当 这 些 工 具 选 择 要 进行 物化 的 视图 时 会 把 它们 考虑 
在 内 。 通 常 必须 在 应 用 程序 完全 开发 之 前 进行 调整 。 在 开发 数据 库 上 的 实际 数据 库 内 容 可 能 比较 少 ， 
而 在 产品 数据 库 上 的 实际 数据 库 内 容 则 要 多 得 多 。 因 此 ， 一 些 调 整 工具 还 允许 数据 库 管 理 员 指 定期 望 
的 数据 库 大 小 和 相关 的 统计 信息 。 

例如 ， 微 软 的 数据 库 调 整 助手 允许 用 户 问 “what if” 这 种 问题 ， 用 户 可 以 挑选 一 个 视图 ， 然 后 查询 
优化 器 就 会 估算 物化 该 视图 对 工作 负载 整体 代价 的 影响 ， 以 及 对 工作 负载 中 的 不 同类 型 的 查询 或 更 新 
的 个 别 代价 的 影响 。 

索引 和 物化 视图 的 自动 选择 通常 按照 这 种 方式 实现 : 列举 出 不 同 的 方案 ， 通 过 使 用 工作 负载 ， 查 

询 优化 器 估算 选择 每 种 方案 的 代价 以 及 所 获得 的 好 处 。 因 为 设计 方案 的 数目 可 能 相当 大 ， 工 作 负载 也 
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很 大 ， 必 须 谨慎 设计 选择 技术 。 

第 一 步 是 生成 工作 负载 。 通 常 的 做 法 是 记录 一 段 时 间 内 执行 的 所 有 查询 和 更 新 。 然 后 ， 选 择 工 具 
执行 工作 负载 压缩 ( workload compression) ， 即 用 少量 更 新 和 查询 生成 工作 负载 的 代表 。 例 如 ， 对 同一 
表格 的 多 次 更 新 可 以 用 单 次 更 新 和 相应 于 更 新 发 生 次 数 的 权重 来 代表 。 对 同一 表格 的 多 次 查询 可 以 类 
似 地 由 带 适 当权 重 的 代表 所 替代 。 这 样 ， 执 行 不 频繁 上 且 代 价 不 高 的 查询 可 能 会 被 丢弃 到 考虑 范围 之 外 ， 
而 代价 最 高 的 查询 可 能 被 最 先 提交 。 这 种 工作 负载 压缩 对 于 大 工作 负载 是 非常 必要 的 。 

在 查询 优化 器 的 帮助 下 ， 工 具 可 以 产生 一 组 索引 和 物化 视图 ， 加 快 在 压缩 后 的 工作 负载 中 查询 和 
更 新 的 执行 。 从 这 些 索引 和 物化 视图 的 不 同 组 合 中 可 以 试图 找到 最 好 的 组 合 。 然 而 ， 详 尽 穷 举 的 方法 
是 不 实际 的 ， 因 为 潜在 的 索引 和 物化 视图 的 数量 已 经 很 大 了 ， 它 们 的 每 个 子 集 又 都 是 一 个 潜在 的 设计 
方案 ， 这 导致 了 指数 级 的 方案 数目 。 启 发 式 方法 可 用 于 降低 方案 空间 ， 即 减少 考虑 的 组 合 数目 。 

用 于 索引 和 物化 视图 选择 的 贪心 启发 式 方法 操作 如 下 : 估算 物化 不 同 索引 或 者 视图 所 带 来 的 好 处 
〈 使 用 查询 优化 器 的 代价 估算 函数 作为 子 程序 ) ， 然 后 选择 那些 具有 最 大 收益 ， 或 是 在 单位 存储 空间 上 
具有 最 大 收益 ( 即 收益 值 除 以 存储 该 索引 或 者 视图 所 需要 的 空间 ) 的 索引 或 视图 。 在 计算 收益 时 ， 索 引 
或 者 视图 的 维护 代价 必须 考虑 在 内 。 一 旦 该 启发 式 方法 选 定 了 一 个 索引 或 者 视图 ， 其 他 索引 或 者 视图 
的 收益 值 可 能 会 发 生变 化 ， 因 此 该 启发 式 方法 需要 重新 计算 它们 ,来 选择 下 一 个 最 佳 索引 或 者 物化 视 
图 。 重 复 执行 此 过 程 ， 直 到 存储 索引 或 物化 视图 的 可 用 磁盘 空间 用 完 ， 或 者 剩余 的 候选 索引 、 视 图 的 
维护 代价 已 经 超过 使 用 它们 给 查询 带 来 的 收益 。 

现实 世界 的 索引 和 物化 视图 选择 工具 通常 结合 一 些 贪心 选择 的 元 素 ， 但 使 用 其 他 技术 得 到 更 好 的 
结果 。 它 们 还 支持 物理 数据 库 设 计 的 其 他 方面 ， 例 如 如 何 对 并 行 数据 库 中 的 关系 进行 分 区 ， 或 者 对 一 
个 关系 使 用 何 种 物理 存储 机 制 。 

24.1.10 ”并 发 事务 调整 

不 同类 型 事务 的 并 发 执行 有 时 会 由 于 锁 的 竞争 而 导致 性 能 低下 。 我 们 首先 考虑 更 常见 的 读 写 竞争 
的 情况 ,然后 再 考虑 写 写 竞争 的 情况 。 

作为 一 个 读 写 竞争 ( read-write contention) 的 例子 ， 考 虑 银行 数据 库 的 如 下 情形 。 白 天 ， 大 量 小 的 更 
新 事务 几乎 是 连续 不 断 地 执行 。 假 设 同时 还 运行 一 个 大 的 查询 来 计算 各 个 部 门 的 统计 数据 。 如 果 该 查 
询 在 一 个 关系 上 进行 扫描 ， 在 它 运 行 时 就 可 能 阻塞 所 有 对 该 关系 的 更 新 ， 这 对 系统 性 能 来 说 将 是 一 个 
灾难 性 的 影响 。 

一 些 数据 库 系统 ， 例 如 Oracle, PostgreSQL 和 Microsoft SQL Server， 支 持 快照 隔离 ， 此 时 查询 在 数 
据 的 某 个 快照 上 执行 ， 这 样 更 新 就 可 以 继续 并 发 执行 了 (快照 隔离 的 细节 在 15.7 节 中 介绍 ) 。 如 果 可 
用 ， 对 于 大 的 查询 应 该 使 用 快照 隔离 ， 以 避免 上 述 情形 中 的 锁 竞 争 。 在 SQL Server 中 ， 在 事务 开始 时 
执行 下 列 语句 

set transaction isolation level snapshot 
会 导致 对 那个 事务 使 用 快照 隔离 。 在 Oracle 和 PostgreSQL 中 ， 在 上 述 命 令 中 用 关键 字 serializable 替换 
关键 字 snapshot 具有 相同 的 效果 ， 因 为 这 些 系统 在 把 隔离 性 级 别 设置 为 可 串 行 化 时 ， 实 际 上 都 使 用 快 
照 隔离 。 

如 果 快 照 隔离 不 可 用 ， 一 种 替代 的 选择 是 ， 在 更 新 很 少 或 是 不 存在 更 新 时 再 执行 大 的 查询 。 然 而 ， 
对 于 支持 Web 站 点 的 数据 库 ， 也 许 根 本 不 存在 这 种 更 新 很 少 的 时 候 。 

另外 一 种 替代 方法 是 使 用 更 弱 的 一 致 性 级 别 ， 例 如 已 提交 读 (read committed) 隔离 性 级 别 ， 这 时 查 
询 的 执行 对 并 发 更 新 的 影响 最 小 ， 但 不 能 保证 查询 结果 的 一 致 性 。 应 用 语义 决定 了 是 否 可 以 接受 这 种 
近似 的 (不 一 致 的 ) 答 案 。 

我 们 现在 考虑 写 写 竞争 ( write-write contention) 的 情况 。 在 锁 机 制 下 更 新 非常 频繁 的 数据 项 会 导致 
很 差 的 性 能 ， 因 为 许多 事务 会 等 待 这 些 数 据 项 上 的 锁 。 这 些 数据 项 被 称 为 更 新 热点 (update hot spot) 。 
即使 在 快照 隔离 下 ， 更 新 热点 也 会 带 来 问题 ， 由 于 写 验证 失败 导致 频繁 的 事务 中 止 。 更 新 热点 导致 的 
一 种 经 常 发 生 的 情况 如 下 : 事务 需要 给 待 插 入 到 数据 库 中 的 数据 项 分 配 唯一 标识 符 ， 为 了 这 么 做 它们 
读 取 并 递增 存储 在 数据 库 某 个 元 组 中 的 序号 计数 器 的 值 。 如 果 插 和 频繁， 并 且 序 号 计数 器 以 两 阶段 的 
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方式 被 封锁 ， 则 包含 序号 计数 器 的 元 组 成 为 一 个 热点 。 

一 种 提高 并 发 度 的 方法 是 在 序号 计数 器 被 读 取 并 递增 后 立即 释放 其 上 的 锁 ， 但 这 样 做 之 后 ， 即 使 
事务 中 止 ， 对 序号 计数 器 的 更 新 都 不 应 该 回 滚 。 为 了 理解 其 中 的 原因 ， 假 设 7, 递增 序列 计数 器 ， 然 后 
在 7 提交 前 T, 也 递增 序号 计数 器 ; MRT, 中 止 ， 它 的 更 新 回 滚 ， 无 论 是 把 计数 器 恢复 到 原来 的 值 ， 
还 是 递减 计数 器 ， 都 将 导致 7, 使 用 的 序号 值 被 后 继 事务 重用 。 

大 多 数 数据 库 提供 了 一 个 特殊 的 结构 来 创建 序号 计数 器 (sequence counter) ， 它 实现 早期 的 、 非 两 
阶段 的 、 锁 释放 的 、 伴 随 特殊 情况 处 理 的 undo 日 志 ， 使 得 事务 中 止 时 对 计数 器 的 更 新 不 会 被 回 滚 。 
SQL 标准 允许 使 用 下 列 命令 来 创建 序号 计数 器 : 


create sequence counter] ; 


在 上 面 的 命令 中 ，counterl 是 序号 的 名 称 ， 可 以 用 不 同 的 名 称 创建 多 个 序号 。 得 到 一 个 序号 值 的 语法 是 
非 标准 化 的 。 在 Oracle 中 ，counterl. nextval 在 递增 序号 值 后 返回 序号 的 下 一 个 值 ， 在 PostgreSQL 中 调用 
函数 nextval( counter|’ ) 有 相同 的 效果 ， 而 DB2 使 用 的 语法 为 nextval for counter] 。 

SQL 标准 提供 的 另 一 个 方案 是 使 用 显 式 的 序号 计数 器 ， 当 目标 是 为 插入 到 关系 中 的 元 组 提供 唯一 
标识 符 时 这 是 非常 有 用 的 。 为 此 ， 可 以 在 关系 的 一 个 整数 属性 (通常 此 属性 也 被 声明 为 主 码 ) 的 声明 上 
添加 关键 字 identity。 如 果 在 对 该 关系 进行 插入 的 语句 中 ， 没 有 指定 此 属性 的 值 ， 对 于 每 个 新 插 和 人 的 元 
组 会 自动 创建 一 个 唯一 的 新 值 。 在 内 部 使 用 非 两 阶段 封锁 的 序号 计数 器 来 实现 identity 声明 ， 当 每 次 
插入 一 个 元 组 时 就 递增 计数 器 。 虽 然 语 法 不 同 ， 包 括 DB2 和 SQL Server 在 内 的 多 个 数据 库 都 支持 
identity 声明 。PostgreSQL 支持 一 种 称 作 serial 的 数据 类 型 ， 它 提供 了 相同 的 效果 ; PostgreSQL 通过 透 
明 地 创建 非 两 阶段 封锁 的 序号 来 实现 serial 类 型 。 

值得 注意 的 是 ， 如 果 事 务 中 止 ， 事 务 对 一 个 序号 的 获得 也 不 能 被 回 滚 ( 由 于 前 面 讨论 的 原因 ) ， 
样 事务 中 止 就 可 能 导致 插入 到 数据 库 中 的 元 组 出 现 序 号 空缺 。 例 如 ， 如 果 获 得 序号 为 1002 jit 
提交 ， 可 能 会 有 标识 符 值 为 1001 和 1003 的 元 组 ， 但 没有 值 为 1002 的 元 组 。 这 种 空缺 在 某 些 应 用 中 是 
不 允许 的 。 例 如 ， 一 些 金融 应 用 要 求 账 单 或 收据 号 不 能 有 空缺 。 数 据 库 提供 的 序号 和 自动 递增 的 属性 
不 能 用 于 此 类 应 用 ， 因 为 它们 会 导致 空缺 。 以 两 阶段 方式 封锁 的 、 存 储 在 正常 元 组 中 的 序号 计数 器 不 
会 产生 这 种 空缺 ， 因 为 事务 中 止 会 恢复 序号 计数 器 的 值 ， 而 下 一 个 事务 将 得 到 相同 的 序号 ， 从 而 避免 
了 空缺 。 

长 的 更 新 事务 会 带 来 系统 日 志 的 性 能 问题 ， 并 增加 系统 崩溃 后 的 恢复 时 间 。 如 果 一 个 事务 执行 了 
很 多 更 新 ， 系 统 日 志 其 至 会 在 事务 完成 前 就 满 了 ， 这 时 事务 将 不 得 不 被 回 深 。 如 果 一 个 更 新 事务 运行 
很 长 时 间 ( 尽 管 只 有 少量 更 新 ) ， 日 志 系统 设计 得 又 不 够 好 ， 那 么 它 可 能 会 阻塞 对 日 志 中 旧 的 部 分 的 删 
除 。 这 样 的 阻塞 也 可 能 导致 日 志 满 。 

为 了 避免 这 样 的 问题 ， 很 多 数据 库 系统 对 单个 事务 所 能 进行 的 更 新 数目 进行 了 严格 限制 。 即 使 系 
统 不 做 这 样 的 限制 ， 将 大 的 更 新 事务 尽 可 能 地 分 成 一 组 较 小 的 更 新 事务 通常 也 是 有 帮助 的 。 例 如 ， 给 
大 公司 的 每 个 员工 加 薪 的 事务 可 以 拆 分 为 一 系列 小 事务 ， 每 个 小 事务 对 一 个 小 范围 内 的 员工 进行 更 新 。 
这 种 事务 称 作 小 型 批 处 理事 务 ( minibatch transaction) 。 但 是 ， 使 用 小 型 批 处 理事 务必 须 小 心 。 首 先 ， 如 
果 在 员工 集合 上 存在 并 发 更 新 ， 小 事务 集合 的 结果 可 能 并 不 等 价 于 执行 单个 大 事务 的 结果 。 其 次 ， 如 
果 发 生 故 障 ， 就 可 能 有 一 些 员工 的 工资 由 于 事务 的 提交 得 到 增长 ， 而 其 他 员工 的 工资 却 没有 增加 。 为 
了 避免 这 种 情况 ， 一 旦 系统 从 故障 中 恢复 ， 我 们 应 立即 执行 该 批 处 理 中 剩余 的 事务 。 

不 管 是 只 读 的 还 是 更 新 的 长 事务 ， 还 可 能 导致 锁 表 变 满 。 如 果 一 个 查询 扫描 一 个 大 型 关系 ， 查 询 
优化 器 将 确保 它 得 到 关系 锁 而 不 是 获得 大 量 的 元 组 锁 。 但 是 ， 如 果 一 个 事务 执行 大 量 的 小 型 查询 或 更 
新 ， 它 可 能 会 获得 大 量 的 锁 ， 导 致 锁 表 变 满 。 

为 了 避免 这 个 问题 ， 一 些 数据 库 提供 了 自动 的 锁 升 级 (lock escalation ) 。 利 用 这 个 技术 ， 如 果 一 个 
事务 已 经 获得 了 大 量 的 元 组 锁 ， 元 组 锁 就 被 升级 为 页 锁 ， 甚 至 整个 关系 上 的 锁 。 回 顾 多 粒度 封锁 机 制 
(15.3 节 ) ， 一 且 得 到 较 粗 粒度 级 别 的 锁 ， 就 没有 必要 再 记录 较 细 粒 度 级 别 的 锁 ， 因 此 可 以 从 锁 表 中 删 
除 元 组 锁 项 ， 释 放空 间 。 在 不 支持 锁 升 级 的 数据 库 上 ， 事 务 有 可 能 显 式 地 获得 关系 锁 ， 从 而 避免 对 元 
组 锁 的 获取 。 
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24. 1.11 性 能 模拟 

为 了 在 数据 库 系 统 安装 前 测试 其 性 能 ， 我 们 可 以 构造 数据 库 系统 的 性 能 模拟 模型 。 图 24-2 中 所 示 
的 每 个 服务 ， 如 CPU 、 每 个 磁盘 、 缓 冲 区 和 并 发 控制 ， 在 模型 中 都 将 被 模拟 。 模 拟 模型 并 不 模拟 服务 
的 细节 ， 而 只 是 抓 住 每 个 服务 的 某 些 方面 ， 例 如 服务 时 间 ( service time) ， 即 一 旦 请 求 处 理 开 始 直至 结 
束 所 需要 的 时 间 。 因 此 ， 模 型 可 以 仅仅 基于 磁盘 平均 访问 时 间 来 模拟 磁盘 访问 。 

由 于 服务 请 求 通常 需要 排队 等 待 ， 在 模拟 模型 中 每 个 服务 有 一 个 与 之 关联 的 队列 。 一 个 事务 由 一 
系列 请 求 构成 。 请 求 到 达 后 就 排 到 队列 中 去 等 待 ， 并 根据 服务 策略 ( 如 先 来 先 服务 ) 获得 服务 。 不 同 服 
务 ( 如 CPU 和 磁盘 ) 的 模型 在 概念 上 是 并 行 操 作 的 ， 以 表示 实际 系统 中 这 些 子 系统 并 行 操作 的 事实 。 

一 旦 建立 起 事务 处 理 的 模拟 模型 ， 系 统管 理 员 就 可 以 在 其 上 进行 许多 实验 。 用 到 达 速 率 不 同 的 模 [1044] 
拟 事务 做 实验 ， 管 理 员 可 以 得 到 系统 在 不 同 负载 情况 下 的 表现 情况 。 管 理 员 还 可 以 通过 改变 每 种 服务 
的 服务 时 间 来 做 实验 ， 以 发 现 性 能 对 每 种 服务 的 敏感 程度 。 还 可 以 改变 系统 参数 ， 这 样 就 可 以 在 模拟 
模型 上 进行 性 能 调整 。 


24.2 性 能 基准 程序 


由 于 数据 库 服 务 器 变 得 越 来 越 标准 化 ， 产 品 性 能 成 为 不 同 厂商 产品 的 主要 差异 因素 。 性 能 基准 程 
序 (performance benchmark ) 是 一 套用 于 量化 软件 系统 性 能 的 任务 。 

24.2.1 任务 集 

由 于 大 多 数 软件 系统 (如 数据 库 ) 都 很 复杂 ， 不 同 厂商 的 实现 中 会 有 许多 不 同 。 因 此 ， 针 对 不 同 任 
务 它们 在 性 能 上 存在 显著 差异 。 一 个 系统 在 某 个 特定 任务 上 可 能 是 最 有 效 的 ; 而 男 一 系统 可 能 在 男 一 
个 不 同 的 任务 上 最 有 效 。 因 此 ， 仅 用 一 个 任务 来 量化 系统 性 能 通常 是 不 够 的 ， 而 要 用 一 个 称 作 性 能 基 
准 程序 的 标准 化 任务 集合 来 度量 系统 性 能 。 

将 来 自 多 个 任务 的 性 能 值 结 合 起 来 的 工作 必须 小 心 进行 。 假 设 我 们 有 两 个 任务 T AT, 并且 我 们 
用 给 定时 间 ( 如 1 秒 ) 内 所 运行 的 每 类 事务 的 数量 来 作为 系统 吞吐 量 的 度量 。 假 设 系统 A 运行 7, 时 是 每 
秒 99 SHS, ATT, 时 是 每 秒 1 个 事务 。 类 似 地 ， 设 系统 B 每 秒 运行 7, AT, 时 都 是 50 个 事务 。 还 
假设 工作 负载 是 两 种 类 型 事务 的 一 个 等 比例 混合 。 

如 果 我 们 取 这 两 对 数 ( 即 99 和 1 与 50 和 50) 的 均值 ， 看 起 来 似乎 这 两 个 系统 的 性 能 一 样 。 但 是 ， 
以 这 种 形式 取 均 值 是 错误 的 一 一 如 果 每 种 类 型 运行 50 个 事务 ， 系 统 A 要 用 50. 5 秒 才能 完成 ， 而 系统 
B 只 要 2 秒 就 可 以 完成 ! 

上 例 表 明 ， 如 果 有 不 止 一 种 类 型 的 事务 ， 对 性 能 进行 简单 的 度量 会 导致 错误 。 综 合 性 能 值 的 正确 
方法 是 采用 工作 负载 的 完成 时 间 (time to completion) ， 而 不 是 采用 每 类 事务 吞吐 量 的 平均 值 。 这 样 ， 对 
于 具体 工作 负载 ， 我 们 可 以 用 每 秒 事务 数 准确 地 计算 系统 性 能 。 因 此 ， 系 统 A 执行 每 个 事务 平均 需要 
50. 5/100 即 0. 505 秒 ， 而 系统 B 执行 每 个 事务 平均 需要 0. 02 秒 。 用 吞吐 量 来 描述 ， 系 统 A 平均 每 秒 执 
行 1. 98 个 事务 ， 而 系统 B 平均 每 秒 执行 50 个 事务 。 假 设 每 类 事务 发 生 的 可 能 性 相等 ， 则 综合 不 同事 [1045] 
务 类 型 吞吐 量 的 正确 方法 是 求 这 些 知 吐 量 的 调和 平均 数 (harmonic mean), n AEIR t, e, t, 的 调 
和 平均 数 定义 为 : 








对 我 们 的 例子 来 说 ， 系 统 A 吞吐 量 的 调和 平均 数 为 1.98 ， 而 系统 B 吞吐 量 的 调和 平均 数 为 50。 因 
此 ， 对 于 由 这 两 种 示例 类 型 事务 等 量 混合 而 成 的 工作 负载 而 言 ， 系 统 B 大 约 比 系统 A 快 25 倍 。 
24. 2.2 数据 库 应 用 类 型 

联机 事务 处 理 ( OnLine Transaction Processing, OLTP) 和 决策 支持 ( decision support ) (包括 联机 分 析 处 
理 ( OnLine Analytical Processing, OLAP) ) 是 数据 库 系统 所 处 理 的 两 大 类 应 用 。 这 两 类 任务 具有 不 同 的 
需求 。 一 方面 ， 支 持 频繁 的 更 新 事务 需要 有 高 的 并 发 度 和 能 加 速 事务 提交 处 理 的 好 技术 。 另 一 方面 ， 
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决策 支持 又 需要 有 好 的 查询 执行 算法 和 查询 优化 。 一 些 数据 库 系 统 的 体系 结构 被 调整 为 适用 于 事务 处 
理 ; 而 另 一 些 数据 库 系统 (如 Teradata 并 行 数据 库 系统 系列 ) 的 体系 结构 被 调整 为 适用 于 决策 支持 。 男 
外 还 有 一 些 厂商 力争 在 这 两 类 任务 间 取 得 平衡 。 

通常 应 用 中 混合 着 事务 处 理 和 决策 支持 的 需求 。 因 此 ， 对 一 个 应 用 来 说 ， 哪 个 数据 库 系统 最 好 取 
决 于 该 应 用 中 这 两 类 需求 的 混合 比例 。 

假设 我 们 分 别 有 这 两 类 应 用 的 吞吐 量 数 值 ， 并 且 当 前 的 应 用 是 这 两 类 事务 的 混合 。 由 于 事务 间 的 
干扰 (interference) ， 即 使 求 吞 吐 量 数值 的 调和 平均 数 时 我 们 也 必须 小 心 。 例 如 ， 一 个 长 的 决策 支持 事 
务 可 能 获得 很 多 锁 ， 这 可 能 阻碍 所 有 更 新 事务 的 进行 。 吞 吐 量 的 调和 平均 数 只 能 在 事务 互 不 干扰 时 
使 用 。 

24.2.3 TPC 基准 程序 

事务 处 理性 能 委员 会 (Transaction Processing Performance Council，TPC ) 定义 了 一 系列 数据 库 系 统 基 
准 程序 的 标准 。 

TPC 基准 程序 定义 得 非常 详细 。 它 定义 了 关系 的 集合 和 元 组 的 大 小 。 它 并 没有 把 关系 中 的 元 组 数 
定义 为 一 个 固定 的 数值 ， 而 是 定义 为 所 宣称 的 每 秒 事务 数目 的 倍数 ， 以 反映 更 高 的 事务 执行 速度 可 能 
会 与 更 多 的 账户 数目 相 联 系 。 用 来 度量 性 能 的 尺度 是 吞吐 量 ， 用 每 秒 事务 数 ( Transaction Per Second, 
TPS) 表示。 在 测量 性 能 时 ， 系 统 必须 提供 在 一 定 范围 内 的 响应 时 间 ， 这 样 ， 获 得 高 吞吐 量 就 不 能 以 很 
长 的 响应 时 间 为 代价 。 另 外 ， 对 商业 应 用 来 说 ， 代 价 是 非常 重要 的 。 因 此 ，TPC 基准 程序 还 用 每 TPS 
的 代价 值 (price per TPS) 来 度量 性 能 。 一 个 大 系统 可 能 每 秒 有 很 高 的 事务 数 ， 但 可 能 代价 很 高 ( 即 每 
TPS 的 代价 值 很 高 ) 。 此 外 ， 公 司 宣称 其 系统 的 TPC 基准 程序 测试 值 时 ， 必 须 有 外 部 的 审查 ， 以 确保 系 
统 如 实地 遵循 了 基准 程序 的 定义 ， 包 括 对 事务 ACID 特性 的 完全 支持 . 

该 系列 中 的 第 一 个 标准 是 TPC-A 基准 程序 (TPC-A benchmark) ， 它 定义 于 1989 年 。 此 基准 程序 通 
过 单一 类 型 的 事务 来 模拟 典型 的 银行 应 用 ， 该 事务 模拟 银行 出 纳 员 办 理 的 取款 和 存款 业务 。 它 更 新 几 
个 关系 (例如 银行 余额 、 出 纳 员 余 额 和 客户 余额 )， 并 且 在 一 个 审计 跟踪 关系 中 增加 一 条 记录 。 该 基准 
程序 还 和 终端 进行 通信 ， 以 模拟 实际 系统 的 端 到 端 性 能 。TPC-B 基准 程序 (TPC-B benchmark) 是 为 了 测 
试 数据 库 系统 及 运行 它 的 操作 系统 的 核心 性 能 而 设计 。 它 去 除了 TPC-A 基准 程序 中 处理 用 户 、 通 信和 
终端 的 部 分 ,集中 测试 后 端的 数据 库 服务 器 。 现 在 TPC-A 和 TPC-B 都 没有 使 用 了 。 

TPC-C 基准 程序 (TPC-C benchmark) 是 为 了 模拟 比 TPC-A 基准 程序 更 复杂 的 系统 而 设计 的 。TPC-C 
基准 程序 主要 考虑 一 个 订购 手续 环境 中 的 主要 活动 ， 例 如 输入 和 传递 订单 、 记 录 付 款 、 检 查 订单 状态 
和 监控 库存 量 。TPC-C 基准 程序 仍 被 广泛 应 用 于 联机 事务 处 理 ( OLTP) 系统 中 。 更 近期 的 TPC-E 基准 程 
序 的 目标 也 是 OLTP 系统 ,但 是 它 是 基于 一 家 经 纪 公司 的 模型 ， 该 公司 的 客户 与 公司 交互 并 产生 事务 ， 
该 公司 随 之 与 金融 市 场 交互 以 执行 事务 。 

TPC-D 基准 程序 (TPC-D benchmark ) 是 为 了 测试 数据 库 系统 在 决策 支持 查询 中 的 性 能 而 设计 的 。 
决策 支持 系统 现在 正 变 得 越 来 越 重要 。TPC-A、TPC-B 和 TPC-C 基准 程序 测量 事务 处 理工 作 负载 下 的 
性 能 ， 不 应 被 用 来 测量 决策 支持 查询 中 的 性 能 。TPC-D 中 的 “D" 代表 决策 支持 ( decision support) 。 
TPC-D 基 准 程 序 的 模式 是 模拟 一 个 销售 /分 发 应 用 ,包括 零件 、 供 应 商 、 客 户 、 订 单 和 一 些 辅助 信息 。 
关系 的 大 小 定义 为 一 个 比率 ， 数 据 库 大 小 为 全 部 关系 大 小 之 和 ， 以 十 亿 字 节 (GB) 为 单位 来 描述 。TPC- 
D 等 级 因子 为 1 表示 TPC-D 基准 程序 运行 于 1GB 的 数据 库 上 ， 等 级 因子 为 10 表示 TPC-D 基准 程序 运 
行 于 10GB 的 数据 库 上 。 此 基准 程序 的 工作 负载 包含 一 个 由 17 个 SQL 查询 构成 的 集合 ， 以 模拟 在 决策 
支持 系统 上 执行 的 通用 任务 。 其 中 一 些 查 询 使 用 了 复杂 的 SQL EE, PRR AREA N. 

基准 程序 使 用 者 很 快意 识 到 各 种 TPC-D 的 查询 可 以 通过 使 用 物化 视图 或 其 他 元 余 信息 来 显著 提高 
速度 。 有 些 应 用 ， 如 阶段 性 的 报告 工作 中 ， 查 询 可 以 预先 确定 并 可 以 仔细 选取 物化 视图 以 加 速 查询 ， 
然而 ， 有 必要 考虑 维护 物化 视图 的 开销 。 

TPC-H 基准 程序 (TPC-H benchmark) (这 里 的 “H7” 表 示 即 席 (ad hoc) ) 是 TPC-D 基准 程序 的 细 化 。 
它 的 模式 与 TPC-D 相同 , 但 有 22 个 查询 ， 其 中 16 个 来 自 TPC-D。 此 外 ， 还 有 两 个 更 新 、 一 组 插入 和 
一 组 删除 。TPC-H 禁止 使 用 物化 视图 和 其 他 宛 余 信息 ， 并 且 只 人 允许 在 主 码 和 外 码 上 创建 索引 。 这 个 基 
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准 程序 模拟 即席 查询 ， 这 种 查询 不 能 提前 预知 ， 所 以 不 可 能 提前 创建 恰当 的 物化 视图 。 一 个 已 经 不 再 
被 使 用 的 变 体 TPC-R( 这 里 的 “R" 代 表 报 告 (reporting) ) 允许 使 用 物化 视图 和 其 他 元 余 信息 

TPC-H 用 如 下 方式 度量 性 能 :能力 测 试 (power test) 每 次 按时 间 顺 序 执行 查询 和 更 新 ，3600 秒 除 以 
所 有 查询 执行 时 间 ( 以 秒 为 单位 ) 的 几何 平均 数 ， 就 得 到 每 小 时 的 查询 数量 。 香 吐 量 测试 (throughput 
test) 并 行 执 行 多 个 工作 流 ， 每 个 工作 流 执行 全 部 22 个 查询 ， 另 外 还 有 一 个 并 行 更 新 工作 流 。 用 整体 的 
运行 时 间 计 算 每 小 时 的 查询 数量 。 

每 小 时 复合 查询 度量 ( composite query per hour metric ) 是 一 个 全 面 的 度量 ， 用 能 力度 量 和 吞吐 量度 
量 乘 积 的 平方 根 表示 。 复 合 代价 /性 能 度量 ( composite price/performance metric) 由 系统 代价 除 以 复合 代 
价 得 到 。 

TPC-W Web 商务 基准 程序 (TPC-W Web commerce benchmark ) 是 一 个 端 对 端的 基准 程序 ， 模 拟 具 
有 静态 内 容 ( 主要 是 图 像 ) 和 从 数据 库 中 生成 的 动态 内 容 的 Web 站 点 。 它 明确 指出 允许 高 速 缓存 动态 内 
容 ， 因 为 这 对 于 加 快 Web 站 点 的 速度 非常 有 用 。 此 基准 程序 模拟 了 一 个 电子 书店 ， 与 其 他 TPC 基准 程 
序 类 似 ， 提 供 了 不 同 的 等 级 因子 。 主 要 性 能 度量 是 每 秒 Web 交互 数 ( Web Interaction Per Second, 
WIPS) 和 每 WIPS 的 代价 值 。 但 是 ，TPC-W 基准 程序 已 经 不 再 被 使 用 了 。 


24.3 应 用 系统 开发 的 其 他 问题 

在 这 一 节 中 ,我 们 讨论 应 用 系统 开发 中 的 两 个 问题 : 应 用 系统 测试 和 应 用 系统 移植 。 
24. 3.1 应 用 系统 测试 

程序 测试 包括 设计 一 个 测试 集 (test suite) ， 即 一 个 测试 用 例 的 集合 。 测 试 不 是 一 次 性 的 过 程 ， 因 
为 程序 在 不 断 演化 ， 程 序 的 更 改 可 能 导致 意 想不到 的 错误 出 现 ， 这 样 的 错误 称 为 程序 回归 ( regression ) 
因此 ， 程 序 每 次 改变 后 ， 都 必须 重新 进行 测试 。 程 序 每 次 改变 后 让 人 来 进行 测试 通常 是 不 可 行 的 。 相 
反 ， 预 期 的 测试 输出 和 每 个 测试 用 例 都 一 起 存储 在 测试 集 里 。 回 归 测 试 ( regression testing) 包括 把 程序 
运行 在 测试 集中 的 每 个 测试 用 例 上 ， 并 检查 程序 是 否 产生 预期 的 测试 输出 。 

在 数据 库 应 用 中 ， 一 个 测试 用 例 由 两 个 部 分 组 成 : 数据 库 状 态 ， 以 及 一 个 应 用 程序 特定 接口 的 
输入 。 

SQL 查询 可 能 有 难以 捕获 的 细微 错误 。 例 如 ， 当 一 个 查询 实际 上 应 该 执行 rMs 时 ， 它 却 可 能 执行 
rMs。 只 有 当 测 试 数据 库 有 一 个 > 元 组 ， 它 没有 匹配 的 * 元 组 时 这 两 个 查询 间 的 差别 才能 被 发 现 。 因 
此 ， 创 建 可 以 捕获 经 常 发 生 的 错误 的 测试 数据 库 是 很 重要 的 。 这 样 的 错误 称 为 突变 ( mutation), AWE 
们 通常 是 查询 (或 程序 ) 的 小 变化 。 在 一 个 预期 查询 和 该 查询 的 突变 上 产生 不 同 输出 的 测试 用 例 ， 称 为 
消灭 突变 (kill the mutant) 。 一 个 测试 集 应 该 有 能 消灭 (大 多 数 ) 经 常 发生 的 突变 的 测试 用 例 。 

如 果 一 个 测试 用 例 执 行 对 数据 库 的 更 新 ， 为 了 检查 它 是 否 正 确 执行 ， 必 须 验 证 数据 库 的 内 容 与 预 
期 的 内 容 相 匹 配 。 因 此 ， 预 期 的 输出 不 仅 包括 显示 在 用 户 屏幕 上 的 数据 ,而且 包 括 数 据 库 状 态 ( 的 
更 新 ) 。 

由 于 数据 库 状态 可 能 相当 大 ， 多 个 测试 用 例 可 能 共享 同一 个 数据 库 状 态 。 如 下 事实 使 测试 更 加 复 
杂 : 如 果 一 个 测试 用 例 执行 对 数据 库 的 更 新 ， 随 后 运行 在 同一 个 数据 库 上 的 其 他 测试 用 例 的 结果 可 能 
与 预期 结果 不 匹配 。 然 后 其 他 测试 用 例 就 会 被 错误 地 报告 为 失败 。 为 了 避免 这 个 问题 ， 每 当 一 个 测试 
用 例 执行 更 新 ， 在 测试 运行 后 数据 库 状 态 必须 恢复 到 其 原始 状态 。 

测试 还 可 以 用 来 确保 应 用 程序 符合 性 能 要 求 。 为 了 进行 这 种 性 能 测试 (performance testing) ， 测 试 
数据 库 必须 和 真实 数据 库 一 样 大 。 在 某 些 情况 下 ,已 经 存在 可 以 进行 性 能 测试 的 数据 。 在 其 他 情况 下 ， 
必须 生成 一 个 所 需 大 小 的 测试 数据 库 。 有 几 个 工具 可 用 于 生成 这 种 测试 数据 库 。 这 些 工具 确保 生成 的 
数据 满足 约束 ， 比 如 主 码 约束 和 外 码 约束 。 它 们 可 能 额外 生成 看 起 来 有 意义 的 数据 ， 例 如 ， 通 过 使 用 
有 意义 的 姓名 填充 姓名 属性 ， 而 不 是 使 用 随机 字符 串 。 有 些 工 具 还 允许 指定 数据 分 布 。 例 如 ， 一 个 大 
学 数据 库 可 能 要 求 这 样 一 个 分 布 : 大 多 数学 生 在 18 岁 至 25 岁 之 间 ， 并 且 大 部 分 教师 在 25 岁 至 65 岁 
之 间 。 

即使 有 一 个 现 有 的 数据 库 ， 机 构 通常 也 不 希望 把 敏感 数据 泄露 给 可 能 进行 性 能 测试 的 外 部 机 构 。 
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在 这 种 情况 下 ， 可 以 复制 真实 数据 库 的 一 个 副本 ， 并 以 这 样 一 种 方式 修改 副本 中 的 值 : 使 得 任何 敏感 
数据 ， 如 信用 卡号 、 社 会 保险 号 或 出 生日 期 ， 被 模糊 (obfuscated) 处 理 。 大 多 数 情 况 下 通过 用 随机 生成 
的 值 蔡 换 真实 值 来 完成 模糊 处 理 (注意 如 果 该 值 是 主 码 ， 还 要 更 新 所 有 对 该 值 的 引用 )。 男 一 方面 ， 如 
果 应 用 程序 的 执行 依赖 于 值 ， 比 如 在 一 个 基于 出 生日 期 执行 不 同 动作 的 应 用 中 的 出 生日 期 ,模糊 处 理 
可 以 对 值 进行 小 的 随机 变化 ， 而 不 是 完全 替换 它 。 

24.3.2 应 用 系统 移植 

遗产 系统 (legacy system) 是 老 一 代 应 用 系统 ， 一 个 机 构 正在 使 用 它 ， 但 该 机 构 又 想 用 另外 的 应 用 系 
统 替 换 它 。 例 如 ， 许 多 机 构 内 部 开发 了 应 用 系统 ， 而 又 可 能 决定 用 商业 产品 代替 它们 。 在 一 些 案例 中 ， 
遗产 系统 可 能 使 用 与 当代 的 标准 和 系统 不 兼容 的 老 技 术 。 现 在 运转 着 的 一 些 遗 产 系 统 有 几 十 年 历史 ， 
基于 诸如 网 状 或 层次 数据 模型 的 数据 库 技 术 ， 或 者 使 用 没有 数据 库 的 Cobol 和 文件 系统 。 这 些 系统 可 
能 仍然 包含 有 价值 的 数据 ， 并 可 能 支持 关键 性 的 应 用 。 

用 新 的 应 用 系统 替换 遗产 应 用 系统 ， 在 时 间 和 金钱 方面 的 代价 通常 都 很 大 ， 因 为 它们 一 般 非常 庞 
大 ， 包 括 由 多 组 程序 员 经 过 几 十 年 开发 而 成 的 数 百 万 行 代码 。 它 们 包含 的 大 量 数据 必须 被 导入 到 新 的 
应 用 系统 中 ， 还 可 能 使 用 的 是 完全 不 同 的 模式 。 由 老 应 用 系统 转换 到 新 应 用 系统 还 会 涉及 大 量 员工 的 
再 培训 。 在 进行 转换 时 通常 必须 没有 中 断 ， 从 老 系 统 中 输入 的 数据 通过 新 系统 也 能 获得 。 

许多 机 构 试图 避免 昔 换 遗产 系统 ， 改 为 设法 让 它们 与 新 系统 交互 操作 。 一 种 在 关系 数据 库 与 遗产 
数据 库 之 间 进 行 交互 操作 的 方法 是 ， 在 遗产 系统 上 建立 一 个 层 ， 称 为 包装 层 (wrapper) ， 它 使 得 遗产 系 
统 看 上 去 像 个 关系 数据 库 。 包 装 层 可 以 提供 对 ODBC 或 其 他 互 连 标准 (如 OLE-DB) 的 支持 ， 用 于 对 遗 
产 系 统 的 查询 和 更 新 。 包 装 层 负责 将 关系 查询 和 更 新 转化 为 对 遗产 系统 的 查询 和 更 新 。 

当 某 个 机 构 决定 用 新 系统 替换 遗产 系统 时 ， 需 要 进行 一 个 称 作 逆向 工程 (reverse engineering ) 的 过 
程 。 道 向 工程 包括 检查 遗产 系统 代码 ， 提 出 所 需 数据 模型 (如 E-R 模型 或 面向 对 象 数据 模型 ) 中 的 设计 
模式 。 逆 向 工程 还 要 检查 代码 找 出 实现 的 程序 和 过 程 ， 以 得 到 系统 的 高 层 模型 。 之 所 以 需要 逆 癌 工程 
是 因为 遗产 系统 常常 没有 模式 的 高 层 文档 资料 和 全 面 的 系统 设计 。 当 提出 新 系统 的 设计 时 ， 开 发 者 回 
顾 旧 系 统 的 设计 ， 这 样 就 可 以 进行 改进 而 不 只 是 重新 实现 。 还 需要 扩充 的 编码 工作 来 支持 遗产 系统 提 
供 的 所 有 功能 (例如 用 户 界面 和 报表 系统 ) ， 整 个 过 程 叫做 工程 再 设计 (re-engineering ) 。 

当 新 系统 创建 并 且 测 试 过 之 后 ， 系 统 必 须 装载 遗产 系统 中 的 数据 ， 所 有 进一步 的 活动 都 由 新 系统 
来 开展 。 但 是 ， 这 种 突然 向 新 系统 的 转移 被 称 为 大 爆炸 方法 (big-bang approach) ， 它 有 几 个 风险 : A 
先 ， 用 户 可 能 不 熟悉 新 系统 界面 ; 其 次 ， 新 系统 中 可 能 存在 测试 中 没有 发 现 的 错误 或 性 能 问题 。 这 些 
问题 可 能 导致 公司 的 巨大 损失 ， 因 为 它们 执行 诸如 销售 和 购买 那样 的 关键 事务 的 能 力 会 受到 严重 影响 。 
在 某 些 极端 情况 下 ， 尝 试 转换 失败 后 ， 新 系统 甚至 被 放弃 ， 而 重新 使 用 遗产 系统 。 

另外 一 种 可 选 的 方案 叫做 胆小鬼 方法 (chicken-little approach) ， 弟 增 地 替换 遗产 系统 的 功能 。 例 
如 ， 使 用 新 的 用 户 界面 ， 后 端 仍然 使 用 遗产 系统 ， 反 之 亦 然 。 另 外 一 种 选择 是 ， 只 对 那些 能 够 从 遗产 
系统 中 分 离 出 来 的 功能 使 用 新 系统 。 任 何 一 种 情况 都 需要 遗产 系统 和 新 系统 并 存 一 段 时 间 。 因 此 需要 
在 遗产 系统 上 开发 和 使 用 包装 层 ， 以 提供 所 需 的 与 新 系统 交互 操作 的 功能 。 因 此 ， 这 种 方案 需要 更 高 
的 开发 费用 。 


24.4 标准 化 


标准 (standard) 定 义 了 软件 系统 的 接口 。 例 如 ， 标 准 可 以 定义 编程 语言 的 语法 和 语义 、 应 用 程序 接 
口中 的 函数 ， 其 至 数据 模型 (如 面向 对 象 数 据 库 标 准 )。 现 在 的 数据 库 系 统 非常 复杂 ， 常 常 由 多 个 独立 
创建 的 、 需 要 交互 的 部 件 组 成 。 例 如 ， 客 户 端 程序 的 创建 可 以 独立 于 后 端 系统 ， 但 二 者 必须 能 够 彼此 
交互 。 具 有 多 个 异 构 数据 库 系 统 的 公司 可 能 需要 在 数据 库 之 间 交 换 数据 。 在 这 种 场合 下 ， 标 准 发 挥 着 
重要 的 作用 。 

正式 标准 (formal standard) 由 标准 化 组 织 或 行业 组 织 通 过 公开 的 程序 来 制定 。 占 统治 地 位 的 产品 有 
时 会 成 为 事实 标准 (de facto standard) ， 因 为 它们 没有 通过 任何 正规 的 公认 程序 而 被 作为 标准 广泛 接受 . 
一 些 正式 标准 ， 如 SQL- 92 和 SQL: 1999 标准 的 许多 方面 ， 是 引导 市 场 的 预见 标准 ( anticipatory 
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standard) 。 它 们 先 定义 一 些 特性 ， 然 后 厂商 才 在 产品 中 实现 这 些 特性 。 而 另外 的 情况 下 ， 标 准 或 标准 
的 一 部 分 是 反应 标准 (reactionary standard) ， 因 为 它们 试图 标准 化 一 些 已 经 有 厂商 实现 的 甚至 已 经 成 为 
事实 标准 的 特性 。 在 很 多 方面 SQL-89 是 反应 性 的 ， 因 为 它 对 IBM SAA SQL 标准 以 及 其 他 数据 库 中 已 
经 出 现 的 某 些 特征 (如 完整 性 检查 ) 进行 标准 化 。 

正式 标准 委员 会 通常 包括 厂商 代表 、 用 户 组 成 员 、 来 自 标准 化 组 织 ( 如 国际 标准 化 组 织 (ISO ) 和 美 
国 国家 标准 协会 (ANSI) ) 的 成 员 ， 以 及 来 自 专 业 团 体 ( 如 电子 电气 工程 师 协 会 ( 正 EE) ) 的 成 员 。 正 式 标 
准 委员 会 定期 集会 ， 成员 对 标准 中 的 特性 提出 增加 或 修改 建议 。 在 一 段 ( 通 常 被 延长 的 ) 时 间 的 讨论 、 
修改 建议 以 及 全 体 审 阅 后 ， 成 员 对 是 否 接 受 或 拒绝 某 一 特性 进行 投票 。 标 准 制定 和 实现 后 ， 经 过 一 段 
时 间 ， 其 缺点 会 变 得 明显 ， 新 的 需求 变 得 显著 。 于 是 开始 了 标准 的 更 新 过 程 ， 并 且 通 常 几 年 后 会 发 布 
标准 的 新 版 本 。 这 样 的 循环 通常 每 几 年 重复 一 次 ， 直 到 最 终 ( 也 许 是 很 多 年 以 后 ) 标 准 在 技术 上 变 得 无 
关 紧 要 或 失去 其 用 户 基 础 。 

由 数据 库 任务 组 提出 的 网 状 数据 库 标 准 DBTG CODASYL 是 用 于 数据 库 的 早期 正式 标准 之 一 。 因 为 
IBM 占据 了 数据 库 市 场 的 很 大 份额 ， 所 以 之 前 IBM 数据 库 产品 曾 建立 过 事实 标准 。 随 着 关系 数据 库 的 
发 展 ， 很 多 新 的 竞争 者 加 入 到 数据 库 产业 中 ， 因 此 产生 了 对 正式 标准 的 需求 。 最 近 几 年 ， 微 软 提 出 了 
许多 规范 ， 这 些 也 已 经 成 为 事实 标准 。 著 名 的 例子 是 ODBC， 如 今 在 非 微软 环境 中 也 在 使 用 。Sun 
Microsystems 提出 的 JDBC 规范 ， 是 另 一 个 被 广泛 使 用 的 事实 标准 。 

本 节 从 很 高 的 层次 对 不 同 标准 进行 了 概述 ， 重 点 集中 在 标准 的 目的 上 。 本 章 末 尾 的 文献 注解 给 出 
了 关于 本 节 中 所 提 到 标准 的 详细 描述 的 参考 文献 。 
24.4.1 SQL 标准 

由 于 SQL 是 使 用 最 广泛 的 查询 语言 ， 在 对 其 进行 标准 化 上 人 们 已 经 做 过 很 多 工作 。ANSI 和 ISO, 
以 及 各 家 数据 库 厂商 在 这 项 工作 中 起 到 了 主导 作用 。SQL-86 是 最 初 的 版 本 。IBM 系统 应 用 体系 结构 
(Systems Application Architecture, SAA) AY SQL 标准 于 1987 年 发 布 。 随 着 人 们 对 更 多 特性 的 需求 ， 正 式 
SQL 标准 的 更 新 版 本 SQL-89 和 SQL-92 被 制定 出 来 。 

SQL; 1999 版 本 的 SQL 标准 ， 给 SQL 增加 了 许多 特性 。 在 前 面 章节 中 我 们 已 经 见 到 过 许多 这 样 的 特 
征 。SQL: 2003 版 本 的 SQL 标准 是 对 SQL: 1999 标准 的 细微 扩充 。 一 些 特征 ， 例 如 SQL: 1999 的 OLAP 
特性 ( 见 5. 6.3 节 ) 被 说 明 为 对 SQL: 1999 标准 早期 版 本 的 改善 ， 并 没有 等 到 发 布 在 SQL: 2003 中 。 

SQL: 2003 标准 被 分 为 如 下 几 个 部 分 : 

e 第 1 部 分 : SQL/Framework 给 出 了 对 标准 的 概览 。 

e 第 2 部 分 : SQL/Foundation 定义 了 标准 的 基本 元 素 一 一 类 型 、 模 式 、 表 、 视 图 、 查 询 以 及 更 新 

语句 、 表 达 式 、 安 全 模型 、 谓 词 、 赋 值 规 则 、 事 务 管理 等 。 

。 第 3 部 分 : SQL CLI( 调 用 层 接口 ) 定 义 了 应 用 程序 对 SQL 的 接口 。 

© 第 4 部 分 : SQL/ PSM( 持 久 存储 模块 ) 定 义 了 SQL 的 过 程 性 扩展 。 

。 第 9 部分: SQL/MED( 外 部 数据 管理 ) 定 义 了 SQL 系统 到 外 部 资源 的 接口 标准 。 通 过 书写 包装 

层 ， 系 统 设计 者 可 以 将 外 部 数据 源 如 文件 或 非 关 系数 据 库 中 的 数据 ， 当 做 “外 来 " 表 来 处 理 。 

© 第 10 部 分 : SQL/ OLB( 对 象 语言 绑 定 ) 定 义 了 Java PERA SQL 的 标准 。 

© 第 11 部 分 : SQL/Schemata( 信息 模式 和 定义 模式 ) 定 义 了 标准 目录 接口 。 

。 第 13 部分: SQL/JRT( Java 程序 和 类 型 ) 定义 了 访问 Java 中 程序 和 类 型 的 标准 。 

© 5 14 Bar: SQL/XML se XT XML ARAYA 6 

缺失 部 分 包括 诸如 临时 数据 、 分 布 式 事务 处 理 和 多 媒体 数据 这 样 的 特性 ， 对 此 在 标准 上 还 没有 达 
成 一 致 。 

SQL 标准 的 最 新 版 本 是 SQL: 2006 和 SQL: 2008 ， 前 者 增加 了 几 个 与 XML 相关 的 特性 ， 后 者 引入 
了 许多 对 SQL 语言 的 扩展 。 
24.4.2 ”数据 库 连接 标准 

ODBC 标准 是 广泛 应 用 的 客户 端 应 用 程序 与 数据 库 系 统 之 间 进 行 通信 的 标准 。ODBC 是 基于 X/ 
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Open 行业 协会 和 SQL Access Group 制定 的 SQL 调用 层 接 口 ( Call Level Interface, CLI) 标准 ， 但 有 所 扩 
展 。ODBC API 定义 了 一 个 CLI、 一 个 SQL 语法 定义 和 关于 允许 的 CLI 调用 序列 的 规则 。 该 标准 还 定义 
了 CLI 和 SQL 语法 的 一 致 级 别 。 例 如 ，CLI 核心 级 包括 连接 数据 库 、 准 备 和 执行 SQL 语句 、 取 回 结果 
或 状态 值 以 及 管理 事务 的 命令 。 下 一 个 一 致 级 别 (级 别 1 ) 要 求 支持 对 目录 信息 检索 以 及 其 他 一 些 核心 
级 CLI 之 上 的 特性 ; 级 别 2 要 求 进一步 的 特性 ， 如 发 送 和 检索 参数 值 数 组 以 及 检索 更 加 详细 的 目录 信 
息 的 能 力 。 

ODBC 允许 一 个 客户 端 同时 连接 到 多 个 数据 源 ， 并 在 这 些 数 据 源 之 间 进 行 切换 ,但 各 个 数据 源 上 
的 事务 是 独立 的 ; 0DBC 不 支持 两 阶段 提交 。 

分 布 式 系统 提供 比 客 户 - 服务 器 系统 更 通用 的 环境 。X/Open 协会 也 为 数据 库 互 操作 制定 了 XX/ 
Open XA 标准 (X/Open XA standard)。 这 些 标准 定义 了 兼容 数据 库 应 该 提供 的 事务 管理 原 语 ( 如 事务 开 
始 、 提 交 、 中 止 和 准备 提交 ) 。 事 务 管理 器 可 以 调用 这 些 原 语 ， 利 用 两 阶段 提交 实现 分 布 式 事务 。XA 
标准 独立 于 数据 模型 和 客户 端 与 数据 库 之 间 交 换 数 据 的 特定 接口 。 因 此 ， 我 们 可 以 利用 XA 协议 实现 


分 布 式 事务 系统 ， 在 这 样 的 系统 中 ， 一 个 事务 可 以 既 能 访问 关系 数据 库 又 能 访问 面向 对 象 的 数据 库 ， 
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而 事务 管理 器 通过 两 阶段 提交 保证 全 局 一 致 性 。 

有 许多 数据 源 不 是 关系 数据 库 ， 事 实 上 有 可 能 根本 不 是 数据 库 ， 如 平面 文件 和 邮件 存储 。 微 软 的 
OLE-DB 是 一 个 C++ 应 用 程序 接口 ， 其 目的 与 ODBC 类 似 , 但 是 对 于 非 数 据 库 数 据 源 ， 它 只 提供 有 限 
的 查询 和 更 新 功能 。 与 ODBC 类 似 ，OLE-DB 提供 一 些 结构 ， 用 于 连接 数据 源 、 开 始 会 话 、 执 行 命令 、 
以 行 集 (结果 行 的 集合 ) 的 形式 取 回 结果 。 

但 是 ，OLE-DB 与 ODBC 在 许多 方面 是 不 同 的 。 为 了 支持 提供 有 限 特征 的 数据 源 ，OLE-DB 的 特征 
分 为 许多 接口 ， 一 个 数据 源 可 以 只 实现 接口 的 一 个 子 集 。OLE-DB 程序 可 以 与 数据 源 协 商 ， 找 到 数据 
源 支持 的 接口 。 在 ODBC 中 ， 命 令 都 是 在 SQL 中 。 在 OLE-DB 中 ， 命 令 可 以 在 数据 源 支 持 的 任何 语言 
中 。 有 些 数据 源 可 能 支持 SQL， 或 者 SQL 的 一 个 受 限 子 集 ， 而 其 他 数据 源 可 能 只 提供 简单 的 功能 ， 如 
访问 平面 文件 中 的 数据 ， 却 不 提供 任何 查询 功能 。OLE-DB 与 ODBC 的 另 一 个 主要 区 别 在 于 ，OLE-DB 
的 行 集 是 一 个 可 以 通过 共享 内 存 被 多 个 应 用 程序 共享 的 对 象 。 一 个 行 集 对 象 可 以 被 某 个 应 用 程序 更 新 ， 
其 他 共享 该 对 象 的 应 用 程序 将 被 告知 这 个 改变 。 

同样 ， 由 微软 创建 的 活动 数据 对 象 ( Active Data Object, ADO) 应 用 程序 接口 提供 了 一 个 易于 使 用 的 
OLE-DB 功能 接口 ， 可 以 从 脚本 语言 (如 VBScript 和 JScript) 中 进行 调用 。 更 新 的 ADO. NET 应 用 程序 
接口 是 为 用 诸如 C# 和 Visual Basic. NET 那样 的 . NET 语言 编写 的 应 用 程序 而 设计 的 。 除 了 提供 简化 的 
接口 ， 它 还 提供 了 称 为 数据 集 的 抽象 概念 ， 人 允许 断 开 连接 的 数据 访问 
24.4.3 对象 数据 库 标 准 

面向 对 象 数据 库 领 域 中 的 标准 到 目前 为 止 主要 是 由 OODB 厂商 驱动 的 。 对 象 数据 库 管理 组 ( Object 
Database Management Group, ODMG) 是 由 OODB 厂商 组 成 的 、 对 OODB 数据 模型 和 语言 接口 进行 标准 
化 的 团体 。ODMG 所 定义 的 C++ 语言 接口 已 在 第 22 章 中 进行 了 概述 。0DMG 已 不 再 活跃 。JDO 是 为 
Java 增加 持久 性 的 标准 。 

对 象 管理 组 ( Object Management Group，OMG) 是 由 公司 组 成 的 一 个 协会 ， 其 目标 是 制定 基于 面向 
对 象 模型 的 分 布 式 软件 应 用 的 标准 体系 结构 。OMG 提出 了 对 象 管理 体系 结构 (OMA ) 参 考 模型 。 对 象 请 
求 代理 (ORB) 是 OMA 体系 结构 中 的 一 个 组 件 ， 它 为 分 布 式 对 象 提供 透明 的 消息 分 发 ， 因 而 对 象 的 物 
理 位 置 无 关 紧 要 。 通 用 对 象 请 求 代理 体系 结构 (Common Object Request Broker Architecture, CORBA) 为 
ORB 提供 了 详细 的 说 明 ， 还 包括 了 用 于 定义 数据 交换 中 所 采用 数据 类 型 的 接口 描述 语言 ( Interface 
Description Language，IDL) 。 当 数据 在 数据 表示 不 同 的 系统 间 传 递 时 ，IDL 有 助 于 提供 数据 转换 。 

微软 提出 了 实体 数据 模型 (entity data model) ， 它 结合 了 实体 联系 和 面向 对 象 数据 模型 的 思想 ， 以 
及 一 个 称 作 语 言 集成 查询 (Language Integrated Querying 或 LINQ) 的 方法 ， 该 方法 用 于 把 查询 集成 到 编程 
语言 中 。 这 些 很 有 可 能 会 成 为 事实 标准 。 

24.4.4 基于 XML 的 标准 
人 们 为 多 种 不 同 的 应 用 定义 了 大 量 不 同 的 基于 XML( 见 第 23 BE) 的 标准 。 这 些 标准 中 有 许多 都 与 
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电子 商务 有 关 。 它 们 包括 非 和 盈利 团体 发 布 的 标准 以 及 企业 为 建立 事实 标准 而 付出 的 努力 。 

RosettaNet 属于 前 者 ， 它 是 一 个 工业 协会 利用 基于 XML 的 标准 来 帮助 计算 机 与 信息 技术 产业 中 的 
供应 链 管理 。 供 应 链 管理 指 购买 机 构 运 行 所 需要 的 材料 和 服务 。 相 反 ， 顾 客 关系 管理 指 公 司 交互 的 前 
端 ， 是 与 客户 打交道 的 。 供 应 链 管理 要 求 很 多 事情 的 标准 化 ， 例 如 ; 

e 全 局 公司 标识 (global company identifier); RosettaNet 指明 唯一 识别 公司 的 系统 ， 使 用 9 位 数字 

的 标识 符 ， 称 作 数 据 通用 编号 方式 系统 (DUNS ) 。 

e 全 局 产品 标识 ( global product identifier) ; RosettaNet 指明 了 一 个 14 位 数字 的 全 局 商业 项 目 编 号 
(GTIN) ， 用 于 标识 产品 和 服务 。 

© 全 局 类 别 标识 ( global class identifier): 这 是 一 个 称 作 联合 国 /标准 产品 和 服务 码 ( UN/SPSC) 的 10 
位 数字 层次 编码 ， 用 于 对 产品 和 服务 进行 分 类 ， 

e 贸易 伙伴 之 间 的 接口 (interface between trading partners): RosettaNet 伙伴 接口 过 程 (PIP) 定 义 了 
伙伴 之 间 的 商业 过 程 。PIP 是 基于 XML 的 系统 对 系统 的 会 话 : 它们 定义 了 处 理 过 程 所 涉及 的 商 
业 文档 格式 和 语义 以 及 完成 事务 所 采取 的 步骤 。 作 为 例子 ， 这 些 步 又 可 能 包括 获得 产品 和 服务 
的 信息 、 购 货 订单 、 订 单 货品 计价 、 付 款 、 订 单 状 态 请 求 、 存 货 管 理 、 包 括 服务 担保 在 内 的 售 
后 支持 等 。 设 计 、 配 置 、 处 理 过 程 和 质量 信息 的 交换 还 有 可 能 协调 跨 机 构 的 制造 活动 。 

电子 市 场 的 参与 者 可 能 将 数据 存储 在 多 种 数据 库 系统 中 。 这 些 系统 可 能 使 用 不 同 的 数据 模型 、 数 
据 格式 和 数据 类 型 。 此 外 ， 数 据 间 可 能 存在 语义 差异 (公制 对 英制 ,不同 流通 货币 ， 等 等 )。 电 子 市 场 
的 标准 包括 使 用 XML 模式 包装 每 个 这 样 的 异 构 系 统 的 方法 。 这 些 XML 包装 器 为 分 布 在 所 有 市 场 参与 
方 的 数据 建立 了 统一 视图 的 基础 。 

简单 对 象 访问 协议 (Simple Object Access Protocol, SOAP) 是 一 种 远程 过 程 调用 标准 ， 它 使 用 XML 
编码 数据 (参数 和 结果 ) ， 利 用 HTTP 作为 传输 协议 。 这 样 ， 函 数 调用 就 成 为 一 个 HTTP 请 求 。SOAP 由 
万 维 网 联盟 (W3C) 支 持 ， 并 且 获 得 了 产业 界 的 广泛 支持 。SOAP 可 用 于 各 种 应 用 。 例 如 ， 在 B2B 的 电 
子 商务 中 ， 在 某 个 站 点 上 运行 的 应 用 程序 可 以 通过 SOAP 访问 其 他 站 点 上 的 数据 并 执行 动作 

在 23.7.3 节 已 经 详细 介绍 了 SOAP 和 Web 服务。 


24.5 Be 


© 调整 数据 库 系 统 参 数 和 更 高 级 别 的 数据 库 设 计 ( 如 模式、 索引 和 事务 ) 对 于 实现 高 性 能 至 关 重 要 。 查 

询 可 以 进行 调整 以 提高 集合 面向 性 ， 而 批量 加 载 功能 可 以 大 大 加 快 数据 导 入 到 数据 库 中 的 速度 ， 
调整 的 最 好 办 法 是 确定 瓶颈 所 在 ， 然 后 消除 瓶颈 。 数 据 库 系统 通常 有 多 种 可 调 参数 ， 如 缓冲 区 

大 小 、 内 存 大 小 和 磁盘 数量 。 可 以 选择 适当 的 索引 和 物化 视图 集合 ， 以 使 总 体 代 价 达到 最 小 。 可 以 
调整 事务 使 锁 竞争 达到 最 小 。 快 照 隔离 和 支持 早期 锁 释放 的 序号 编号 功能 是 减少 读 写 和 写 写 莞 争 的 
有 用 工具 。 

© 性 能 基准 程序 在 对 数据 库 系统 进行 比较 方面 扮演 了 重要 的 角色 ， 尤 其 在 数据 库 系统 变 得 越 来 越 与 标 

准 兼容 时 。TPC 基准 程序 集 使 用 广泛 ， 不 同 的 TPC 基准 程序 可 以 用 于 不 同 工 作 负载 下 的 数据 库 系 统 

性 能 的 比较 。 

应 用 程序 在 开发 时 和 部 署 前 需要 进行 大 量 的 测试 。 测 试 是 用 来 捕获 错误 的 ， 以 及 确保 达到 性 能 目标 

遗产 系统 是 基于 老 一 代 技 术 ( 如 非 关 系数 据 库 或 甚至 直接 基于 文件 系统 ) 的 系统 。 当 运行 关键 任务 系 

统 时 ， 遗 产 系统 与 新 一 代 系 统 之 间 的 连接 通常 是 很 重要 的 。 从 遗产 系统 到 新 一 代 系 统 的 移植 必须 非 

常 小 心 以 避免 破坏 ， 这 种 移植 是 非常 昂贵 的 。 

由 于 数据 库 系 统 的 复杂 性 和 互 操 作 的 需要 ， 标 准 对 数据 库 系 统 来 说 很 重要 。SQL 有 其 正式 标准 。 事 

实 标准 (如 ODBC FN JDBC) 和 被 行业 组 织 所 采纳 的 标准 (如 CORBA), ERP - 服务 器 数据 库 系统 的 

发 展 中 发 挥 了 重要 作用 。 


术语 回顾 
。 性 能 调整 。 面向 集合 o 批 处 理 更 新 ( JDBC) 
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。 批量 加 载 。 小 型 批 处 理事 务 。 遗产 系统 
。 批量 更 新 。 性 能 模拟 。 逆向 工程 
。 合并 语句 。 性 能 基准 程序 。 工程 再 设计 
。 瓶颈 © 服务 时 间 。 标准 化 
© 队列 系统 。 完成 时 间 正式 标准 
。 可 调 参 数 。 数据 库 应 用 类 型 口 事实 标准 
。 硬件 调整 。 TPC 基准 程序 口 预见 标准 
。 五 分 钟 规则 TPC-A 口 反应 标准 
e 一 分 钟 规则 J TPC-B 。 数据 库 连 接 标 准 
。 模式 调整 TPC-C ODBC 
。 索引 调整 TPC-D O OLE-DB 
。 物化 视图 口 TPC-E T X/Open XA 标准 
。 立即 视图 维护 TPC-H 。 对 象 数据 库 标 准 
。 延迟 视图 维护 o 每 秒 的 网 络 交互 数 ODMG 
。 事务 调整 。 回归 测试 CORBA 
。 锁 竞 争 。 消灭 突变 e 基于 XML 的 标准 
。 序号 
实践 习题 
24.1 很 多 应 用 程序 需要 产生 每 个 事务 的 序列 号 。 
[1057] a 如 果 一 个 序号 计数 器 采用 两 段 封锁 协 议 ， 可 能 成 为 一 个 并 发 瓶颈 。 解 释 产 生 这 种 情况 的 原因 。 





b. 很 多 数据 库 系统 支持 内 置 的 序号 计数 器 ， 采 用 非 两 阶段 封锁 协议 ; 当 一 个 事务 请 求 一 个 序号 时 ， 
计数 器 上 锁 ， 累 加 ， 然 后 解锁 。 
i 解释 这 样 的 计数 器 如 何 提高 并 发 度 。 
ii, 解释 在 最 终 提交 事务 的 序号 之 间 存 在 空缺 的 原因 。 

24.2 ”假设 给 定 一 个 关系 r(a ,0 ，c) 。 

a. 给 出 一 个 例子 ， 说 明 什么 情况 下 在 属性 c 上 的 等 值 选 择 查 询 的 性 能 会 受 关系 7 是 如 何 聚 集 的 影响 

很 大 。 

. 假设 还 有 在 属性 5 上 的 范围 选择 查询 。r 如 何 聚 集会 使 ra 上 的 等 值 选择 查询 和 7.b 上 的 范围 选择 

查询 都 能 高 效 地 回答 ? 请 解释 你 的 答案 。 
co 如 果 上 述 聚 集 方法 是 不 可 能 的 ， 给 出 一 个 建议 ， 如 何 通过 选择 合适 的 索引 使 两 种 类 型 查询 都 能 高 

效 执行 ， 假 设 你 的 数据 库 支 持 只 有 索引 的 计划 ( 即 如 果 一 个 查询 请 求 的 所 有 信息 在 一 个 索引 上 都 可 
获得 ， 那 么 数据 库 能 产生 一 个 只 使 用 索引 而 不 需 访问 关系 的 执行 计划 ) 。 

24.3 ”假设 数据 库 应 用 程序 看 起 来 没有 瓶颈 ， 即 CPU 和 磁盘 使 用 率 都 较 高 ， 且 所 有 数据 库 队 列 大 致 平衡 。 
那 是 否 意味 着 应 用 程序 就 不 能 进一步 调整 性 能 ”解释 你 的 答案 。 

24.4 假设 一 个 系统 运行 三 种 类 型 的 事务 。A 类 事务 以 50/s 的 速度 运行 ，B 类 事务 以 100/s 的 速度 运行 ，C 
类 事务 以 200/s 的 速度 运行 ， 假 设 混合 事务 中 包含 25% 的 A 类 事务 ，25% 的 B 类 事务 ，50% 的 CH 
事务 。 

a. 假设 事务 之 间 没 有 干扰 ， 系 统 的 平均 事务 吞吐 率 是 多 少 ? 
b. 什么 因素 会 导致 不 同类 型 的 事务 之 间 的 干扰 ， 以 至 于 计算 得 到 的 吞吐 率 不 正确 ? 

24.5 列 出 预见 标准 和 反应 标准 相 比 的 优点 和 缺点 。 


习题 


24.6 找 出 你 特别 喜爱 的 数据 库 提 供 的 所 有 性 能 信息 。 至 少 找 出 以 下 这 些 : 有 哪些 当前 正在 执行 或 者 最 近 执 
行 过 的 查询 ， 它 们 各 消耗 了 哪些 资源 (CPU RIO), 哪些 页 面 片段 的 请 求 导致 了 缓冲 区 遗漏 ( 可 能 的 
话 针对 每 个 查询 ) ， 哪 些 锁 被 高 度 争夺 。 你 还 可 以 从 操作 系统 上 获得 关于 CPU 和 LO 使 用 率 的 信息 。 
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24.7 a 调节 数据 库 系 统 的 哪 三 个 主要 层次 可 以 提高 性 能 ? 
b。 对 每 个 层次 请 举 出 两 个 例子 说 明 调节 是 如 何 进行 的 。 

24.8 当 进 行 性 能 调整 时 ， 应 该 首先 调整 硬件 (通过 增加 磁盘 或 者 内 存 ) ， 还 是 应 该 首先 调整 事务 ( 通过 增加 
索引 或 者 物化 视图 ) 。 解 释 你 的 答案 。 

24.9 假设 你 的 应 用 程序 有 这 样 的 事务 : 每 个 事务 访问 并 更 新 存储 在 BS 树 文 件 组 织 的 大 关系 中 的 单个 元 组 。 
假定 B* 树 的 所 有 内 部 结 点 都 在 内 存 中 ,但 只 有 非常 少量 的 叶子 页 面 能 放 进 内 存 。 解 释 如 何 计算 支持 
每 秒 钟 1000 个 事务 的 工作 负载 最 少 需要 的 磁盘 数 。 利 用 10.2 节 给 出 的 磁盘 参数 值 ， 计 算 需 要 的 磁 
盘 数 。 

24.10 ”将 一 个 长 事务 分 割 成 一 系列 小 事务 的 动机 是 什么 ”其 结果 会 引发 什么 问题 ?这些 问 题 如 何 避 免 ? 

24. 11 假设 内 存 价格 下 降 一 半 ， 磁 盘 访 问 速度 (每 秒 的 访问 次 数 ) 加 倍 ， 其 他 因素 保持 不 变 。 此 改变 对 于 5 
分 钟 规则 和 1 分 钟 规则 将 会 有 什么 影响 ? 

24.12 Fiji) TPC 基准 程序 的 至 少 4 个 有 助 于 得 到 实际 的 和 可 信赖 的 评测 结果 的 特性 。 

24. 13 ”TPC-D 基准 程序 为 什么 会 被 TPC-H 和 TPC-R 基准 程序 所 替代 ? 

24.14 解释 应 用 程序 的 哪些 特性 有 助 于 你 决定 最 好 选择 TPC-C、TPC-H 和 TPC-R 中 的 哪个 来 对 应 用 程序 进 
行 建 模 。 


文献 注解 


Kleinrock[ 1975 ] 是 关于 排队 论 的 经 典 教科 书 。 

数据 库 系统 基准 程序 的 一 个 早期 建议 (Wisconsin 基准 程序 ) 由 Bitton 等 [1983 ] 提出 。TPC-A、TPC-B 和 
TPC-C 基准 程序 在 Gray[ 1991 ] 里 介绍 。 所 有 TPC 基准 程序 描述 以 及 基准 程序 结果 的 联机 版 本 可 以 在 URL 为 
www. tpc. org 的 万 维 网 上 获得 ; 该 站 点 还 包含 有 关 新 基准 程序 建议 的 最 新 信息 。00DB 的 001 基准 程序 在 
Cattell 和 Skeen[ 1992 ] 中 描述 ; 007 基准 程序 在 Carey 等 [1993 ] 中 描述 。 

Shasha 和 Bonnet[ 2002 ] 提 供 了 数据 库 调整 方面 的 详细 报告 。0’Neil 和 0’Neil[2000] 是 一 本 很 好 地 描述 了 
性 能 度量 和 调整 的 教科 书 。Gray 和 Graefe[ 1997 ] 描 述 了 5 分 钟 规 则 和 1 分 钟 规则 ，Graefe[ 2008 | HITT FE Fl) 
考虑 了 主 存 、 闪 存 和 磁盘 的 组 合 。 

Ross 等 [1996 ] | Chaudhuri 和 Narasayya[ 1997 ] 、Agrawal 等 [2000 ] 和 Mistry 等 [2001 ] 中 讨论 了 索引 选择 
和 物化 视图 选择 。Zilio 等 [2004 ] Dageville 等 [2004 | 和 Agrawal 等 | 2004 | 中 描述 了 IBM DB2 Oracle 和 
Microsoft SQL Server 支持 的 调整 功能 。 

有 关 ODBC, OLE-DB, ADO 和 ADO. NET 的 信息 可 以 在 Web 站 点 www. microsoft. com/data 中 找到 ， 并 且 
有 关 该 主题 的 许多 书籍 可 以 通过 www. amazon. com 找到 。 每 季 发 行 的 ACM Sigmod Record 中 有 一 个 常规 章节 
用 于 讲述 数据 库 中 的 标准 。 

基于 XML 的 标准 和 工具 的 大 量 信息 可 以 在 Web 站 点 www. w3c. org 在 线 找到 。 有 关 RosettaNet 的 信息 可 
以 在 Web 站 点 www. rosettanet org 找到 。 

Cook[ 1996 ] 讲述 了 商务 处 理 的 工程 再 设计 。Umar[ 1997 ] 讲述 了 工程 再 设计 和 遗产 系统 处 理 中 的 问题 。 
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在 数据 库 的 大 部 分 历史 中 ， 存储 在 数据 库 中 的 数据 类 型 相对 简单 ， 这 可 以 从 SQL 的 早期 版 本 只 支 
持 非常 有 限 的 数据 类 型 上 反映 出 来 。 但 是 ， 随 着 时 间 的 流逝 ， 在 数据 库 中 处 理 诸如 时 态 数据 、 空 间 数 
据 和 多 媒体 数据 那样 的 复杂 数据 类 型 的 需求 不 断 增 涨 。 

另 一 个 主要 趋势 造就 了 其 自身 的 一 些 问题 : 移动 计算 机 的 发 展 ， 从 膝 上 型 计算 机 和 袖珍 管理 器 开 
始 ， 最 近 几 年 发 展 成 为 带 有 内 置 计算 机 的 移动 电话 ， 以 及 在 商业 应 用 中 越 来 越 多 地 使 用 的 各 种 可 佩戴 
计算 机 。 

在 本 章 中 ,我 们 学 习 几 种 数据 类 型 ， 以 及 与 这 些 应 用 相关 的 另外 一 些 数据 库 问题 。 


25.1 动机 


在 详细 阐述 每 个 主题 之 前 ， 我们 总 结 一 下 各 种 数据 类 型 的 动机 ， 以 及 在 处 理 它们 时 的 一 些 重要 
问题 。 

© 时 态 数据 (temporal data) 。 大 多 数 数据 库 系统 对 世界 的 当前 状态 建 模 ， 比 如 当前 的 客户 、 当 前 
的 学 生 和 当前 提供 的 课程 。 在 许多 应 用 中 ， 存 储 和 检索 有 关 过 去 状态 的 信息 非常 重要 。 历 史 信 
息 可 以 手工 加 入 到 模式 设计 中 。 但 是 ， 这 项 工作 可 以 通过 数据 库 对 时 态 数据 的 支持 而 大 大 简 
化 ， 我 们 将 在 25. 2 节 学 习 时 态 数据 。 

© 空间 数据 (spatial data) 。 空 间 数 据 包括 地 理 数 据 ( geographic data) ， 如 地 图 和 相关 信息 ， 以 及 计 
算 机 辅助 设计 数据 (computer-aided-design data) ， 如 集成 电路 设计 或 者 建筑 设计 。 空 间 数 据 应 用 
最 初 将 数据 作为 文件 保存 到 文件 系统 中 ， 这 和 早期 的 商务 应 用 相同 。 但 是 随 着 数据 复杂 度 和 数 
据 量 ， 以 及 用 户 数量 的 增加 ， 在 文件 系统 中 存储 和 检索 数据 的 即席 方式 已 被 证 明 不 能 满足 许多 
使 用 空间 数据 应 用 的 需求 。 

空间 数据 应 用 需要 数据 库 系 统 提供 的 功能 一 一 尤其 是 有 效 存 储 和 查询 大 量 数据 的 能 力 。 一 

些 应 用 可 能 还 需要 其 他 的 数据 库 特 性 ， 如 对 被 存储 数据 的 某 个 部 分 进行 原子 更 新 、 持 久 性 以 及 
并 发 控制 。 在 25. 3 节 中 ， 我 们 学 习 为 支持 空间 数据 而 需要 对 传统 数据 库 进 行 的 扩展 。 

© 多 媒体 数据 (multimedia data) 。 在 25. 4 节 中 ， 我 们 学 习 存储 诸如 图 像 、 视 频 和 音频 数据 这 样 的 
多 媒体 数据 的 数据 库 系统 所 需要 的 特性 。 视 频 和 音频 数据 的 显著 特性 是 显示 这 些 数据 要 求 数据 
检索 具有 稳定 的 、 可 预先 确定 的 速率 ; 因此 ， 这 样 的 数据 称 作 连续 媒体 数据 ( continuous-media 
data) 。 

© 移动 数据 库 ( mobile database) 。 在 25. 5 节 中 ， 我 们 学 习 移 动 计算 系统 对 数据 库 的 要 求 ， 移 动 计 
算 系 统 包括 膝 上 型 计算 机 、 上 网 本 电脑 和 高 端 手机 等 ， 它 们 通过 无 线 数字 通信 和 网络 连接 到 基 
站 。 这 种 计算 机 与 第 19 章 讨论 的 分 布 式 数据 库 系统 不 同 ， 在 和 网 络 断 开 连 接 的 时 候 仍 需要 能 
够 运行 。 它 们 也 只 具备 有 限 的 存储 能 力 ， 这 就 需要 特殊 的 内 存 管理 技术 。 


25.2 数据 库 中 的 时 间 


数据 库 对 其 外 部 真实 世界 的 某 些 方面 的 状态 进行 建 模 。 一 般 而 言 ， 数据 库 只 对 真实 世界 的 一 个 状 
态 一 一 当前 状态 建 模 ， 不 会 保存 有 关 过 去 状态 的 信息 ， 除 非 可 能 用 作 审 计 跟踪 。 当 真实 世界 的 状态 改 
变 了 ,数据 库 被 更 新 ， 有 关 过 去 状态 的 信息 就 丢失 了 。 但 是 ， 在 许多 应 用 中 ， 存 储 和 检索 过 去 状态 的 
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信息 非常 重要 。 例 如 ， 病 人 数据 库 必须 保存 关于 病人 医疗 历史 的 信息 。 工 厂 监控 系统 可 能 保存 关于 工 
厂 中 传感器 当前 和 过 去 的 读 入 的 信息 以 用 于 分 析 。 存 储 关 于 真实 世界 的 时 间 经 历 状态 的 信息 的 数据 库 
叫做 时 态 数据 库 (temporal database ) 。 

在 考虑 数据 库 系 统 中 的 时 间 问 题 时 ， 我 们 必须 区 分 出 系统 中 测量 的 时 间 和 真实 世界 中 观察 到 的 时 
间 。 一 个 事实 的 有 效 时 间 (valid time) 是 一 个 时 间 段 的 集合 ， 在 这 些 时间 段 内 该 事实 在 现实 世界 中 为 真 。 
一 个 事实 的 事务 时 间 (transaction time) 是 该 事实 当前 处 于 数据 库 系 统 中 的 时 间 段 。 后 一 种 时 间 基 于 事务 
串 行 化 顺序 并 由 系统 自动 产生 。 注 意 有 效 时 间 段 是 一 个 真实 世界 中 的 概念 ， 它 不 能 自动 产生 且 必 须 提 
供给 系统 。 

时 态 关 系 (temporal relation) 的 每 个 元 组 具有 一 个 该 元 组 为 真 时 的 相关 时 间 ， 这 个 时 间 可 以 是 有 效 
时 间或 事务 时 间 。 当 然 ， 可 以 同时 存储 有 效 时 间 和 事务 时 间 ， 这 种 情况 下 的 关系 称 为 双 时 态 关系 
(bitemporal relation), Æ| 25-1 显示 了 一 个 时 态 关 系 的 例子 。 为 了 简化 表示 ， 每 个 元 组 只 有 一 个 与 之 相 
关联 的 时 间 段 ， 因 此 ， 对 应 于 每 个 元 组 为 真 的 互 不 相交 的 各 个 时 间 段 ， 只 存在 元 组 的 一 次 表示 。 这 里 
的 时 间 段 是 用 一 对 .rom 和 to 属性 来 表示 的 ， 实 际 实现 时 可 能 会 有 一 个 包含 这 两 个 字段 的 结构 类 型 ， 也 
许 叫 做 Interval。 注 意 有 些 元 组 在 to 时 间 列 上 出 现 ” * ”， 这些 星 号 表明 元 组 在 to 时 间 列 的 值 发 生 改 变 之 
前 一 直 为 真 。 因 此 ， 这 些 元 组 当前 为 真 。 尽 管 时 间 以 文本 形式 给 出 ， 但 是 在 内 部 存储 时 可 以 采取 更 紧 
凑 的 形式 ， 例 如 可 以 存储 从 某 个 固定 日 期 的 某 一 固定 时 刻 ( 比如 1900 年 1 月 1 日 12:00) 起 所 经 过 的 秒 
数 ， 而 秒 数 可 以 转换 回 通常 的 文本 形式 。 
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25. 2.1 SQL 中 的 时 间 规 范 

如 我 们 在 第 4 FEAT IL, SQL 标准 定义 了 date, time 和 timestamp 类 型 。date 类 型 包含 表示 年 的 四 
位 数字 (1 ~ 9999) 、 表 示 月 的 两 位 数字 (1 ~ 12) 和 表示 日 的 两 位 数字 (1 ~31) 。time 类 型 包含 表示 小 
时 的 两 位 数字 表示 分 钟 的 两 位 数字 、 表 示 秒 的 两 位 数字 以 及 可 选 的 小 数位 。 秒 字段 可 以 超过 60, Lise 
许 润 秒 的 情况 。 由 于 地 球 旋 转速 度 存 在 微小 变化 ， 在 有 些 年 里 需要 增加 润 秒 来 进行 校准 。timestamp 
类 型 包含 date 和 time 字段 ， 其 中 秒 字 段 上 有 六 位 小 数 。 

因为 世界 上 的 不 同 地 区 有 不 同 的 本 地 时 间 ， 经 常 需要 指出 时 间 所 在 的 时 区 。 全 球 协调 时 间 
( Universal Coordinated Time, UTC) 是 指定 时 间 的 标准 参考 点 ， 而 本 地 时 间 被 定义 成 UTC 的 偏 移 。( 这 
个 标准 的 简写 是 UTC ， 而 不 是 UCT， 因 为 “Universal Coordinated Time” 在 法 语 中 被 写作 “universel temps 
coordonné”， 而 它 是 法 语 的 简写 ,)SQL 还 支持 time with time zone 和 timestamp with time zone 两 种 类 
型 ， 它 们 用 本 地 时 间 加 上 本 地 时 间 对 UTC 的 偏 移 来 指定 时 间 。 例 如 ， 我 们 可 以 用 美国 东部 标准 时 间 和 
偏 移 -6: 00 来 表示 时 间 ， 因 为 美国 东部 标准 时 间 比 UTC 晚 六 个 小 时 。 

SQL 支持 一 种 叫做 interval 的 类 型 ， 它 使 我 们 可 以 表示 像 “ 一 天 ”或 者 “两 天 零 五 个 小 时 ”这 样 的 一 
段 时 间 ， 而 无 需 指 出 这 段 时 间 何 时 开始 。 这 个 概念 和 以 前 我 们 用 到 的 时 间 段 概念 不 同 ， 前 面 提 到 的 时 
间 段 是 指 有 指定 开始 和 结束 时 间 的 一 段 时 间 。” 

25.2.2 ”时 态 查 询 语言 
没有 时 态 信息 的 数据 库 关系 有 时 叫做 快照 关系 (snapshot relation) ， 因 为 它 反 映 了 现实 世界 的 一 个 





O 许多 时 态 数据 库 研究 者 认为 ， 这 种 类 型 应 该 称 为 跨度 ( span) ， 因 为 它 并 不 指明 确切 的 开始 或 结束 时 间 ， 只 是 两 
者 之 间 的 一 个 时 间 跨 度 。 
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快照 中 的 状态 。 因 此 ， 时 态 关 系 在 时 间 点 上 的 快照 是 关系 中 在 上 时 刻 为 真 的 元 组 通过 投影 去 除 时 间 段 属 
性 后 的 集合 。 时 态 关系 上 的 快照 操作 产生 该 关系 在 指定 时 刻 (或 者 在 不 指定 时 刻 的 情况 下 就 指 当 前 时 
刻 ) 的 快照 。 

时 态 选 择 (temporal selection) 是 涉及 时 间 属 性 的 选择 ; 时 态 投影 (temporal projection ) 是 一 种 投影 ， 
其 中 的 元 组 继承 了 原始 关系 中 相应 元 组 的 时 间 。 时 态 连接 (temporal join) 是 一 种 连接 ， 连 接 结果 中 元 组 
的 时 间 是 产生 该 元 组 的 两 个 元 组 的 时 间 的 交 。 如 果 时 间 不 相交 ， 则 从 结果 中 去 除 该 元 组 。 

谓词 precedes. overlaps 和 contains 可 以 用 在 时 间 段 上 ， 它 们 的 含义 应 该 很 明显 。interseci 运算 可 以 用 
在 两 个 时 间 段 上 ， 得 到 单个 (可 能 为 空 ) 的 时 间 段 。 然 而 ， 两 个 时 间 段 的 并 可 能 是 单个 时 间 段 ， 也 可 能 
不 是 。 

如 我 们 在 8. 9 节 所 见 ， 在 时 态 关 系 中 使 用 函数 依赖 必须 小 心 。 尽 管 任 一 给 定时 刻 教师 号 可 以 函数 
决定 其 工资 , 但 显然 工资 可 能 随时 间 发 生变 化 。 如 果 对 模式 R 的 所 有 合法 实例 7 而 言 ,r 的 所 有 快照 都 
满足 函数 依赖 和 一 了 ， 则 说 时 态 函 数 依赖 ( temporal functional dependency) 一 了 在 关系 模式 R 上 成 立 。 

人 们 已 经 提出 了 一 些 扩展 SQL 以 增强 其 对 时 态 数据 支持 的 建议 。 但 至 少 到 SQL: 2008 为 止 ， 除 与 
时 间 相 关 的 数据 类 型 和 操作 以 外 ，SQL 还 没有 提供 任何 对 时 态 数据 的 特殊 支持 。 


2.3 空间 与 地 理 数 据 


数据 库 支 持 空间 数据 对 于 有 效 存 储 、 索 引 以 及 查询 基于 空间 位 置 的 数据 非常 重要 。 例 如 ， 假 设 我 
们 希望 在 数据 库 中 存储 一 组 多 边 形 ， 然 后 查询 该 数据 库 以 找 出 与 给 定 多 边 形 相交 的 所 有 多 边 形 。 我 们 
不 能 使 用 标准 的 索引 结构 (如 B 树 或 散 列 索引 ) 来 有 效 地 回答 这 样 的 查询 。 有 效 处 理 上 述 查 询 需 要 专用 
的 索引 结构 如 R 树 (我 们 将 在 后 面 学 习 ) 来 执行 这 个 任务 。 
有 两 种 类 型 的 空间 数据 特别 重要 : 
© 计算 机 辅助 设计 ( Computer-Aided-Design, CAD) 数据 ， 它 包括 关于 物体 (如 建筑 、 汽 车 或 飞机 ) 
是 如 何 构造 的 空间 信息 。 另 外 的 有 关 计 算 机 辅助 设计 数据 库 的 重要 例子 是 集成 电路 和 电子 设备 
规划 。 
© 地 理 数据 (geographic data), ， 例 如 道路 图 、 土 地 利用 图 、 地 形 海拔 图 、 显 示 边 界 的 政治 用 地 图 、 
土地 所 有 权 地 图 等 。 地 理 信息 系统 ( geographic information system) 是 为 存储 地 理 数 据 而 定制 的 专 
用 数据 库 。 
许多 数据 库 系 统 都 增加 了 对 地 理 数据 的 支持 ， 如 IBM DB2 Spatial Extender, Informix Spatial 
Datablade 和 Oracle Spatial。 


25.3.1 几何 信息 表示 

图 25-2 说 明了 各 种 几何 结构 如 何以 规范 化 的 形式 在 数据 库 中 表示 。 我 们 这 里 要 强调 的 是 ， 几 何 信 
息 的 表示 可 以 用 多 种 不 同方 式 ， 我 们 只 描述 了 其 中 的 几 种 。 

线段 可 以 由 其 端点 的 坐标 表示 。 比 如 ， 在 一 个 地 图 数据 库 中 ， 一 个 点 的 两 个 坐标 可 以 是 它 的 纬度 
和 经 度 。 折 线 ( polyline) (也 叫 线 串 (linestring) ) 由 相连 的 线段 序列 组 成 ， 可 以 由 一 个 包含 线段 端点 坐标 
的 顺序 列表 来 表示 。 对 于 任意 曲线 ， 我 们 可 以 将 它 划 分 成 一 个 线段 序列 ， 从 而 用 折线 来 近似 地 表示 。 
这 种 表示 对 二 维特 征 ( 如 道路 ) 是 有 用 的 ; 这 里 ， 道 路 的 宽度 相对 于 整 张 地 图 的 大 小 来 说 是 足够 小 的 ， 
可 以 将 其 认为 是 一 条 线 。 有 些 系 统 还 将 圆 绝 作为 原 语 ， 允 许 将 曲线 表示 为 圆 弧 序列 。 

我 们 可 以 通过 按 顺 序列 出 多 边 形 的 顶点 来 表示 多 边 形 ， 如 图 25-2 所 示 。” 顶 点 的 列表 指出 了 多 边 
形 区 域 的 边界 。 在 另 一 种 表示 方式 中 ， 多 边 形 可 以 分 割 成 一 组 三 角形 ， 如 图 25-2 所 示 。 该 过 程 称 为 三 
FARIS} (triangulation) ， 任 意 多 边 形 都 可 以 被 三 角 训 分 。 复 杂 多 边 形 被 赋予 一 个 标识 ， 它 所 分 割 出 来 的 
每 个 三 角形 都 具有 该 多 边 形 的 标识 。 圆 和 椭圆 可 以 由 相应 类 型 来 表示 ， 也 可 以 用 多 边 形 来 近似 表示 。 

基于 列表 的 折线 或 多 边 形 表示 对 于 查询 处 理 往往 很 方便 。 当 底层 数据 库 支 持 时 ， 这 种 非 一 范式 表 





日 ”一些 参考 文献 里 使 用 闭合 多 边 形 这 个 术语 来 表示 我 们 所 说 的 多 边 形 ， 并 称 折 线 为 开放 多 边 形 。 
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示 也 可 以 使 用 。 因 此 我 们 可 以 使 用 固定 大 小 的 元 组 (以 第 一 范式 形式 ) 表 示 折 线 ， 我 们 可 以 赋予 折线 或 
曲线 一 个 标识 ， 每 条 线段 用 一 个 单独 的 元 组 表示 ， 该 元 组 也 带 有 相应 多 边 形 或 曲线 的 标识 。 类 似 的 ， 
多 边 形 的 三 角 剖 分 表示 允许 用 第 一 范式 关系 来 表示 多 边 形 。 


线段 
{(xLy1), (x2,y2)) 


三 角形 A {(xLy1), (x2,y2), (x3,y3)} 
2 
3 
多 边 形 1 {(x1,y1), (x2,y2), (x3,y3), (x4,y4), (x5,y5)} 
2 
3 {(x1,y1), (x2,y2), (x3,y3), ID1} 
多 边 形 1 {(x1,y1), (x3,y3), (x4,y4), ID1} 
{(x1,y1), (x4,y4), (x5,y5), ID1} 


对 象 表示 
图 25-2 几何 结构 的 表示 


三 维 空间 中 点 与 线段 的 表示 类 似 于 其 在 二 维 空间 中 的 表示 ， 唯 一 的 区 别 是 点 多 了 额外 的 z 坐标 。 
类 似 地 ， 从 二 维 到 三 维 ， 平 面 图 形 (如 三 角形 、 和 矩形 及 其 他 多 边 形 ) 的 表示 没有 太 大 变化 。 四 面体 和 立 
方 体 可 以 用 类 似 于 三 角形 和 矩形 的 方法 来 表示 。 我 们 可 以 通过 将 多 面体 分 割 成 若干 四 面体 来 表示 任意 
多 面体 ， 就 像 我 们 对 多 边 形 的 三 角 剖 分 。 我 们 也 可 以 通过 列 出 多 面体 所 有 的 面 来 表示 多 面体 ， 每 个 面 
本 身 是 一 个 多 边 形 ， 使 用 这 种 表示 还 需要 指出 该 面 的 哪 一 侧 是 多 面体 的 内 侧 。 
25. 3.2 设计 数据 库 

传统 上 ， 计 算 机 辅助 设计 ( Computer-Aided-Design，CAD) 系 统 在 编辑 或 做 其 他 处 理 时 将 数据 存储 在 
内 存 中 ， 并 且 在 一 次 编辑 结束 时 将 数据 写 回 文件 。 这 种 方式 的 缺点 包括 将 数据 由 一 种 形式 转化 为 另 一 
种 形式 的 开销 (编程 的 复杂 性 和 时 间 开销 ) ， 以 及 即使 只 需要 其 中 一 部 分 也 必须 读 人 整个 文件 。 对 于 大 
型 设计 ， 如 大 规模 集成 电路 设计 或 整 架 飞机 设计 ， 可 能 不 能 将 整个 设计 全 放 到 内 存 中 。 面 向 对 象 数据 
库 设计 者 很 大 程度 上 受 CAD 系统 对 数据 库 需求 的 驱动 。 面 向 对 象 数据 库 将 设计 中 的 组 件 表示 成 对 象 ，[1065 
并 且 对 象 间 的 连接 表明 了 设计 的 构造 方式 。 网 

设计 数据 库 中 存储 的 对 象 通常 是 几何 对 象 。 简 单 的 二 维 几何 对 象 包 括 点 、 线 、 三 角形 、 和 矩形 和 更 
为 一 般 化 的 多 边 形 。 复 杂 的 二 维 对 象 可 以 通过 简单 对 象 的 并 、 交 、 差 运算 得 到 。 类 似 地 ， 复 杂 的 三 维 
对 象 可 以 用 更 简单 的 对 象 (如 球体 、 圆 柱 体 和 立方 体 ) 的 并 、 交 、 差 运算 得 到 ， 如 图 25-3 所 示 。 三 维 表 
面 也 可 以 用 线 框 模型 ( wireframe model) 表示 ， 其 本 质 是 将 表面 建 模 成 一 组 更 简单 的 对 象 ， 如 线段 、 三 角 
形 和 和 矩形。 

设计 数据 库 也 存储 有 关 对 象 的 非 空间 信息 ， 如 构造 对 象 的 材料 。 我 们 通常 可 以 用 标准 数据 建 模 技 
术 来 对 这 些 信息 建 模 。 这 里 我 们 只 关心 空间 方面 。 

设计 中 必须 执行 多 种 空间 运算 。 例 如 ， 设 计 者 可 能 想 要 检索 对 应 于 某 个 特定 感 兴趣 区 域 的 设计 部 
分 。25. 3. 5 节 讨论 的 空间 索引 结构 对 这 类 任务 是 有 用 的 。 空 间 索 引 结构 是 多 维 的 ， 处 理 的 是 二 维 或 三 
维 数据 ， 而 不 仅仅 是 B* 树 提供 的 那 种 简单 的 一 维 排序 。 
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a) 圆柱 体 的 差 b ) 圆柱 体 的 并 


图 25-3 复杂 三 维 对 象 


空间 完整 性 约束 ， 如 “两 根 水 管 不 应 在 同一 位 置 "， 对 于 在 设计 数据 库 中 防止 接口 错误 是 很 重要 
的 。 如 果 设 计 是 手工 做 的 ， 这 种 错误 就 经 常 发 生 ， 并 且 只 有 当 原 型 构建 出 来 时 才 会 被 检测 出 来 。 因 此 ， 
这 些 错误 修改 起 来 代价 很 高 。 数 据 库 对 空间 完整 性 约束 的 支持 可 以 帮助 人 们 避免 设计 错误 ， 从 而 保证 
设计 的 一 致 性 。 这 种 完整 性 检查 的 实现 也 要 依赖 于 有 效 多 维 索引 结构 的 可 用 性 - 

25.3.3 地理 数 据 

地 理 数 据 本 质 上 是 空间 数据 ， 但 与 设计 数据 相 比 有 几 个 方面 的 不 同 。 地 图 和 卫星 图 像 是 地 理 数 据 
的 典型 例子 。 地 图 不 仅 可 以 提供 位 置信 息 ， 如 关于 边界 、 河 流 和 道路 的 信息 ， 而 且 还 提供 更 多 的 与 位 
置 相关 的 详细 信息 ， 如 海拔 、 土 壤 类 型 、 土 地 使 用 和 年 降雨 量 。 

25.3.3.1 地 理 数据 的 应 用 

地 理 数 据 库 有 多 种 用 途 ， 包 括 联机 地 图 服务 、 交 通 导 航 系统 、 公 共 服 务 设 施 的 分 布 网 络 信息 (如 电 
话 、 电 力 和 供水 系统 ) 以 及 为 生态 学 家 和 规划 者 提供 的 土地 使 用 信息 。 

基于 Web 的 道路 地 图 服务 成 为 使 用 非常 广泛 的 地 图 数据 应 用 。 在 最 简单 的 情况 下 ， 这 些 系统 可 用 
于 生成 所 需 区 域 的 联机 道路 地 图 。 联 机 地 图 的 一 个 重要 好 处 在 于 它 可 以 容易 地 缩放 至 所 需 大 小 ， 也 就 
是 为 定位 相关 特征 而 进行 的 放大 或 缩小 。 道 路 地 图 服务 还 存储 关于 道路 和 服务 的 信息 ， 如 道路 布局 、 
道路 上 的 速度 限制 、 道 路 状况 、 道 路 间 的 连接 以 及 单行 限制 。 有 了 这 些 有 关 道 路 的 附加 信息 ， 地 图 就 
可 以 用 来 获得 从 一 个 地 方 到 另 一 个 地 方 的 指向 ， 并 用 于 自动 旅行 规划 。 用 户 可 以 查询 有 关 服 务 的 联机 
信息 来 定位 诸如 能 够 提供 所 需 服务 和 一 定价 格 范围 内 的 旅馆 、 加 油 站 或 餐馆 。 近 年 来 ， 一 些 基 于 Web 
的 地 图 服务 定义 了 API， 人 允许 程序 员 创建 定制 的 地 图 ， 它 包括 来 自 该 地 图 服务 以 及 其 他 来 源 的 数据 。 
这 种 定制 的 地 图 可 用 来 显示 诸如 特定 区 域内 的 待 售 或 待 租 的 房子 ， 或 者 商店 和 餐馆 。 

交通 导航 系统 是 安装 在 车 辆 上 的 提供 道路 地 图 和 旅行 规划 服务 的 系统 。 它 们 包括 一 个 全 球 定位 系 
统 (Clobal Positioning System, GPS) 部件 ， 它 使 用 CPS 卫星 广播 的 信息 ， 以 几 十 米 的 精度 确定 当前 位 置 。 
拥有 这 样 的 系统 ， 司 机 永远 ?也 不 会 迷路 ，GPS 部 件 用 纬度 、 经 度 和 海拔 的 形式 来 确定 位 置 ， 导 航 系 
统 可 以 查询 地 理 数据 库 以 找 出 车 辆 当前 的 位 置 和 所 位 于 的 道路 。 

用 于 公共 设施 信息 的 地 理 数 据 库 随 着 地 下 电缆 和 管道 网 络 的 增长 变 得 非常 重要 。 如 果 没 有 详细 地 
图 ， 一 种 设施 的 工程 可 能 毁坏 另 一 种 设施 的 电缆 ， 导 致 大 范围 的 服务 中 断 。 地 理 数据 库 加 上 精确 定位 
系统 有 助 于 避免 这 类 问题 。 

25.3.3.2 地 理 数 据 的 表示 

地 理 数 据 ( geographic data) 可 以 分 为 两 类 : 

© 光栅 数据 ( raster data) 。 这 种 数据 由 二 维 或 更 高 维 的 位 图 或 像素 图 组 成 。 二 维 光栅 图 像 的 典型 例 

子 是 地 区 的 卫星 图 像 。 除 实际 图 像 之 外 ,数据 还 包括 图 像 的 位 置 (例如 由 它 的 角 的 纬度 和 经 度 
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指定 ) 和 分 辨 率 ( 由 总 像素 数 ， 或 者 在 地 理 数 据 环境 中 更 为 普遍 的 每 像素 覆盖 面积 所 指定 ) 。 
光栅 数据 通常 用 栅 格 (tile) 表示 ， 每 个 栅 格 覆盖 固定 大 小 的 区 域 。 可 以 通过 显示 与 区 域 重 
释 的 所 有 栅 格 来 显示 更 大 的 区 域 。 为 了 人 允许 在 不 同 的 缩放 级 别 显示 数据 ， 就 为 每 个 缩放 级 别 创 
建 一 个 单独 的 栅 格 集 。 一 旦 通过 用 户 界面 (例如 Web 浏览 器 ) 设置 了 缩放 级 别 ， 与 待 显 示 区 域 
重奏 的 该 缩放 级 别 的 栅 格 就 被 检索 和 显示 出 来 。 
光栅 数据 可 以 是 三 维 的 ， 例 如， 同样 在 卫星 帮助 下 测 得 的 不 同 地 区 在 不 同 高 度 上 的 温度 。 
时 间 可 以 形成 男 一 个 维度 ， 例 如， 不 同时 间 上 不 同 点 的 表面 温度 度量 。 

e 矢量 数据 (vector data)。 矢 量 数据 由 基本 几何 对 象 构 成 ， 如 点 、 线 段 、 折 线 、 三 角形 和 其 他 二 
维 多 边 形 ， 以 及 圆柱 体 、 球 体 、 立 方 体 和 其 他 三 维 多 面 体 。 在 地 理 数据 环境 中 ， 点 通常 用 纬度 
和 经 度 表 示 ， 此 外 在 与 高 度 相关 的 地 方 还 用 海拔 表示 。 

地 图 数据 常 以 矢量 形式 表示 。 道 路 常 被 表示 成 折线 。 地 理 特 征 ( 如 大 型 湖泊 ) ， 或 者 甚至 是 
政治 特征 (如 州 和 国家 ) ， 可 以 表示 成 复杂 多 边 形 。 某 些 特 征 ( 如 河流 ) 可 以 表示 成 复杂 曲线 或 
复杂 多 边 形 ， 这 取决 于 其 宽度 是 否 相 关 。 

关于 地 区 的 地 理 信 息 ( 如 年 降雨 量 ) 可 以 表示 成 一 个 数组 ， 也 就 是 以 光栅 的 形式 。 为 提高 空间 效 
率 ， 该 数组 可 以 用 压缩 形式 存储 。 在 25. 3. 5. 2 节 中 ， 我 们 研究 这 种 数组 的 另 一 种 表示 ， 它 使 用 称 为 四 
又 树 的 数据 结构 。 

作为 另 一 种 选择 ， 我 们 可 以 以 矢量 形式 用 多 边 形 来 表示 区 域 信 息 ， 其 中 每 个 多 边 形 代表 一 个 区 域 ， 
该 区 域内 部 的 数组 值 是 相同 的 。 在 某 些 应 用 中 矢量 表示 比 光 栅 表 示 更 简洁 。 而 且 对 于 某 些 任务 它 也 更 
为 精确 ， 如 在 表示 道路 时 ， 将 区 域 划分 成 像素 (可 能 相当 大 ) 会 导致 位 置信 息 精 确 度 的 损失 。 但 是 ， 矢 
量 表 示 不 适合 于 数据 本 质 上 就 是 基于 光栅 的 应 用 ， 如 卫星 图 像 。 

地 形 (topographical ) 信息 ， 即 有 关 表 面 上 每 个 点 的 海拔 (高 度 ) 的 信息 ， 可 以 用 光栅 形式 表示 。 另 外 
还 可 以 通过 将 表面 划分 成 覆盖 (近似 ) 等 高 区 域 的 多 边 形 ， 而 以 向 量 形式 来 表示 ， 其 中 每 个 多 边 形 关联 
单个 的 高 度 值 。 作 为 另 一 种 选择 ， 可 以 对 表面 进行 三 角 剖 分 (triangulated) ( 即 划分 成 三 角形 ) ， 每 个 三 
角形 用 它 的 每 个 角 的 纬度 、 经 度 和 海拔 表示 。 后 一 种 表示 称 为 三 角 剖 分 的 不 规则 网 络 (Triangulated 
Irregular Network, TIN) 表示 ， 这 种 简洁 表示 对 于 产生 一 个 区 域 的 三 维 视图 尤其 有 用 。 

地 理 信息 系统 通常 包含 光栅 和 矢量 两 种 数据 ， 当 给 用 户 显示 结果 时 可 以 合并 这 两 种 类 型 的 数据 。 
例如 ， 地 图 应 用 通常 包含 了 关于 道路 、 建 筑 和 其 他 陆 标的 卫星 图 像 和 矢量 数据 。 地 图 显示 通常 重合 
(overlay 各 种 不 同 的 信息 ; 例如 ， 道 路 信息 可 以 重叠 在 卫星 图 像 背 景 上 ， 构 成 一 个 混合 显示 。 事 实 上 ， 
地 图 通常 由 多 个 层 组 成 ， 这 些 层 以 自 底 向 上 的 顺序 显示 ; 来 自 较 高 层 的 数据 出 现在 较 低层 的 数据 之 上 。 

另外 有 趣 的 是 ， 注 意 即使 实际 上 以 矢量 形式 存储 的 信息 在 发 送 给 用 户 界 面 (如 Web 浏览 器 ) 前 也 可 
以 转换 为 光栅 形式 。 一 个 原因 是 ， 即 使 网 页 浏览 器 不 支持 脚本 语言 (解释 和 显示 矢量 数据 所 需 的 ) 也 仍 
可 以 显示 地 图 数据 ; 第 二 个 原因 可 能 是 防止 终端 用 户 提 取 和 使 用 矢量 数据 。 

地 图 服务 (如 Google Maps 和 Yahoo! Maps) 提供 了 API， 人 允许 用 户 创建 专用 的 地 图 显示 ， 包 括 重 答 
在 标准 地 图 数据 上 的 专用 数据 的 应 用 。 例 如 ， 一 个 网 站 可 能 显示 一 个 区 域 的 地 图 ， 将 有 关 和 餐馆 的 信息 
重 和 至 在 地 图 上 。 可 以 动态 地 构造 这 种 重 夺 ， 例 如 ， 只 显示 具有 特定 风格 的 餐馆 ， 或 者 允许 用 户 更 改 缩 
放 级 别 或 平移 显示 。 用 于 特定 语言 (典型 的 是 JavaScript 或 Flash) 的 地 图 API 是 构建 在 提供 底层 地 图 数 
据 的 Web 服务 上 的 。 

25.3.4 空间 查询 

有 许多 类 型 的 查询 都 涉及 空间 位 置 。 

© MEH (nearness query) 要 求 找 出 位 于 特定 位 置 附近 的 对 象 。 找 出 位 于 给 定位 置 的 给 定 距离 内 
的 所 有 和 餐馆 的 查询 就 是 临近 查询 的 一 个 例子 。 最 近邻 居 查 询 ( nearest-neighbor query ) 要 求 找 出 离 
特定 点 最 近 的 对 象 。 例 如 ， 我 们 可 能 想 要 找 出 最 近 的 加 油 站 。 注 意 这 个 查询 不 必 指 定 距 离 的 范 
围 ， 因 此 即使 不 知道 最 近 的 加 油 站 有 多 远 ， 也 可 以 提出 这 个 查询 。 

© 区 域 查询 (region query) 处 理 的 是 空间 区 域 。 这 种 查询 可 以 找 出 部 分 或 全 部 位 于 指定 区 域内 的 对 
象 。 找 出 给 定 城 镇 的 地 理 边界 内 的 所 有 零售 店 的 查询 就 是 一 个 例子 。 
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。 查询 也 可 能 要 求 区 域 的 交 和 并 。 例 如 ， 给 出 区 域 信息 ， 如 年 降雨 量 和 人 口 密度 ， 查 询 可 能 要 求 
找 出 年 降雨 量 低 并 且 人 口 密度 高 的 所 有 区 域 。 

计算 区 域 的 交 的 查询 可 以 看 作 是 计算 两 个 空间 关系 的 空间 连接 (spatial join) 。 举 例 来 说 ， 一 个 关系 代 
表 降 雨量 ， 另 一 个 代表 人 口 密度 ， 而 位 置 则 扮演 连接 属性 的 角色 。 一 般 地 ， 给 定 两 个 关系 ， 其 中 每 个 关 
系 都 包含 空间 对 象 ， 则 两 个 关系 的 空间 连接 要 么 生成 若干 对 相交 的 对 象 ， 要 么 生成 这 些 对 象 的 相交 区 域 . 

对 矢量 数据 有 效 计算 空间 连接 的 连接 算法 有 几 种 。 尽 管 可 以 采用 骨 套 循环 连接 和 索引 嵌 套 循环 连 
接 (使 用 空间 索引 ) ， 但 对 空间 数据 不 能 使 用 散 列 连接 和 排序 归并 连接 。 研 究 人 员 已 经 提出 了 一 些 基于 
两 个 关系 上 空间 索引 结构 的 坐标 遍历 的 连接 技术 。 更 多 信息 请 参见 文献 注解 。 

一 般 地 ， 空 间 数据 查询 可 能 是 空间 和 非 空间 请 求 的 结合 。 例 如 ， 我 们 可 能 想 要 找 出 可 以 提供 素食 
的 、 每 餐 花 费 少 于 10 美元 的 最 近 的 餐馆 。 

由 于 空间 数据 固有 的 图 形 化 ,我们 通常 使 用 图 形 化 查询 语言 对 它们 进行 查询 。 这 种 查询 的 结果 也 
以 图 形 化 方式 显示 ， 而 不 是 以 表 的 形式 显示 。 用 户 可 以 调用 界面 上 的 各 种 操作 ， 比 如 选择 一 个 查看 区 
域 (例如 ， 通 过 指向 并 点 击 曼哈顿 的 西 郊 ) 、 放 大 或 缩小 、 根 据 选 择 条 件 选 择 显 示 什么 (例如 ， 有 多 于 
三 个 卧室 的 房子 ) 、 重 伦 多 张 地 图 (例如 ， 多 于 三 个 卧室 的 房子 与 一 张 显 示 低 犯罪 率 区 域 的 地 图 重 又 ) 
等 。 图 形 界面 构成 了 前 端 。 现 已 提出 了 对 SQL 的 扩展 ， 人 允许 关系 数据 库 有 效 地 存储 和 检索 空间 信息 ， 
并 且 也 人 允许 空间 和 非 空间 混合 条 件 的 查询 。 这 些 扩展 包括 允许 抽象 数据 类 型 (如 线 、 多 边 形 、 位 图 )， 
以 及 允许 空间 条 件 ( 如 包含 或 重叠 )。 
25.3.5 空间 数据 的 索引 

有 效 访问 空间 数据 需要 索引 。 诸 如 散 列 索引 和 B 树 那样 的 传统 索引 结构 是 不 合适 的 ， 因 为 它们 只 
处 理 一 维 数据 ， 而 空间 数据 通常 是 二 维 或 更 高 维 的 。 

25.3.5.1 k-d 树 

要 理解 如 何 对 由 二 维 或 更 高 维 构成 的 空间 数据 建立 索引 ,我们 先 考虑 一 维 数据 中 点 的 索引 。 树 结 
构 ( 如 二 叉 树 和 B 树 ) 是 不 断 地 将 空间 划分 成 更 小 的 部 分 。 例 如 ， 二 又 树 的 每 个 内 部 结 点 将 一 维 区 间 划 
分 成 两 个 部 分 。 位 于 左边 区 间 的 点 进入 左 子 树 ， 位 于 右边 区 间 的 点 进入 右 子 树 。 在 平衡 二 又 树 中 ， 划 
分 的 选择 使 得 存储 在 子 树 中 的 大 约 一 半 的 点 落 入 每 个 区 间 。 类 似 地 ，B 树 的 每 一 层 将 一 个 一 维 区 间 划 
分 成 多 个 部 分 。 

我 们 可 以 用 直觉 建立 二 维 空间 以 及 更 高 维 空间 的 树 3 3 
结构 。 一 种 称 为 k-d 树 (k-d tree) 的 树 结构 是 用 于 多 维 索 
引 的 一 种 早期 结构 。k-d 树 的 每 一 层 将 空间 划分 成 两 个 部 
分 。 树 的 顶层 结 点 按 一 维 进行 划分 ， 下 一 层 结 点 按 另 一 
维 进行 划分 ， 依 此 类 推 ， 各 维 循环 往复 。 划 分 以 这 种 方 
式 进行 : 在 每 个 结 点 上 大 约 有 一 半 存 储 在 子 树 中 的 点 落 2 
入 一 侧 ， 而 另 一 半 落 入 另 一 侧 。 当 一 个 结 点 中 的 点 数 少 
于 给 定 的 最 大 点 数 时 ， 划 分 结束 。 图 25-4 表示 了 一 组 二 
维 空间 中 的 点 ， 以 及 这 组 点 的 k-d 树 表示 。 每 条 线 对 应 
于 树 中 的 一 个 结 点 ， 叶 结 点 中 的 最 大 点 数 设 为 1。 图 中 的 


每 条 线 ( 除 了 外 边 的 方 框 ) 对 应 于 k-d 树 的 一 个 结 点 。 图 
中 线 的 标号 表示 相应 结 点 出 现在 树 中 的 层 数 。 。| . 


k-d-B 树 扩展 了 k-d 树 ， 人 允许 每 个 内 部 结 点 有 多 个 子 
结 点 ， 如 同 B 树 扩展 了 二 又 树 以 减 小 树 的 高 度 一 样 。k-d- 
B 树 比 k-d 树 更 适合 于 辅助 存储 器 。 

25.3.5.2 四 又 树 

二 维 数据 的 另 一 种 表示 形式 是 四 叉 树 (quadtree) 。 用 四 叉 树 划分 空间 的 例子 如 图 25-5 所 示 。 点 的 
集合 与 图 25-4 中 的 一 样 。 四 又 树 的 每 个 结 点 对 应 于 一 个 矩形 区 域 空间 。 项 层 结 点 对 应 于 整个 目标 空 
间 。 四 又 树 中 的 每 个 非 叶 结 点 将 其 区 域 分 成 四 个 同等 大 小 的 象限 ， 相 应 地 ， 每 个 这 样 的 结 点 有 四 个 子 
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图 25-4 用 k-d 树 划分 空间 
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结 点 对 应 于 四 个 象限 。 叶 结 点 拥有 从 零 到 某 个 固定 最 大 数目 之 间 的 点 数 。 相 应 地 ， 如 果 对 应 于 一 个 结 
点 的 区 域 有 多 于 最 大 数目 的 点 数 ， 就 需要 为 该 结 点 创建 子 结 点 。 在 图 25-5 所 示 的 例子 中 ， 叶 结 点 的 最 
大 点 数 设 为 1。 

这 种 类 型 的 四 又 树 称 为 PR 四 叉 树 (PR quadtree ) ， 
表示 它 存储 的 是 点 ， 并 且 空 间 的 划分 是 根据 区 域 而 不 是 
根据 所 存储 的 实际 点 集 。 我 们 可 以 用 区 域 四 叉 树 (region 
quadtree ) 存储 数组 (光栅) 信息。 如 果 某 结 点 所 覆盖 的 区 
域内 的 所 有 数组 值 都 相同 ， 那 么 区 域 四 又 树 的 这 一 结 点 
是 叶 结 点 。 否 则 ， 它 被 进一步 划分 为 四 个 具有 相等 区 域 
的 子 结 点 ， 从 而 是 内 部 结 点 。 区 域 四 叉 树 中 的 每 个 结 点 
对 应 于 值 的 一 个 子 数组 。 对 应 于 叶 结 点 的 子 数组 要 么 只 
包含 单个 数组 元 素 ， 要 么 包含 多 个 具有 相同 值 的 数组 
元 素 。 

线段 和 多 边 形 的 索引 带 来 了 新 的 问题 。 为 此 可 以 对 
k-d 树 和 四 又 树 进行 扩展 。 但 是 ， 线 段 或 多 边 形 可 能 跨越 
分 界线 。 如 果 这 样 的 话 ， 就 必须 将 它 分 割 开 ， 然 后 在 其 





各 个 部 分 所 出 现 的 每 个 子 树 中 加 以 表示 。 线 段 或 多 边 形 图 25-5 用 四 叉 树 划分 空间 
的 多 次 出 现 会 导致 存储 和 查询 效率 低下 。 
25.3.5.3 R 树 


一 种 称 作 R 树 (R-tree) 的 存储 结构 对 诸如 点 、 线 段 、 和 矩形 和 其 他 多 边 形 对 象 的 索引 是 很 有 用 的 。R 


树 是 平衡 树 结构 ， 其 中 被 索引 的 对 象 存储 在 叶 结 点 上 ， 这 一 点 非常 像 B 树 。 但 它 并 不 使 用 值 的 范围 ,1 


而 是 用 和 矩形 边界 框 (bounding box) 与 每 个 树 结 点 关联 。 叶 结 点 的 边界 框 是 平行 于 包含 叶 结 点 中 所 有 存储 
对 象 的 坐标 轴 的 最 小 和 矩形。 类似 地 ， 内 部 结 点 的 边界 框 是 平行 于 包含 其 子 结 点 边界 框 的 坐标 轴 的 最 小 
EE; 一 个 对 象 (例如 一 个 多 边 形 ) 的 边界 框 定义 为 平行 于 包含 该 对 象 的 坐标 轴 的 最 小 矩形 。 
每 个 内 部 结 点 存储 子 结 点 的 边界 框 和 指向 子 结 点 的 指针 。 每 个 叶 结 点 存储 被 索引 的 对 象 ， 还 可 以 
有 选择 地 存放 对 象 的 边界 框 ; 边界 框 有 助 于 加 快 检 查 和 矩形 与 被 索引 的 对 象 是 否 重奏 的 速度 一 一 如 果 碍 
询 矩 形 与 对 象 的 边界 框 不 重 倒 ， 则 它 也 不 可 能 与 对 象 重 辣 。( 如 果 索 引 对 象 就 是 矩形 ， 当 然 不 需要 存储 
边界 框 ， 因 为 边界 框 就 是 矩形 的 。) 
图 25-6 中 的 例子 表示 了 一 组 矩形 (用 实 线 画 出 ) 及 对 应 于 这 组 矩形 的 R 树 中 结 点 的 边界 框 (用 虚线 
画 出 ) 。 注 意 为 了 在 图 示 中 突出 边界 框 ， 画 边界 框 的 时 候 在 内 部 留 了 一 些 额外 空间 。 实 际 上 ， 这 些 框 应 
该 更 小 一 些 ， 恰 好 适合 它们 包含 的 对 象 ; 也 就 是 说 ， 边 界 框 B 的 每 条 边 应 该 紧 接 B 中 所 包含 的 至 少 一 
个 对 象 或 边界 框 。 
R 树 本 身 如 图 25-6 的 右边 所 示 。 图 中 用 BB, 表示 边界 框 i 的 坐标 。 
现在 我 们 来 看 如 何在 R 树 上 执行 查找 、 插 入 和 删除 操作 。 
。 SK: 如 图 所 示 ， 兄 弟 结 点 所 对 应 的 边界 框 可 能 重 又 ; 相反 ，B' 树 、k-d 树 和 四 又 树 的 区 间 是 
不 重 秋 的 。 于 是 ， 搜 索 包 含 一 个 点 的 对 象 必须 遍历 其 边界 框 包含 该 点 的 所 有 子 结 点 ; 其 结果 是 
可 能 需要 搜索 多 条 路 径 。 类 似 地 ， 找 出 与 给 定 对 象 相交 的 所 有 对 象 的 查询 就 必须 向 下 遍历 其 边 
界 框 矩 形 与 给 定 对 象 相交 的 每 个 结 点 。 
e 插入 : 当 我 们 往 R 树 中 插入 一 个 对 象 时 ， 我 们 选择 一 个 叶 结 点 来 存放 该 对 象 。 理 想 情 况 是 我 们 
应 该 找到 一 个 叶 结 点 ， 它 有 存放 一 个 新 项 的 空间 ， 而 且 它 的 边界 框 包 含 该 对 象 的 边界 框 。 但 
是 ,这 样 的 结 点 可 能 不 存在 ; 即使 存在 ， 找 到 该 结 点 也 可 能 非常 昂贵 ， 因 为 不 可 能 通过 从 根 向 
下 的 一 次 遍历 就 能 找到 它 。 在 每 个 内 部 结 点 我 们 都 可 能 发 现 多 个 子 结 点 的 边界 框 包含 该 对 象 的 
边界 框 ， 而 每 个 这 样 的 子 结 点 都 要 搜索 。 由 此 得 到 下 面 的 启发 式 算法 : 在 从 根 结 点 开始 的 遍历 
中 ， 如 果 有 多 个 子 结 点 的 边界 框 包含 该 对 象 的 边界 框 ，R 树 算法 就 从 中 任 取 一 个 。 如 果 没 有 一 
个 子 结 点 满足 这 个 条 件 ， 算 法 选择 一 个 其 边界 框 与 该 对 象 边 界 框 重要 最 大 的 子 结 点 继续 遍历 。 
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图 25-6 一 棵 R 树 


BSAA, WRB OR, 算法 就 要 进行 结 点 分 裂 ( 必 要 时 分 裂 会 向 上 传播 )， 其 
方式 非常 类 似 于 B 树 的 插入 。 与 B* 树 的 插入 类 似 ，R 树 的 插入 算法 确保 树 的 平衡 性 。 男 外 ， 
插入 算法 还 保证 叶 结 点 和 内 部 结 点 的 边界 框 保 持 一 致 ， 即 叶 结 点 的 边界 框 包含 存储 在 该 叶 结 点 
中 的 所 有 对 象 的 边界 框 ， 同 时 内 部 结 点 的 边界 框 包含 所 有 子 结 点 的 边界 框 。 

这 个 插入 过 程 与 B 树 插 人 过 程 的 主要 区 别 在 于 结 点 的 分 裂 方式 。 在 B’ 树 中 ， 有 可 能 找到 
一 个 中 间 值 ， 使 得 一 半 的 项 比 它 小 ,一半 的 项 比 它 大 。 但 此 性 质 不 能 推广 到 超过 一 维 的 情况 ; 
也 就 是 说 ， 对 于 多 维 的 情况 ， 不 可 能 总 能 将 项 集 分 裂 为 两 个 边界 框 不 相交 的 集合 。 取 而 代 之 的 
一 种 启发 式 算法 是 : 将 项 集 5 分 裂 为 两 个 不 相交 的 集合 S 和 5, ， 使 得 它们 的 边界 框 的 总 面积 
最 小 。 男 一 种 启发 式 算 法 将 项 集 分 裂 为 两 个 重合 面积 最 小 的 集合 S 和 5,。 分 裂 之 后 得 到 的 两 
个 结 点 分 别 包含 S AS, 中 的 项 。 找 到 最 小 总 面积 或 最 小 重 全 的 分 裂 方 法 本 身 代价 很 大 ， 因 此 
还 使 用 代价 更 小 的 启发 式 算 法 ， 如 三 次 方 分 裂 (quadratic split) 启发 式 算法 。( 这 种 启发 式 算法 
的 名 称 来 源 于 算法 所 花 的 时 间 是 项 数目 的 二 次 方 这 个 事实 。) 





1074 ZAHAR quadratic split) 启发 式 算法 这 样 进 行 : 首先 ， 它 从 5 中 选取 两 个 项 a 和 4b， 使 得 

675 如 果 将 它们 放 到 同一 个 结 点 中 将 产生 具有 最 大 浪费 空间 的 边界 框 ， 即 a 和。 的 最 小 边界 框 的 面 
积 减 去 a 与 5 的 面积 之 和 后 的 结果 最 大 。 启 发 式 算法 将 a Mb 这 两 个 项 分 别 放 到 集合 5, 和 
S i, 


然后 该 算法 进行 和 迭代， 每 次 迭代 将 一 个 剩 下 的 项 加 入 集合 S 或 5, 中 。 在 每 次 迭代 时 ， 对 
于 每 个 剩余 项 e， 令 i RIRH e 加 入 S, 时 5, 的 边界 框 增加 的 大 小 ; i ,表示 对 于 S, 相应 增加 的 
大 小 。 在 每 次 迭代 中 ， 该 启发 式 算法 选择 i, 与 i. 差异 最 大 的 那个 项 ， 如 果 i 小 于 i; 则 将 其 
MAS, 中 ,否则 加 入 S 中 。 也 就 是 说 ， 每 次 迭代 选择 对 于 S RS, 有 “最 大 优先 权 ” 的 项 。 当 
分 配 完 所 有 项 之 后 ,或 者 当 S KS, 中 的 一 个 拥有 了 足够 的 项 时 (其 余 项 必须 全 部 加 入 另 一 个 集 
合 ， 才 能 使 这 两 个 集合 所 创建 的 结 点 都 达到 所 需 的 最 小 占有 量 ) 停 止 迭 代 。 此 时 ， 该 启发 式 算 

法 就 把 所 有 未 分 配 的 项 加 入 含有 较 少 项 的 集合 中 。 
。 删除 : 删除 与 B 树 删除 的 执行 类 似 ， 如 果 一 个 结 点 不 满 ， 就 从 兄弟 结 点 借 来 项 或 与 兄弟 结 点 
合并 。 另 一 种 可 选 的 方法 是 把 不 满 结 点 中 的 所 有 项 重新 分 配 到 兄弟 结 点 中 ， 其 目的 是 提高 R 树 

的 项 聚集 度 。 

AK R 树 的 插入 和 删除 操作 以 及 R 树 的 各 种 变 体 ( 称 作 R 树 或 者 R 树 ) 的 更 多 细节 ， 请 参见 文献 
R 树 的 存储 效率 比 k-d 树 或 四 又 树 更 高 ， 因 为 每 个 对 象 只 存储 一 次 ， 并 且 我 们 可 以 很 容易 地 保证 
每 个 结 点 至 少 是 半 满 的 。 但 是 ， 查 询 可 能 更 慢 一 些 ， 因 为 要 搜索 多 条 路 径 。 用 四 又 树 作 空间 连接 比 用 
R 树 更 简单 ， 因 为 一 个 区 域内 的 所 有 四 叉 树 都 以 相同 的 方式 划分 。 但是， 由 于 R 树 及 其 变 体 具有 更 高 
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的 存储 效率 及 其 与 B 树 的 相似 性 ， 它 们 在 支持 空间 数据 的 数据 库 系统 中 已 经 很 普及 。 


25.4 多 媒体 数据 库 


诸如 图 像 、 音 频 和 视频 这 样 的 多 媒体 数据 作为 日 益 流 行 的 数据 形式 ， 现 在 几乎 总 是 存储 在 数据 库 
之 外 的 文件 系统 中 。 当 多 媒体 对 象 数量 相对 较 少 时 ， 这 种 存储 方式 不 会 有 什么 问题 ， 因 为 数据 库 所 提 
供 的 功能 往往 不 那么 重要 。 

但 是 当 存 储 的 多 媒体 对 象 数量 很 大 时 ， 数 据 库 功能 就 变 得 重要 起 来 了 。 随 之 ， 事 务 更 新 、 查 询 机 
制 和 索引 等 问题 也 变 得 很 重要 。 多 媒体 对 象 常 常 有 描述 性 属性 ， 如 指明 它们 是 何 时 创建 的 、 由 谁 创建 
的 以 及 它们 属于 哪 一 类 这 样 的 属性 。 为 这 种 多 媒体 对 象 构 造 数据 库 的 一 种 方法 是 用 数据 库存 储 描述 性 
属性 ， 并 跟踪 存储 多 媒体 对 象 的 文件 。 

但 是 ， 将 多 媒体 数据 存在 数据 库 之 外 使 得 数据 库 功 能 更 难以 提供 ， 璧 如 基于 实际 多 媒体 数据 内 容 
上 的 索引 。 它 还 会 造成 不 一 致 性 ， 壁 如 一 个 文件 在 数据 库 中 作 了 记录 ,但 其 内 容 丢 失 了 ， 或 相反 。 因 
此 更 好 的 方式 是 将 数据 本 身 存储 在 数据 库 中 。 

如 果 要 将 多 媒体 数据 存储 在 数据 库 中 ， 就 必须 解决 几 个 问题 。 

© 数据 库 必 须 支 持 大 对 象 ， 因 为 诸如 视频 之 类 的 多 媒体 数据 可 能 会 占据 几 个 GB 的 存储 空间 。 许 
多 数据 库 系 统 不 支持 超过 几 个 GB 的 对 象 。 更 大 的 对 象 被 分 裂 为 小 的 部 分 并 存储 在 数据 库 中 
或 者 ， 多 媒体 对 象 可 以 存储 在 文件 系统 中 ， 而 数据 库 中 包含 指向 对 象 的 指针 ， 典 型 的 指针 就 是 
文件 名 称 。SQL/MED 标准 (MED 代表 外 部 数据 管理 ) 允许 将 外 部 数据 ( 如 文件 ) 作为 数据 库 的 一 
部 分 对 待 。 使 用 SQLLMED， 对 象 作 为 数据 库 的 一 部 分 出 现 ， 但 可 以 在 外 部 存储 。 我 们 在 
25. 4. 1 节 讨 论 多 媒体 数据 格式 。 
某 些 类 型 的 数据 (如 音频 和 视频 ) 的 检索 要 求 必 须 保 证 以 一 种 平稳 的 速率 来 传输 数据 。 这 种 数据 
有 时 称 为 等 时 数据 (isochronous data) 或 连续 媒体 数据 ( continuous-media data) 。 例 如 ， 如 果 没 有 
及 时 提供 音频 数据 ， 声 音 就 会 有 间断 。 如 果 数 据 提 供 得 太 快 ， 系 统 缓冲 区 就 可 能 会 溢出 ， 造 成 
数据 丢失 。 我 们 在 25. 4. 2 节 讨 论 连 续 媒体 数据 。 
许多 多 媒体 数据 库 应 用 都 需要 基于 相似 性 的 检索 。 例 如 ， 在 存储 指纹 图 像 的 数据 库 中 ， 提 供 了 
要 查询 的 指纹 图 像 ， 数 据 库 中 与 该 查询 指纹 相似 的 指纹 必须 被 检索 出 来 。 诸 如 BO PAR 树 这 
样 的 索引 结构 不 能 用 于 这 个 目的 ， 需 要 创建 特殊 的 索引 结构 。 我 们 在 25.4.3 节 讨 论 基 于 相似 
性 的 检索 。 


25.4.1 多 媒体 数据 格式 

由 于 表示 多 媒体 数据 需要 大 量 字 节 数 ， 所 以 有 必要 用 压缩 的 形式 存储 和 传输 多 媒体 数据 。 对 于 图 
像 数 据 ， 使 用 最 广泛 的 格式 就 是 JPEG， 它 是 以 制定 它 的 标准 组 织 联合 图 像 专家 组 (Joint Picture Experts 
Group ) 来 命名 的 。 我 们 可 以 通过 将 视频 的 每 一 帧 用 JPEC 格式 编码 来 存储 视频 数据 ， 但 这 样 编码 会 有 浪 
费 ， 因 为 视频 中 连续 的 帧 往往 几乎 是 一 样 的 。 移 动 图 像 专家 组 (Moving Picture Experts Group) 提出 了 对 
视频 和 音频 数据 进行 编码 的 一 系列 MPEG 标准 ， 这 些 编码 利用 帧 序列 之 间 的 共性 达到 更 高 程度 的 压缩 。 
MPEG-1 标准 存储 1 分 钟 的 每 秒 30 帧 的 视频 和 音频 约 要 12. 5MB( 比较 而 言 ， 只 用 JPEG 形式 的 视频 数 
据 约 需 75MB)。 但 是 ，MPEG-l 编码 要 损失 一 些 视频 质量 ， 其 程度 粗略 相当 于 VHS 录像 带 。MPEG-2 
标准 是 为 数字 广播 系统 和 数字 视频 磁盘 (DVD ) 设计 的 。 它 带 来 的 视频 质量 损失 是 可 忽略 的 。MPEG-2 
把 1 分 钟 的 视频 和 音频 压缩 到 约 17MB。MPEG-4 提供 进一步 压缩 视频 的 技术 ， 用 可 变 带宽 来 支持 视频 
数据 在 很 大 带宽 范围 内 的 网 络 上 进行 传输 。 还 有 几 个 竞争 的 标准 用 于 音频 编码 ， 包 括 代 表 MPEG-1 
Layer 3 的 MP3, RealAudio, Windows Media Audio 以 及 其 他 格式 。 高 清 的 带 有 音频 的 视频 可 用 几 个 
MPEG-4 的 变 体 进行 编码 ， 包 括 MPEG-4 AVC 和 AVCHD, 


25.4.2 连续 媒体 数据 
最 重要 的 连续 媒体 数据 类 型 是 视频 和 音频 数据 ( 例如， 电影 数据 库 ) 。 连 续 媒 体系 统 的 特点 是 要 求 
实时 的 信息 传输 : 
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© 数据 传输 必须 足够 快 ， 使 得 音频 或 视频 输出 没有 间断 。 
© 数据 传输 的 速度 不 会 导致 系统 缓冲 区 溢出 。 
。 必须 保持 不 同 数据 流 之 间 的 同步 。 这 个 要 求 在 某 些 情况 下 尤其 重要 ， 例 如 ， 一 个 人 说 话 时 显示 
嘴 层 动作 的 视频 必须 与 其 说 话 的 音频 同步 。 
为 了 能 够 预先 适时 地 向 大 量 数据 使 用 者 提供 数据 ， 从 磁盘 取得 数据 时 必须 仔细 协调 。 通 常 ， 数 据 
以 周期 性 的 循环 方式 获取 。 在 每 次 循环 中 ( 设 为 n 秒 )， 为 每 个 使 用 者 取得 n 秒 的 数据 并 存储 在 内 存 组 
冲 区 中 ， 而 前 一 次 循环 取得 的 数据 从 内 存 缓冲 区 中 传送 给 使 用 者 。 循 环 周期 是 一 种 折 中 : 短 周 期 使 用 
较 少 的 内 存 但 是 需要 更 多 的 磁盘 臂 的 移动 ， 这 样 会 浪费 资源 ; 而 长 周期 能 减少 磁盘 臂 移 动 但 是 增加 了 
所 需 内 存 ， 而 且 可 能 导致 初始 数据 传输 的 延迟 。 当 新 的 需求 到 来 时 ， 接 纳 控制 (admission control ) 开始 
起 作用 : 也 就 是 说 ， 系 统 检 测 ( 每 周期 中 的 ) 可 用 资源 能 否 满足 需求 ， 如 果 能 满足 则 接纳 ; 否则 拒绝 

对 连续 媒体 数据 传输 的 大 量 研究 都 是 处 理 诸 如 磁盘 阵列 和 磁盘 失效 这 样 的 问题 。 查 阅 文 献 注解 可 
得 到 详细 内 容 。 

一 些 厂商 提供 视频 点 播 服务 器 。 当 前 的 系统 基于 文件 系统 ， 因 为 现 有 的 数据 库 系 统 不 能 提供 这 些 
应 用 所 需 的 实时 响应 。 视 频 点 播 系统 的 基本 体系 结构 包括 : 

© 视频 服务 器 (video server) 。 多 媒体 数据 存储 在 多 个 磁盘 上 (通常 是 用 RAID 的 配置 )。 包 含 大 量 
数据 的 系统 可 使 用 三 级 存储 器 存储 不 常 访问 的 数据 。 

o 终端 (terminal) 。 人 们 通过 各 种 设备 观看 多 媒体 数据 ， 这 些 设备 统称 为 终端 。 这 种 设备 的 例子 
包括 个 人 计算 机 和 连接 到 机 项 盒 ( set-top box) 的 电视 机 ， 机 顶 盒 是 一 种 小 的 廉价 计算 机 。 

© 网 络 (network) 。 从 服务 器 向 多 个 终端 传送 多 媒体 数据 需要 有 高 容量 的 网 络 。 

电缆 网 络 上 的 视频 点 播 服务 应 用 非常 广泛 。 

25.4.3 ”基于 相似 性 的 检索 
在 许多 多 媒体 应 用 中 ,数据 只 是 近似 地 在 数据 库 中 描述 。25. 4 节 中 的 指纹 数据 就 是 一 个 例子 。 其 
他 例子 还 有 : 

° 图 片 数据 (pictorial data) 。 对 于 在 数据 库 中 的 表示 略微 有 些 不 同 的 两 张 图 片 或 图 像 ， 用 户 可 能 认 
为 是 相同 的 。 例 如 ， 某 个 数据 库 可 能 存储 了 商标 设计 。 当 一 个 新 商标 要 注册 时 ， 系 统 首先 需要 
识别 出 以 前 注册 过 的 所 有 类 似 商标 。 

e 音频 数据 (audio data) 。 现 已 开发 出 基于 语音 的 用 户 界面 ， 允 许 用 户 通 过 说 话 来 发 出 命令 或 识别 
某 个 数据 项 。 这 就 必须 检测 出 用 户 输入 与 系统 中 存储 的 命令 或 数据 项 的 相似 性 。 

© 手书 数据 (handwritten data) 。 手 写 输入 可 用 于 识别 存储 在 数据 库 中 的 手书 数据 项 或 命令 。 这 里 
再 次 需要 相似 性 检测 。 

相似 性 的 概念 常常 是 主观 的 和 针对 用 户 的 。 但 是 ， 相 似 性 检测 往往 比 语音 或 手书 识别 更 成 功 ， 因 

为 输入 可 以 与 已 经 在 系统 中 的 数据 进行 比较 ， 这 样 系统 可 做 的 选择 集合 就 受 限 了 。 
现在 已 经 有 一 些 算法 利用 相似 性 检测 来 找 出 给 定 输入 的 最 佳 匹配 。 许 多 语音 激活 系统 已 有 商业 应 
用 ,特别 是 用 于 电话 应 用 和 交通 工具 控制 。 相 关 参 考 文献 请 参见 文献 注解 。 


25.5 移动 性 和 个 人 数据 库 


大 型 商用 数据 库 传 统 上 是 存储 在 中 央 计 算 设 备 上 的 。 在 分 布 式 数 据 库 应 用 中 ， 通 常 有 强大 的 中 央 
数据 库 和 网 络 管理 。 然 而 有 这 样 几 个 技术 趋势 共同 产生 了 一 些 应 用 ， 在 这 些 应 用 里 这 种 集中 的 控制 和 
管理 假设 并 不 完全 正确 : 

© 膝 上 型 电脑 、 笔 记 本 电脑 或 上 网 本 电脑 的 广泛 使 用 。 

。 具有 计算 机 能 力 的 手机 的 广泛 使 用 。 

。 基于 无 线 局 域 网 络 、 蜂 窝 数字 包 网 络 和 其 他 技术 的 相对 低 成 本 的 无 线 数字 通信 基础 设施 的 

发 展 。 

移动 计算 (mobile computing) 在 许多 应 用 中 都 证 明 是 有 用 的 。 许 多 出 差 的 商务 人 员 都 使 用 膝 上 型 电 

脑 ， 以 便 在 途中 可 以 工作 和 访问 数据 。 邮 递 服 务 使 用 移动 计算 机 来 辅助 包 庄 的 跟踪 。 紧 急 响应 服务 使 
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用 移动 计算 机 在 灾难 、 医 疗 急救 及 类 似 情况 的 现场 访问 信息 ， 并 且 输 入 与 当时 情况 有 关 的 数据 。 手 机 
日 益 成 为 不 仅仅 是 提供 电话 服务 的 设备 ， 而 且 还 是 允许 电子 邮件 和 Web 访问 的 移动 计算 机 。 移 动 计算 
机 的 新 应 用 还 在 继续 出 现 。 

无 线 计算 带 来 了 一 种 新 形势 : 计算 机 不 再 有 固定 的 位 置 和 网 络 地 址 。 位 置 相关 查询 (location- 
dependent query) 是 由 移动 计算 机 促成 的 一 类 有 趣 的 查询 。 在 这 类 查询 中 ,用 户 ( 计 算 机 ) 的 位 置 是 查询 
的 一 个 参数 。 位 置 参数 的 值 由 全 球 定位 系统 (GPS ) 提供 。 例 如 ， 一 个 旅客 信息 系统 为 乘客 提供 关于 旅 
馆 、 路 边 服务 及 类 似 信 息 。 有 关 当 前 道路 前 方 服 务 的 查询 必须 根据 用 户 位 置 、 移 动 方向 以 及 速度 进行 
处 理 。 逐 渐 地 ， 导 航 辅助 越 来 越 多 地 成 为 汽车 提供 的 一 个 内 置 功能 。 

能 源 (电池 电源 ) 对 大 多 数 移动 计算 机 来 说 是 一 种 稀有 资源 。 这 一 限制 影响 了 系统 设计 的 许多 方 
面 。 能 源 效率 需求 带 来 的 更 有 趣 的 结果 之 一 是 小 的 移动 设备 大 部 分 时 间 在 休 眼 ， 只 在 大 约 每 秒 的 小 部 
分 时 间 内 是 醒 着 的 ， 以 检测 进来 的 数据 和 向 外 发 送 数据 。 这 种 行为 对 用 于 移动 设备 通信 所 使 用 的 协议 
有 重大 影响 。 使 用 预定 的 数据 广播 来 减少 移动 系统 传输 查询 的 需求 是 另 一 种 减少 能 量 需 求 的 方法 

越 来 越 多 的 数据 会 放 在 由 用 户 管 理 的 而 不 是 由 数据 库 管 理 员 管理 的 计算 机 上 。 并 且 ， 这 些 计算 机 
有 时 可 能 与 网 络 断 开 连 接 。 在 许多 情况 下 ， 用 户 在 断 开 连 接 时 仍 能 继续 工作 的 需求 与 保持 全 局 数据 一 
致 性 的 需求 会 产生 矛盾 。 

用 户 很 可 能 使 用 不 止 一 种 移动 设备 。 不 管 在 给 定时 间 使 用 哪 种 设备 ， 用 户 都 需要 能 够 看 到 他 们 的 
数据 的 最 新 版 本 。 通 常 ， 这 种 能 力 由 我 们 在 19. 9 节 中 讨论 过 的 云 计 算 的 某 些 变 体 来 支持 。 

从 25. 5.1 节 到 25. 5.4 节 ， 我 们 讨论 正在 使 用 和 正 处 于 开发 过 程 中 的 、 用 于 解决 移动 及 个 人 计算 
问题 的 技术 。 

25.5.1 移动 计算 模型 

移动 计算 环境 由 移动 计算 机 ( 称 为 移动 主机 ( mobile host) ) 和 有 线 计算 机 网 络 构成 。 移 动 主 机 通过 
称 为 移动 支持 站 点 (mobile support station ) 的 计算 机 与 有 线 网 络 通信 。 每 个 移动 支持 站 点 管理 在 其 单元 
《cell)( 即 它 所 履 盖 的 地 理 区 域 ) 内 的 那些 移动 主机 。 移 动 主 机 可 以 在 单元 间 移 动 ， 因 此 必须 有 从 一 个 
移动 支持 站 点 到 另 一 个 移动 支持 站 点 的 控制 交接 (handoff) 。 由 于 移动 主机 有 时 可 能 关闭 电源 ， 一 台 主 
机 可 能 离开 一 个 单元 而 随后 在 某 个 很 远 的 单元 内 重新 出 现 。 因 此 ， 单 元 间 的 移动 不 一 定 是 在 相 邻 单元 
间 进 行 的 。 在 一 个 小 区 域内 部 ， 如 一 栋 建 筑 内 ， 移 动 主 机 可 以 通过 无 线 局 域 网 (LAN ) 相连 ， 它 比 广 域 
蜂窝 网 络 提供 了 更 低 的 连接 成 本 ， 并 且 减 少 了 交接 的 开销 。 

移动 主机 之 间 不 通过 移动 支持 站 点 的 介 人 而 直接 通信 是 可 能 的 。 但 是 ， 这 种 通信 只 能 是 在 临近 主 
机 之 间 发 生 。 这 种 直接 通信 形式 通常 使 用 蓝牙 ( Bluetooth ) ， 蓝 牙 使 用 短程 数字 无 线 电 通信 标准 ， 人 允许 
以 很 高 的 速度 (最 高 721kbys) 进行 10 米 之 内 范围 的 无 线 连接 。 最 初 的 构想 是 把 蓝牙 作为 电缆 的 替代 
物 ， 蓝 牙 的 最 大 优势 在 于 ， 它 提供 一 种 简单 的 、 针 对 移动 计算 机 、PDA 、 移 动 电话 以 及 所 谓 智 能 设备 
的 即席 连接 。 

现在 基于 801. 11 (a/b/g/n) 标准 的 无 线 局 域 网 络 系统 已 经 被 广泛 使 用 ， 基 于 802. 16( Wi-Max) 标准 
的 系统 正在 部 署 中 。 

移动 计算 的 网 络 基 础 架构 大 部 分 由 两 种 技术 构成 : 无 线 局 域 网 和 基于 包 的 蜂窝 电话 网 络 。 早 期 的 
蜂窝 系统 使 用 模拟 技术 并 设计 用 于 语音 通信 。 第 二 代数 字 系统 仍 然 集中 于 语音 应 用 。 第 三 代 (3G) 和 所 
WAY 2.56 系统 使 用 基于 包 的 网 络 ， 更 适 于 数据 应 用 。 在 这 些 网 络 中 ， 语 音 应 用 只 是 众多 应 用 中 的 一 种 
(尽管 从 经 济 角度 来 讲 是 重要 的 一 种 )。 第 四 代 (4G) 技 术 包 括 Wi-Max 和 几 个 竞争 者 。 

蓝牙 、 无 线 局 域 网 以 及 2.5G 和 3G 蜂窝 网 络 使 多 种 不 同 设备 间 的 低 成 本 通信 成 为 可 能 。 然 而 这 种 
通信 本 身 并 不 适合 通常 的 数据 库 应 用 领域 ， 有 关 这 种 通信 的 账户 、 监 控 和 管理 数据 产生 了 巨大 的 数据 
库 。 无 线 通信 的 直接 性 产生 了 实时 访问 许多 这 种 数据 库 的 需要 。 这 种 即时 性 的 需求 为 系统 增加 了 另 一 
维 约束 ， 我 们 将 在 26. 4 节 进 一 步 讨论 这 个 问题 。 

许多 移动 计算 机 的 大 小 和 电源 限制 导致 了 另 一 种 内 存 层 次 结构 。 它 包括 闪存 存储 器 以 取代 磁盘 存 
储 器 或 附加 在 磁盘 存储 器 之 上 ， 我 们 在 10. 1 节 讨 论 了 内 存 存储 器 。 如 果 移 动 主机 包含 硬盘 ， 硬 盘 可 能 
允许 在 不 用 的 时 候 印 下 ， 以 节省 能 源 。 大 小 和 能 源 的 考虑 同样 限制 了 移动 设备 中 所 使 用 的 显示 器 的 类 
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型 和 大 小 。 移 动 设备 设计 者 常常 创建 专用 用 户 界面 以 工作 在 这 些 限制 之 下 。 但 是 ， 出 于 展现 Web 数据 
的 需求 ， 有 必要 创建 数据 的 表示 标准 。 无 线 应 用 协议 ( Wireless Application Protocol, WAP) 就 是 一 个 无 
线 因特网 访问 标准 。 基 于 WAP 的 浏览 器 访问 使 用 无 线 标记 语言 ( Wireless Markup Language, WML) 的 特 
殊 Web 页 面 ， 其 中 WML 是 一 种 基于 XML 的 语言 ， 它 是 针对 移动 和 无 线 Web 浏览 的 限制 而 设计 的 。 
25. 5.2 路 由 和 查询 处 理 
如 果 两 台 主 机 中 有 一 台 是 移动 主机 ， 则 这 一 对 主机 之 间 的 路 由 可 能 会 随时 间 的 推移 而 发 生变 化 。 
这 个 简单 的 事实 会 在 网 络 层 上 产生 戏剧 性 的 影响 ， 因 为 基于 位 置 的 网 络 地 址 已 不 再 是 系统 内 的 常量 了 。 
移动 性 也 直接 影响 到 数据 库 查 询 处 理 。 正 如 我 们 在 第 19 章 看 到 的 那样 ， 我 们 在 选择 分 布 式 查询 处 
理 策略 时 必须 考虑 通信 人 代价。 移动 性 导致 了 通信 代价 的 动态 改变 ， 从 而 使 得 优化 处 理 复杂 化 。 另 外 ， 
还 有 一 些 相互 竞 争 的 代价 概念 需要 考虑 : 
。 用 户 时 间 (user time) 在 许多 商务 应 用 中 是 十 分 宝贵 的 财富 。 
。 连接 时 间 (connection time) 在 某 些 蜂 窝 系 统 中 是 决定 收费 的 单位 。 
e 传输 的 字 节 数 或 包 数 ( number of bytes, or packets, transferred ) 在 革 些 数字 蜂窝 系统 中 是 计算 收 
费 的 单位 。 
。 基于 每 日 不 同时 段 的 收费 (time-of-day-based charges ) 根据 通信 发 生 在 高 峰 时 段 还 是 非 高 峰 时 段 
而 不 同 。 
。 能 源 (energy) 是 有 限 的 。 通 常 ， 电 池 电 源 是 珍贵 的 资源 ， 必 须 优 化 其 使 用 。 无 线 电 通信 的 一 个 
基本 原理 是 接收 无 线 电信 和 号 需要 的 能 量 比 发 送 无 线 电信 号 要 少 。 因 此 ， 移 动 主机 传输 和 接收 数 
据 所 需 的 能 源 是 不 同 的 。 
25.5.3 广播 数据 
我 们 常常 希望 频繁 请 求 的 数据 由 移动 支持 站 点 不 断 周 期 性 地 广播 ， 而 不 是 在 需要 的 时 候 才 发 送 到 
移动 主机 。 这 种 广播 数据 (broadcast data) 的 典型 应 用 是 股市 价格 信息 。 使 用 广播 数据 有 两 个 原因 。 首 
先 ， 移 动 主 机 避免 了 发 送 数据 请 求 的 能 源 开 销 。 其 次 ， 广 播 数据 可 以 立刻 被 大 量 的 移动 主机 接收 到 ， 
而 没有 额外 的 开销 。 因 此 ， 可 用 的 传输 带宽 得 到 了 更 有 效 的 利用 。 
这 样 ， 移 动 主机 可 以 在 那些 数据 发 送 过 来 时 接收 数据 ， 而 不 会 因 发 送 请 求 而 耗费 能 源 。 移 动 主 机 
可 能 有 本 地 非 易 失 性 存储 器 来 高 速 缓存 广播 数据 ， 以 备 将 来 可 以 使 用 。 当 给 定 一 个 查询 时 ， 移 动 主 机 
通过 判断 是 否 只 使 用 缓存 数据 就 可 以 处 理 该 查询 来 优化 能 源 开销 。 如 果 缓 存 数据 不 够 用 ， 可 以 有 两 种 
选择 : 等 待 数据 被 广播 或 发 送 数据 请 求 。 要 做 出 这 个 决定 , 移动 主机 必须 知道 相关 数据 什么 时 候 会 
广播 。 
广播 数据 可 以 按照 固定 的 或 变化 的 时 间 表 发 送 。 对 于 前 一 种 情况 ， 移 动 主 机 使 用 已 知 的 固定 时 间 
表决 定 什么 时 候 相 关 数 据 会 发 送 。 对 于 后 一 种 情况 ,广播 时 间 表 本 身 必须 在 一 个 众所周知 的 无 线 电 频 
率 上 以 众所周知 的 时 间 间 隔 进行 广播 。 
实际 上 ， 广 播 介 质 可 以 建 模 为 具有 高 延迟 的 磁盘 。 对 数据 的 请 求 可 以 认为 是 在 所 请 求 的 数据 被 广 
播 时 得 到 了 服务 。 传 输 时 间 表 的 作用 类 似 于 磁盘 上 的 索引 。 文 献 注解 中 列 出 了 最 近 的 有 关 广 播 数据 管 
理 领 域 的 研究 论文 。 
25.5.4 连接 断 开 与 一 致 性 
由 于 无 线 通 信 可 能 会 基于 连接 时 间 付 费 ， 所 以 某 些 移动 主机 要 求 能 在 一 段 时 间 内 断 开 连接 。 除 了 
周期 性 地 以 物理 方式 或 通过 计算 机 网 络 连 接 到 宿主 计算 机 ， 不 带 无 线 连接 的 移动 计算 机 在 它们 被 使 用 
的 大 部 分 时 间 内 都 是 断 开 连接 的 。 
在 断 开 连接 的 时 间 段 内 ， 移 动 主机 仍 可 以 继续 运行 。 移 动 主 机 用 户 可 以 对 驻 留 于 本 地 的 或 缓存 在 
本 地 的 数据 进行 查询 和 更 新 。 这 种 情况 产生 了 一 些 问题 ， 特 别 是 : 
© 可 恢复 性 ( recoverability) : 如 果 在 移动 主机 上 发 生 灾难 性 故障 ， 在 断 开 连接 的 机 器 上 进行 的 更 
新 可 能 会 丢失 。 由 于 移动 主机 代表 单 点 故障 ， 所 以 不 可 能 很 好 地 模拟 稳定 存储 。 
e 一 致 性 ( consistency): 移动 主机 只 有 在 重新 连接 后 才能 发 现在 本 地 缓存 的 数据 可 能 已 经 过 时 。 
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与 此 类 似 ， 在 移动 主机 上 进行 的 更 新 只 有 在 重新 连接 后 才能 传播 给 其 他 主机 。 

我 们 在 第 19 章 探讨 了 一 致 性 问题 ， 也 讨论 了 网 络 分 割 ， 这 里 我 们 做 进一步 的 详细 讨论 。 在 有 线 分 
布 式 系 统 中 ， 分 割 被 认为 是 一 种 故障 模式 ; 在 移动 计算 中 ， 通 过 断 开 连 接 造成 的 分 割 是 操作 的 常规 模 
式 的 一 部 分 。 所 以 即使 存在 分 割 ， 甚 至 有 损失 某 些 一 致 性 的 危险 ， 仍 然 应 当 人 允许 进行 数据 访问 。 

对 于 只 被 移动 主机 更 新 的 数据 ， 在 移动 主机 重新 连接 时 传播 其 上 的 更 新 是 一 个 简单 的 问题 。 然 而 ， 
如 果 移 动 主机 缓存 了 可 能 被 其 他 计算 机 更 新 的 数据 的 只 读 副 本 ,那么 缓存 的 数据 就 可 能 变 得 不 一 致 。 
当 移 动 主机 连接 时 ， 可 以 给 它 发 送 失效 报告 (invalidation report)， 通 知 它 有 过 期 的 缓存 数据 项 。 但是， 
当 移 动 主机 断 开 连接 时 ， 它 可 能 会 错过 失效 报告 。 解 决 这 个 问题 的 一 种 简单 方法 是 在 重新 连接 时 对 整 
个 缓存 都 作 失效 处 理 ， 但 这 种 极端 的 解决 方法 开销 太 大 。 文 献 注解 中 引用 了 几 种 缓存 方案 。 

如 果 更 新 可 以 发 生 在 移动 主机 和 其 他 地 方 ， 检 测 更 新 冲突 就 更 为 困难 。 基 于 版 本 编号 ( version- 
numbering) 的 方案 允许 断 开 连 接 的 主机 对 共享 文件 进行 更 新 。 这 些 方 案 不 能 保证 更 新 是 一 致 的 。 但 是 ， 
它们 保证 如 果 两 台 主 机 独立 地 更 新 一 份 文档 的 同一 个 版 本 ,那么 当主 机 直接 地 或 者 通过 公共 主机 交换 
信息 时 这 种 冲突 最 终 会 被 检测 出 来 。 

当 文 档 的 多 个 副本 被 独立 更 新 时 ， 版 本 向 量 方案 ( version-vector scheme ) 检测 它们 之 间 的 不 一 致 性 
这 种 方案 允许 文档 的 副本 保存 在 多 台 主 机 中 。 虽 然 我 们 使 用 文档 这 个 术语 ， 这 种 方案 也 可 以 应 用 到 任 
何其 他 数据 项 上 ， 如 关系 的 元 组 。 

基本 思路 是 : 每 台 主机 i 针对 其 每 份 文档 d 的 副本 都 存储 一 个 版 本 向 量 ( version vector) ， 即 一 个 版 
本 号 的 集合 (V1)! ， 其 中 对 于 每 台 有 可 能 更 新 该 文档 的 其 他 主机 j 都 有 一 项 。 当 主机 i 更 新 文档 d 
时 ， 它 将 版 本 号 Vlil] 加 一 。 

每 当 两 台 主机 i 和 j 相互 连接 时 ,它们 交换 更 新 的 文档 ， 这 样 它 们 都 可 获得 文档 的 新 版 本 。 但 是 ， 
在 交换 文档 前 ， 主 机 必须 检查 副本 是 否 一 致 : 

1. 如 果 两 台 主 机 的 版 本 向 量 相同 ， 即 对 每 个 和 ,Vi;[k] = Wj[k] ， 则 文档 d 的 副本 是 相同 的 

2. 如 果 对 每 个 k, Vlk] < Wj[k] ,并 且 版 本 向 量 不 相同 ， 则 文档 d 在 主机 i 上 的 副本 比 在 主机 j 
上 的 副本 旧 。 也 就 是 说 ,文档 d 在 主机 j 上 的 副本 是 对 主机 i 上 的 副本 进行 了 一 次 或 多 次 修改 之 后 得 到 
的 。 这 时 ,主机 i 用 主机 j 上 的 副本 替换 其 d 的 副本 以 及 d 的 版 本 向 量 的 副本 。 

3. WRFE—I EBL A Am, 使 得 VW [hk] >VWj[kj 且 ,Lm] <VWjLm]， 则 副本 是 不 一 致 的 ; 也 
就 是 说 ， 主 机 i 上 的 d 的 副本 包含 主机 所 做 的 更 新 ， 而 这 些 更 新 还 没有 传播 到 主机 上。 同样 地 , d 
在 ij 上 的 副本 包含 主机 m 所 做 的 更 新 ， 而 这 些 更 新 还 没有 传播 到 主机 i 上 。 于 是 ，d 的 副本 就 是 不 一 致 
的 ， 因 为 4d 上 分 别 进行 了 两 次 或 多 次 更 新 。 这 时 可 能 需要 人 工 介 入 来 合并 更 新 ，。 

版 本 向 量 方案 最 初 用 来 处 理 分 布 式 文件 系统 的 故障 。 该 方案 的 重要 性 在 于 移动 计算 机 常常 存储 文 
件 的 副本 ， 这 些 副本 也 出 现在 服务 器 系统 中 ， 实 际 上 就 构成 了 一 个 经 常会 断 开 连接 的 分 布 式 文件 系统 。 
这 一 方案 的 另 一 个 应 用 是 在 群 件 系 统 中 ， 其 中 的 主机 是 周期 性 地 而 非 持续 性 地 连接 ， 并 且 必 须 交 换 更 
新 后 的 文档 。 

版 本 向 量 方案 在 有 副本 的 数据 库 中 也 有 应 用 ， 其 中 它 可 以 应 用 于 单个 元 组 。 例 如 ， 如 果 一 份 日 历 
或 住址 名 册 是 在 一 个 移动 设备 以 及 一 台 主 机 上 同时 维护 的 ， 插 入 、 删 除 和 更 新 既 可 以 发 生 在 移动 设备 
上 ， 也 可 以 发 生 在 主机 上 。 通 过 在 单个 日 历 项 或 联系 人 上 应 用 版 本 向 量 方 案 ， 可 以 容易 地 处 理 这 种 情 


[1083] 


况 : 一 个 特定 项 已 在 移动 设备 上 更 新 了 ， 同 时 另 一 个 不 同 的 项 在 主机 上 更 新 。 这 种 情况 不 会 被 认为 是 [1084 


冲突 。 但 是 ， 如 果 同 样 的 项 在 两 个 地 方 独立 地 更 新 ， 通 过 版 本 向 量 方案 会 检测 到 冲突 。 

然而 ， 版 本 向 量 方案 并 不 能 解决 更 新 共享 数据 中 最 困难 、 最 重要 的 问题 : 不 一 臻 数据 副本 的 一 致 
化 。 许 多 应 用 可 以 自动 执行 一 致 化 ， 这 是 通过 在 每 台 计 算 机 上 执行 断 开 连 接 期 间 在 远 端 计算 机 上 执行 
过 的 更 新 操作 来 实现 的 。 该 方案 在 更 新 操作 可 交换 时 有 效 ， 也 就 是 说 ， 无 论 以 怎样 的 顺序 执行 这 些 操 
作 ， 其 结果 都 是 相同 的 。 特 定 应 用 中 有 其 他 一 些 可 用 技术 ; 但 是 ， 在 最 差 的 情况 下 ， 必 须 由 用 户 来 解 
决 不 一 致 性 。 如 何 自动 处 理 这 种 不 一 致 性 以 及 如 何 辅助 用 户 解决 不 能 自动 处 理 的 不 一 致 性 仍然 是 一 个 
研究 的 领域 。 

版 本 向 量 方案 的 另 一 个 弱点 是 它 要求 在 重新 连接 的 移动 主机 和 该 主机 的 移动 支持 站 点 之 间 有 实质 
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性 通信 。 一 致 性 检查 可 以 延迟 到 需要 数据 时 再 进行 ， 尽 管 这 种 延迟 可 能 增加 数据 库 整 体 的 不 一 致 性 。 

断 开 连接 的 可 能 性 和 无 线 通信 的 开销 限制 了 第 19 章 所 讨论 的 分 布 式 系统 的 事务 处 理 技 术 的 实用 
性 。 通常 最 好 是 由 用 户 在 移动 主机 上 准备 事务 ,但 需要 他 们 将 事务 提交 给 服务 器 执行 ， 而 不 是 在 本 地 
执行 这 些 事务 。 跨 越 多 台 计 算 机 并 且 其 中 包含 移动 主机 的 事务 在 事务 提交 过 程 中 会 面临 长 时 间 的 阻塞 ， 
除非 断 开 连接 的 情况 极 少 发 生 或 者 是 可 以 预测 的 。 


25.6 总 结 


。 时 间 在 数据 库 系统 中 扮演 着 重要 的 角色 。 数 据 库 是 现实 世界 的 模型 。 尽 管 大 部 分 数据 库 只 模拟 现实 
世界 在 一 个 时 间 点 (在 当前 时 间 ) 上 的 状态 ， 但 时 态 数据 库 模 拟 的 是 现实 世界 随时 间 变 化 的 状态 。 

时 态 关系 中 的 事实 与 当 它们 有 效 时 的 时 间 相 关联 ， 而 时 间 可 以 用 时 段 的 并 来 表示 。 时 态 查询 语言 简 
化 了 时 间 建 模 以 及 与 时 间 相 关 的 查询 。 

。 目前 空间 数据 库 正 越 来 越 多 地 用 于 存储 计算 机 辅助 设计 数据 和 地 理 数 据 。 

© 设计 数据 主要 以 矢量 数据 的 形式 存储 ; 地 理 数 据 包含 矢量 数据 和 光栅 数据 的 组 合 。 空 间 完 整 性 约束 
对 于 设计 数据 十 分 重要 。 

矢量 数据 可 以 编码 成 为 第 一 范式 数据 ， 或 者 用 非 第 一 范式 结构 来 存储 ， 如 列表 。 专 用 索引 结构 对 于 
访问 空间 数据 和 处 理 空间 查询 尤为 重要 。 

。R 树 是 B 树 的 多 维 扩展 ; 它 和 它 的 变 体 (如 R' 树 和 R' 树 ) 在 空间 数据 库 中 得 到 了 广泛 的 应 用 。 将 空 
间 以 某 种 固定 方式 进行 划分 的 索引 结构 ( 如 四 又 树 ) 有 助 于 处 理 空 间 连接 查询 。 

多 媒体 数据 库 正 变 得 越 来 越 重 要 。 诸 如 基于 相似 性 的 检索 以 及 按 可 以 确保 的 速率 传输 数据 那样 的 问 
题 是 当前 研究 的 重要 课题 。 

移动 计算 系统 的 普及 使 得 人 们 对 在 这 类 系统 上 运行 的 数据 库 系统 产生 了 兴趣 。 在 这 类 系统 中 的 查询 
处 理 可 能 会 涉及 在 服务 器 端 数据 库 上 的 查找 。 查 询 代价 模型 必须 包括 通信 代价 ， 其 中 包括 金钱 上 的 
成 本 和 电池 电源 的 成 本 ， 它 们 对 于 移动 系统 来 说 是 相对 较 高 的 。 

广播 方式 比 点 对 点 通信 在 每 接收 者 上 的 成 本 要 便宜 得 多 ， 诸 如 股市 之 类 数据 的 广播 有 助 于 移动 系统 





























低 成 本 地 接收 数据 。 

。 连接 断 开 操作 、 广 播 数 据 的 使 用 和 数据 缓存 是 移动 计算 中 正 致力 解决 的 三 个 重要 问题 。 
术语 回顾 
© 时 态 数据 。 地 理 数据 次 方 分 裂 
e 有 效 时 间 © 光栅 数据 o 多 媒体 数据 库 
。 事务 时 间 。 矢量 数据 。 等 时 数据 
。 时 态 关 系 。 全 球 定位 系统 (GPS ) 。 连续 媒体 数据 
。 双 时 态 关 系 。 空间 查询 。 基于 相似 性 的 检索 
。 全 球 协调 时 间 ( UTC) 。 临近 查询 © 多 媒体 数据 格式 
。 快照 关系 。 最 近邻 居 查 询 o 视频 服务 器 
。 时 态 查 询 语言 © 区 域 查询 。 移动 计算 
© 时 态 选择 。 空间 连接 口 移动 主机 
。 时 态 投影 。 空间 数据 索引 口 移动 支持 站 点 
。 时 态 连 接 © k-d 树 口 单元 
。 空间 和 地 理 数 据 e k-d-B 树 口 交接 
© 计算 机 辅助 设计 (CAD) 数 据 。 四 又 树 。 位 置 相关 查询 
© 地 理 数据 O PR XH 。 广播 数据 
。 地 理 信息 系统 O 区 域 四 又 树 。 一 致 性 
。 =E 。R 树 失效 报告 
© 设计 数据 库 口 边界 框 口 版 本 向 量 方案 
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实践 习题 

25.1 时 间 有 哪 两 种 类 型 ? 怎样 区 分 它们 ? 为 什么 将 一 个 元 组 与 这 两 类 时 间 联 系 起 来 是 有 意义 的 ? 

25.2 ”假设 有 一 个 关系 包含 x*，y 坐标 和 和 餐馆 名 。 并 假设 查询 只 能 是 如 下 形式 : 查询 指定 一 个 点 ， 问 是 否 恰 
好 有 一 家 餐馆 在 这 个 点 上 。R 树 或 B 树 哪 一 种 索引 更 好 ? 为 什么 ? 

25.3 ”假设 有 一 个 空间 数据 库 支 持 区 域 查询 ( 圆 形 区 域 ) ， 但 不 支持 最 近邻 居 查 询 。 描 述 一 个 算法 ， 通 过 利 
用 多 个 区 域 查 询 来 找到 最 近 的 邻居 。 

25.4 假设 要 在 R 树 中 存储 线段 。 如 果 线 段 与 坐标 轴 不 平行 ， 它 的 边界 框 会 很 大 ， 并 包含 大 量 的 空白 区 域 。 
。 请 说 明 在 查询 与 一 个 给 定 区 域 相交 的 线段 时 ， 大 边界 框 对 性 能 的 影响 。 
。 简要 描述 一 种 能 提高 此 类 查询 性 能 的 技术 ， 并 给 出 体现 其 优点 的 例子 。 提 示 : 可 以 把 线段 分 为 更 

小 的 部 分 。 

25.5 请 给 出 一 个 使 用 R 树 索引 来 有 效 计 算 两 个 关系 的 空间 连接 的 递归 过 程 。( 提示: 使 用 边界 框 检查 一 对 
内 部 结 点 之 下 的 叶 结 点 项 是 否 相 交 。) 

25.6 描述 RAID 磁盘 组 织 (10.3 节 ) 中 的 想法 是 如 何 应 用 于 数据 广播 环境 的 ， 该 环境 中 有 时 会 有 噪音 阻止 
部 分 传输 数据 的 接收 。 

25.7 定义 一 个 重复 广播 数据 的 模型 ， 其 中 广播 介质 建 模 为 一 个 虚拟 磁盘 。 描 述 这 个 虚拟 磁盘 的 存 取 时 间 和 
数据 传输 率 与 一 个 普通 硬盘 的 对 应 值 的 差异 。 

25.8 考虑 一 个 将 所 有 文档 保存 在 中 央 数 据 库 的 文档 数据 库 。 有 些 文档 的 副本 存储 在 移动 计算 机 上 。 假 设 移 
动 计算 机 A 在 断 开 连接 期 间 更 新 了 文档 1 的 副本 ， 同 时 ， 移 动 计算 机 B 在 断 开 连接 期 间 更 新 了 文档 2 
的 副本 。 请 说 明 在 移动 计算 机 重新 连接 时 ， 版 本 向 量 方案 如 何 保证 对 中 央 数 据 库 和 移动 计算 机 的 正确 
更 新 。 

习题 

25.9 ”如 果 通 过 增加 一 个 时 间 属 性 来 将 关系 转换 为 时 态 关 系 ， 函 数 依赖 能 够 保持 吗 ? 这 一 问题 在 时 态 数据 库 
中 是 怎样 处 理 的 ? 

25.10 ”考虑 二 维 矢量 数据 ， 其 中 的 数据 项 互 不 重合 。 是 否 可 以 把 这 些 矢 量 数据 转换 为 光栅 数据 ? 如 果 可 以 ， 
存储 经 过 这 种 变换 得 到 的 光栅 数据 而 非 原 始 矢量 数据 有 什么 缺点 ? 

25. 11 研究 你 使 用 的 数据 库 系 统 所 提供 的 空间 数据 支持 ， 实 现 以 下 内 容 : 
a. 一 个 模式 ， 描 述 饭店 的 地 理 位 置 和 其 他 特征 ， 如 饭店 提供 的 豪 调 风格 和 消费 级 别 。 
b 一 个 查询 ， 寻 找 中 等 价位 的 提供 印度 食物 ， 并 且 距 离 你 的 房子 (为 你 的 房子 假设 一 个 任意 的 位 置 ) 

5 英里 以 内 的 饭店 。 

c. 一 个 查询 ， 为 每 个 饭店 寻找 其 与 最 近 的 一 个 具有 相同 的 豪 调 风格 和 消费 级 别 的 饭店 之 间 的 距离 。 

25.12 ”在 连续 媒体 系统 中 ， 如 果 数 据 传 送 过 慢 或 过 快 会 导致 什么 问题 ? 

25. 13” 列 出 无 线 网 络 上 的 移动 计算 与 传统 分 布 式 系统 相 区 别 的 三 个 主要 特性 。 

25. 14” 列 出 传统 查询 优化 器 没有 考虑 ,但 在 移动 计算 的 查询 优化 中 需要 考虑 的 三 个 因素 。 

25.15 给 出 版 本 向 量 方案 无 法 保证 可 串 行 性 的 例子 。( 提示: 使 用 实践 习题 25. 8 中 的 例子 ， 假 设 文档 1 和 
文档 2 在 移动 计算 机 A 和 B 上 都 可 用 ， 并 考虑 文档 读 出 时 没有 被 更 新 的 可 能 性 。) 


文献 注解 


Stam 和 Snodgrass[ 1988 ] 和 Soo[ 1991 ] 提供 了 关于 时 态 数 据 管理 的 概览 。Jensen 等 [1994 ] 给 出 了 时 态 数 
据 库 概念 的 一 个 术语 表 ， 旨 在 统一 术语 。Tansel 等 [1993 ] 是 有 关 时 态 数据 库 不 同方 面 文章 的 一 个 汇集 。 
Chomicki[ 1995 ] 给 出 了 管理 时 态 完整 性 约束 的 技术 。 

Heywood 等 [2002 ] 是 讲述 地 理 信 息 系统 的 教科 书 。Samet[ 1995b] 是 关于 空间 索引 结构 上 大 量 工作 的 一 个 
综述 。Samet[ 1990 ] 和 Samet[ 2006 ] 是 讲述 空间 数据 结构 的 教科 书 。Finkel 和 Bentley [1974 ] 中 有 对 四 又 树 的 
早期 描述 。Samet[ 1990 ] 和 Samet[ 1995b ] 描述 了 四 又 树 的 各 种 变 体 。Bentley[ 1975 ] 描述 了 k-d 树 ，Robinson 
[1981 ] 描述 了 k-d-B 树 。Guttman[ 1984 ] 最 先 提出 了 R 树 。R 树 的 各 种 扩展 由 Sellis 等 [1987 ] 作 了 阐述 ,其 
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中 描述 了 R* Rf, Beckmann 等 [1990 HRT RR. 
Brinkhoff 等 [1993 ] 讨论 了 使 用 R 树 来 实现 空间 连接 。Lo 和 Ravishankar | 1996 | 以 及 Patel 和 DeWitt 
[1996] 介 绍 了 计算 空间 连接 的 基于 划分 的 方法 。Samet 和 Aref[ 1995 ] 综 述 了 空间 数据 模型 、 空 间 运 算 以 及 空 
间 与 非 空 间 数据 的 集成 。 
Revesz[ 2002 ] 是 讲述 约束 数据 库 方 面 领域 的 教科 书 ; 时 间 间 隔 和 空间 区 域 可 以 看 作 是 约束 的 特殊 情况 。 
Samet[ 1995a ] 阐述 了 多 媒体 数据 库 中 的 研究 问题 。Faloutsos 和 Lin[ 1995 ] 讨论 了 多 媒体 数据 的 索引 。 
Dashti 等 [2003 ] 是 讲述 流 媒体 服务 器 设计 的 教科 书 ， 包 括 对 磁盘 子 系统 上 数据 组 织 的 详细 介绍 。 
Anderson 等 [1992 ] 、Rangan 等 [1992 ] 、Ozden 等 [ 1994 ] Freedman 和 DeWitt[ 1995 ] 以 及 Ozden 等 [ 1996b | 
讨论 了 视频 服务 器 。Berson 等 [1995 ] 和 Ozden 等 [1996a] 讨论 了 容错 性 。 
1089 Alonso 和 Korth[ 1993 ] 以 及 Imielinski 和 Badrinath [ 1994 ] 研究 了 包括 移动 计算 机 的 系统 中 的 信息 管理 。 
1090| Imielinski 和 Korth [1996] 介 绍 了 移动 计算 及 关于 该 主题 的 一 系列 研究 论文 。 
Popek 等 [1981 ] 以 及 Parker 等 [1983 ] 阐述 了 用 来 检测 分 布 式 文件 系统 中 的 不 一 致 性 的 版 本 向 量 方案 。 
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高 级 事务 处 理 


在 第 14 章 、 第 15 章 和 第 16 章 中 ,我 们 介绍 了 事务 的 概念 ， 事 务 是 一 个 程序 的 单位 ， 它 对 各 种 数 
据 项 进行 访问 或 更 新 ， 它 的 执行 确保 具有 ACID 特性 。 在 那 几 章 中 ， 我们 讨论 了 在 可 能 发 生 故 障 以 及 
可 能 并 发 运行 多 个 事务 的 环境 中 ， 为 保证 ACID 特性 所 采用 的 各 种 技术 。 

在 本 章 中 ， 我 们 比 以 前 讨论 过 的 基本 机 制 更 进一步 ， 介 绍 高 级 的 事务 处 理 概念 ， 包 括 事务 处 理 监 
控 器 、 事 务工 作 流 以 及 在 电子 商务 环境 中 的 事务 处 理 。 我 们 还 涵盖 主 存 数据 库 、 实 时 数据 库 、 长 事务 
URE F 


26.1 事务 处 理 监控 器 


在 20 世纪 70 年 代 和 80 年 代 开发 的 事务 处 理 监控 器 (TP monitor) 系统 ， 早 期 是 为 了 响应 单 台 计算 
机 支持 大 量 远程 终端 (例如 机 票 预订 终端 ) 的 需求 。 术 语 TP 监控 器 原来 代表 远程 处 理 监控 器 
( teleprocessing monitor) 。 
TP 监控 器 后 来 演化 为 提供 对 分 布 式 事务 处 理 的 核心 支持 ， 于 是 TP 监控 器 这 个 术语 获得 了 它 现在 
的 含义 。IBM 公司 的 CICS TP 监控 器 是 最 早 的 TP 监控 器 之 一 ， 应 用 非常 广泛 。 其 他 TP 监控 器 包括 
Oracle Tuxedo 和 Microsoft Transaction Server。 
Web 应 用 服务 器 体系 结构 包括 之 前 我 们 在 9. 3 节 学 习 的 servlets， 它 支持 TP 监控 器 的 许多 特性 ， 有 
时 候 被 称 为 “TP lite”, Web 应 用 服务 器 现在 正 被 广泛 使 用 ， 已 经 在 许多 应 用 中 替代 了 传统 TP 监控 器 。 
然而 ， 我 们 在 本 节 所 学 习 的 它们 的 基本 概念 在 本 质 上 是 一 样 的 。 
26.1.1 TP 监控 器 体系 结构 
大 规模 的 事务 处 理 系 统 建 立 在 客户 - 服务 器 体系 结构 之 上 。 构 建 这 种 系统 的 一 种 方式 是 为 每 个 客 
户 端 分 配 一 个 服务 器 进程 。 服 务 器 进行 认证 ， 然 后 执行 客户 端 请 求 的 动作 。 图 26- 1a 描述 了 这 种 每 客 
户 端 进程 模型 ( process-per-client model) 。 这 种 模型 在 内 存 利用 和 处 理 速 度 方面 存在 几 个 问题 ; 
。 每 个 进程 的 内 存 需求 量 很 大 。 即 使 程序 代码 所 用 的 内 存 是 由 所 有 进程 共享 的 ， 每 个 进程 还 要 耗 
费用 于 本 地 数据 和 打开 文件 描述 符 的 内 存 ， 以 及 用 于 操作 系统 的 开销 ， 如 支持 虚拟 内 存 的 
页 表 。 
o 操作 系统 通过 在 进程 间 的 切换 来 划分 可 利用 的 CPU 时 间 ， 这 种 技术 称 作 多 任务 调度 
(multitasking) 。 在 一 个 进程 和 下 一 个 进程 之 间 的 每 次 上 下 文 切 换 ( context switch ) 都 需要 相当 大 
的 CPU 开销 ， 即 使 在 目前 相当 快 的 系统 上 ， 一 次 上 下 文 切换 也 要 花 数 百 微 秒 的 时 间 。 
通过 使 用 与 所 有 远程 客户 端 都 连接 的 单 服 务 进 程 可 以 避免 上 述 问题 ， 这 种 模式 称 作 单 服务 器 模型 
(single-server model) ， 如 图 26-1b 所 示 。 远 程 客户 端 将 请 求 发 送 到 服务 器 进程 ， 然 后 由 服务 器 进程 执行 
这 些 请 求 。 这 种 模型 也 用 于 客户 - 服务 器 环境 中 ， 客 户 端 将 请 求 发 送 到 单 服 务 器 进程 。 服 务 器 进程 处 
理 通 常 由 操作 系统 执行 的 任务 ， 例 如 用 户 认证 。 为 了 避免 在 处 理 一 个 客户 端的 长 时 间 请 求 时 阻塞 其 他 
客户 端 ， 服 务 器 进程 是 多 线程 ( multithread ) 的 : 服务 器 进程 对 每 个 客户 端 有 一 个 线程 来 控制 ， 并 且 事 
实 上 是 在 实现 它 自己 的 低 开销 多 任务 调度 。 它 为 一 个 客户 端 执 行 一 段 时 间 的 代码 ， 然 后 保存 内 部 的 上 
下 文 ， 并 切换 到 另 一 个 客户 端的 代码 上 。 与 完全 多 任务 调度 不 同 ， 在 线程 之 间 切 换 的 代价 很 小 (通常 仅 
要 几 微 秒 ) 。 
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远程 客户 端 服务 器 文件 远程 客户 端 服务 器 SOE 

a ) 每 客户 端 进程 模型 b ) 单 服务 器 模型 
O 
QO 
© 
O 
© 

远程 客户 端 路 由 器 服务 器 文件 ”远程 客户 端 ” 路 由 器 服务 器 文件 
c) 多 服务 器 单 路 由 器 模型 d) 多 服务 器 多 路 由 器 模型 


Al 26-1 TP 监控 器 体系 结构 


基于 单 服 务 器 模型 的 系统 ， 例 如 IBM CICS TP 监控 器 的 原始 版 本 ， 以 及 像 Novel 的 NetWare 这 样 的 
文件 服务 器 ， 在 资源 有 限 的 情况 下 成 功 地 提供 了 较 高 的 事务 率 。 然 而 ， 它 们 存在 一 些 问 题 ， 尤 其 是 当 
多 个 应 用 访问 同一 数据 库 时 : 

。 由 于 所 有 应 用 作为 单个 进程 运行 ， 它 们 之 间 没 有 保护 。 一 个 应 用 中 的 错误 会 影响 到 所 有 其 他 应 

用 。 最 好 是 每 个 应 用 作为 一 个 单独 的 进程 运行 。 

。 这 样 的 系统 不 适合 于 并 行 数据 库 或 分 布 式 数据 库 ， 因 为 一 个 服务 器 进程 不 能 同时 在 多 台 计 算 机 
上 执行 。( 然 而 ， 在 共享 内 存 多 处 理 器 系统 中 可 以 支持 一 个 进程 中 有 多 个 并 发 线程 。) 在 大 型 组 
织 机 构 中 这 是 一 个 严重 的 缺陷 ， 因 为 其 中 的 并 行 处 理 对 处 理 大 型 负载 十 分 关键 ,而 且 分 布 式 数 
据 正 变 得 越 来 越 普遍 。 

解决 这 些 问题 的 一 个 办 法 是 运行 多 个 访问 公共 数据 库 的 应 用 服务 器 进程 ， 并 且 让 客户 端 通过 一 个 
单独 的 路 由 请 求 的 通信 进程 与 应 用 通信 。 这 种 模型 称 作 多 服务 器 单 路 由 器 模型 ( many-server, single- 
router model) ， 如 图 26-1c 所 示 。 这 种 模型 为 多 个 应 用 提供 独立 的 服务 器 进程 ; 而 且 ， 每 个 应 用 可 以 有 
一 个 服务 器 进程 池 ， 其 中 任何 一 个 进程 都 可 以 处 理 客户 端 会 话 。 例 如 ， 请 求 可 以 路 由 到 进程 池 中 负载 
最 轻 的 服务 器 上 。 如 前 所 述 ， 每 个 服务 器 进程 本 身 可 以 是 多 线程 的 ， 因 此 它 可 以 并 发 地 处 理 多 个 客户 
端 。 作 为 更 进一步 的 推广 ， 应 用 服务 器 可 以 在 并 行 数据 库 或 分 布 式 数据 库 的 不 同 站 点 上 运行 ， 并且 通 
信 进 程 可 以 在 这 些 进程 间 进 行 协同 。 

上 述 体 系 结构 也 广泛 应 用 于 Web 服务 器 。Web 服务 器 有 一 个 接收 HTTP 请 求 的 主 进程 ， 然 后 将 处 
理 各 个 请 求 的 任务 分 配给 单独 的 进程 (从 进程 池 中 选择 ) 。 每 个 进程 本 身 是 多 线程 的 ， 以 便 处 理 多 个 请 
求 。 使 用 安全 的 编程 语言 ， 例 如 Java、C# 或 Visual Basic, F Web 应 用 服务 器 能 够 保护 线程 免 受 其 他 
线程 错误 的 影响 。 相 比 之 下 ， 如 果 使 用 C 或 C++ 这 样 的 语言 ， 一 个 线程 中 像 内 存 分 配 错 误 这 样 的 错误 
可 能 引起 其 他 线程 的 失败 。 

一 种 更 通用 的 体系 结构 是 有 多 个 进程 而 不 仅 是 一 个 进程 ， 来 与 客户 端 通信 。 客 户 端 通信 进程 与 一 
个 或 多 个 路 由 进程 交互 ， 多 个 路 由 将 请 求 路 由 给 恰当 的 服务 器 。 因 此 新 一 代 TP 监控 器 具有 一 种 不 同 的 
体系 结构 ， 称 作 多 服务 器 多 路 由 器 模型 (many-server，many-router model) ， 如 图 26-1d 所 示 。 一 个 控制 
进程 启动 其 他 进程 并 监控 它们 的 工作 。 超 高 性 能 的 Web 服务 器 系统 也 采用 这 种 体系 结构 。 路 由 进程 通 
常 是 网 络 路 由 器 ， 它 们 根据 通信 量 的 来 源 将 到 达 同 一 互联 网 地 址 的 通信 量 分 流 到 不 同 的 服务 器 计算 机 
上 。 外 部 世界 看 似 具 有 单一 地 址 的 单 台 服务 器 可 能 是 服务 器 的 集合 。 

TP 监控 器 的 详细 结构 如 图 26-2 所 示 。TP 监控 器 不 仅仅 是 简单 地 将 消息 传送 给 应 用 服务 器 。 当 消 
息 到 达 时 ， 必 须 将 它们 放 入 到 队列 中 ; 因此 ， 有 一 个 队列 管理 器 (queue manager) 来 管理 到 达 的 消息 。 
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队列 可 以 是 一 个 持久 队列 ( durable queue) ， 即 使 在 系统 故障 时 其 中 的 项 也 会 保留 下 来 。 使 用 持久 队列 
有 助 于 确保 消息 一 旦 收 到 并 保存 在 队列 中 ， 无 论 系 统 是 否 发 生 故 障 ， 消 息 最 终 都 会 得 到 处 理 。 授 权 和 
应 用 服务 器 管理 (例如 ， 服 务 器 启动 和 路 由 到 服务 器 的 消息 ) 是 TP 监控 器 的 进一步 功能 。TP 监控 器 通 
常 提供 日 志 、 恢 复 和 并 发 控制 功能 ， 人 允许 应 用 服务 器 在 需要 时 直接 实现 事务 的 ACID 特性 。 





输出 队列 





图 26-2 TP 监控 器 构成 成 分 


最 后 ，TP 监控 器 还 提供 对 持久 消息 的 支持 。 回 想 一 下 ， 持 久 消 息 (19.4.3 47) 提供 了 一 个 保证 : 
当 ( 且 仅 当 ) 事 务 提交 ， 消 息 才 会 被 发 送 。 

除了 这 些 功能 之 外 ,许多 TP 监控 器 还 为 像 终端 这 样 的 哑 客 户 端 提供 了 表示 功能 ( presentation 
facility) ， 以 创建 菜单 或 表格 界面 ; 由 于 哑 客 户 端 不 再 被 广泛 使 用 ， 这 样 的 功能 就 不 再 重要 了 
26. 1.2 使 用 TP 监控 器 进行 应 用 协调 

当前 的 应 用 经 常 要 与 多 个 数据 库 交 互 。 它 们 还 可 能 与 遗产 系统 进行 交互 ， 例 如 直接 建立 在 文件 系统 
上 的 专用 数据 存储 系统 。 最 后 ， 它 们 可 能 与 远程 站 点 上 的 用 户 或 其 他 应 用 通信 。 因 此 ， 它 们 还 必须 与 通 
信子 系统 交互 。 对 于 跨越 在 这 些 系 统 上 的 事务 ， 能 够 对 数据 访问 进行 协调 ， 并 实现 ACID 特性 是 很 重要 的 。 

现代 TP 监控 器 为 构建 和 管理 这 种 由 多 个 子 系统 (例如 数据 库 、 遗 产 系统 和 通信 系统 ) 构成 的 大 型 
应 用 提供 了 支持 。TP 监控 器 将 每 个 子 系统 作为 一 个 资源 管理 器 ( resource manager) ， 它 提供 对 某 些 资源 
集 的 事务 性 访问 。TP 监控 器 与 资源 管理 器 之 间 的 接口 由 一 组 事务 原 语 来 定义 ， 例 如 begin_transaction、 
commit_transaction., abort_transaction 和 prepare_to_commit_transaction( 用 于 两 阶段 提交 ) 。 当 然 ， 资 源 管 
理 器 还 必须 为 应 用 提供 其 他 服务 ， 如 提供 数据 。 

资源 管理 器 接口 由 X/Open 分 布 式 事务 处 理 标准 定义 。 许 多 数据 库 系 统 支持 X/Open 标准 ， 并 且 可 
以 充当 资源 管理 器 。TP 监控 器 (以 及 其 他 产品 ， 例 如 支持 X/Open 标准 的 SQL 系统 ) 可 以 与 资源 管理 器 
连接 。 

另外 ，TP 监控 器 还 提供 诸如 持久 消息 和 持久 队列 服务 ， 起 到 支持 事务 的 资源 管理 器 的 作用 。TP 
监控 器 可 以 担当 访问 这 些 服务 和 数据 库 系 统 的 事务 的 两 阶段 提交 的 协调 者 。 例 如 ， 当 排 到 队列 中 的 一 
个 更 新 事务 被 执行 时 ， 会 发 送 一 条 输出 消息 ， 然 后 请 求 事务 从 请 求 队列 中 删除 。 对 于 持久 队列 和 持久 
消息 ， 数 据 库 与 资源 管理 器 之 间 的 两 阶段 提交 有 助 于 确保 无 论 是 否 出 现 故障 ， 所 有 这 些 动作 要 么 都 发 
生 ， 要 么 都 不 发 生 。 

我 们 还 可 以 使 用 TP 监控 器 来 管理 包括 多 个 服务 器 和 大 量 客户 端的 复杂 的 客户 - RG HABE. TP 
监控 器 协调 诸如 系统 检查 点 和 系统 关闭 那样 的 活动 。 它 提供 安全 性 和 客户 端 认证 。 它 管理 服务 器 缓冲 
池 ， 使 得 不 用 中 断 数 据 库 系统 就 能 增加 或 删除 服务 器 。 最 后 ， 它 控制 故障 的 范围 。 如 果 一 台 服 务 器 发 
生 了 故障 ，TP 监控 器 能 检测 到 这 一 故障 ， 中 止 正在 进行 的 事务 ， 并 重新 启动 事务 。 如 果 一 个 结 点 发 生 
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了 故障 ，TP 监控 器 能 够 将 事务 移 到 其 他 结 点 的 服务 器 上 去 ， 并 重新 恢复 未 完成 的 事务 。 当 故障 结 点 重 
新 启动 时 ，TP 监控 器 能 够 控制 结 点 上 的 资源 管理 器 的 恢复 。 

在 复制 系统 中 ， 可 以 用 TP 监控 器 来 隐藏 数据 库 故 障 ; 远程 备份 系统 ( 见 16. 9 节 ) 就 是 复制 系统 的 
一 个 例子 。 事 务 请 求 发 送 到 TP 监控 器 ，TP 监控 器 再 将 消息 传播 给 某 个 数据 库 副 本 (如 果 在 远程 备份 系 
统 中 ， 就 是 主 站 点 ) 。 如 果 某 个 站 点 发 生 故障 ，TP 监控 器 可 以 透明 地 将 消息 路 由 到 一 个 备份 站 点 ， 以 
隐藏 第 一 个 站 点 的 故障 。 

在 客户 - 服务 器 系统 中 ， 客 户 端 通常 通过 远程 过 程 调 用 ( Remote-Procedure-Call, RPC) 机 制 与 服务 
器 交互 。 在 RPC 机 制 中 客户 端 调用 实际 上 在 服务 器 端 执 行 的 过 程 ， 将 结果 返回 给 客户 端 。 从 调用 RPC 
的 客户 端 代码 来 看 ， 该 调用 看 起 来 就 和 调用 本 地 过 程 一 样 。TP 监控 器 系统 为 它们 的 服务 提供 了 一 个 事 
务 RPC(transactional RPC) 接 口 。 在 这 样 的 接口 中 ，RPC 机 制 提 供 一 些 调用 ， 用 于 将 一 系列 RPC 调用 
包括 在 一 个 事务 中 。 这 样 ， 由 一 个 RPC 执行 的 所 有 更 新 都 是 在 该 事务 的 范围 内 执行 的 ， 如 果 发 生 故障 
的 话 可 以 回 滚 。 


26.2 事务 工作 流 


工作 流 (workflow) 是 一 种 活动 ， 其 中 多 个 任务 由 不 同 处 理 实体 以 互相 协同 的 方式 执行 。 任 务 (task) 
定义 了 要 做 的 某 项 工作 ， 并且 可 以 用 多 种 方式 来 说 明 ， 包 括 文件 中 的 文本 描述 、 电 子 邮 件 消息 、 表 单 、 
消息 或 计算 机 程序 。 执 行 任务 的 处 理 实体 (processing entity ) 可 以 是 人 或 软件 系统 (例如 ， 邮 件 发 送 器 、 
应 用 程序 或 数据 库 管 理 系统 ) 。 

图 26-3 显示 了 工作 流 的 一 些 例 子 。 电 子 邮 件 系统 就 是 工作 流 的 一 个 简单 例子 。 一 条 邮件 消息 的 发 
送 可 能 涉及 几 个 邮件 系统 ， 它 们 接收 和 转发 邮件 消息 ， 直 至 消息 到 达 存 放 它 的 目的 地 。 在 数据 库 和 相 
关 文 献 中 用 来 指 代 工 作 流 的 其 他 术语 包括 任务 流 (task flow) 和 多 系统 应 用 ( multisystem application), T 
作 流 任务 有 时 也 称 为 步骤 (step ) 。 


Cr 
电子 邮件 路 由 电子 邮件 消息 邮件 发 送 器 


借贷 处 理 表格 处 理 人 、 应 用 软件 
人 、 应 用 软件 、 数 据 库 
订单 处 理 | 表格 处 理 | 管理 系统 | 


图 26-3 工作 流 示例 


一 般 说 来 ， 工 作 流 可 能 涉及 一 个 或 多 个 人 。 例如， 考虑 借贷 的 处 理 过 程 ， 相 关 的 工作 流 如 图 26-4 
所 示 。 想 要 贷款 的 人 填写 表格 ， 然 后 由 借贷 工作 人 员 检 查 这 个 表格 。 处 理 借 贷 申请 的 员工 使 用 诸如 信 
用 证 明 局 那样 的 资源 来 查证 表格 中 的 数据 。 当 需要 的 所 有 信息 收集 完 后 ， 借 贷 工 作 人 员 可 能 决定 批准 
这 笔 贷 款 ， 这 一 决定 随后 也 许 需要 经 一 个 或 多 个 上 级 工作 人 员 批 准 ， 之 后 才 可 以 进行 贷款 。 这 里 每 个 
人 执行 一 个 任务 ， 在 借贷 处 理 任务 尚未 自动 化 的 银行 里 ， 任 务 间 的 协同 一 般 是 通过 从 一 个 工作 人 员 向 
下 一 个 工作 人 员 传 递 借 贷 申请 ( 附 上 票据 和 其 他 信息 ) 来 完成 的 。 工 作 流 的 其 他 例子 包括 开支 凭单 处 


理 、 订 单 处 理 、 信 用 卡 事务 处 理 。 


















借贷 支付 


图 26-4 ”借贷 处 理 中 的 工作 流 
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当今 ， 有 关 工 作 流 的 所 有 信息 大 都 以 数字 化 形式 存储 在 一 台 或 多 台 计 算 机 中 ， 而 且 ， 随 着 网 络 的 
发 展 ， 信 息 可 以 很 容易 地 从 一 台 计 算 机 传送 到 另 一 台 计 算 机 。 因 此 ， 组 织 机 构 工 作 流 的 自动 化 是 可 行 
的 。 例 如 ， 为 了 使 借贷 处 理 所 涉 及 的 任务 自动 化 ,我 们 可 以 把 借贷 申请 和 相关 信息 存储 在 数据 库 中 。 
这 样 工 作 流 本 身 就 需要 将 责任 从 一 个 人 转交 给 下 一 个 人 ， 甚 至 可 能 转交 给 能 自动 获取 所 需 信息 的 程序 。 
人 员 之 间 可 以 通过 电子 邮件 之 类 的 途径 来 协调 他 们 的 活动 。 

工作 流 在 机 构 中 以 及 机 构 之 间 变 得 越 来 越 重 要 ， 其 原因 是 多 方面 的 。 当 今 许多 组 织 机 构 拥有 多 种 
软件 系统 ， 它 们 必须 能 够 协同 工作 。 例 如 ， 当 一 名 员工 加 入 一 个 机 构 时 ， 有 关 这 名 员工 的 信息 可 能 要 
提交 到 薪酬 系统 、 图 书馆 系统 、 人 允许 用 户 登 录 到 计算 机 的 认证 系统 、 管 理 自助 餐厅 账户 的 系统 ， 等 等 。 
信息 的 更 新 ， 例 如 当 员 工 改变 了 身份 或 者 离开 了 机 构 ， 也 需要 传播 到 所 有 的 系统 。 

组 织 机 构 正 令 它们 的 服务 日 益 自动 化 ; 例如 ， 供 货 商 可 以 为 客户 端 提供 自动 化 的 系统 以 提交 订单 。 
当 一 份 订单 提交 时 也 许 需要 执行 几 个 任务 ， 包 括 预 留 生产 所 订购 产品 的 生产 时 间 和 递送 该 产品 的 递送 
服务 时 间 。 

为 使 工作 流 自 动 化 ， 我 们 一 般 需 要 强调 两 个 活动 。 第 一 个 是 工作 流 说 阴 (workflow specification ) ; 
详细 描述 必须 执行 的 任务 并 定义 执行 需求 。 第 二 个 问题 是 工作 流 执行 (workflow execution) ， 在 执行 工作 
流 的 同时 必须 提供 与 计算 正确 性 、 数 据 完整 性 和 持久 性 相关 的 传统 数据 库 系统 安全 措施 。 例 如 ， 由 于 
系统 崩溃 造成 的 借贷 申请 或 凭单 丢失 ,或 者 多 次 处 理 都 是 不 可 接受 的 。 事 务工 作 流 背后 的 思想 是 : 使 
用 事务 的 概念 并 将 它 扩 展 到 工作 流 环境 中 。 

这 两 个 活动 都 很 复杂 ， 其 原因 是 许多 组 织 机 构 都 使 用 多 个 独立 管理 的 信息 处 理 系 统 ， 在 大 多 数 情 
况 下 ， 这 些 系统 是 分 别 开 发 以 对 不 同 功 能 进行 自动 化 的 。 工 作 流 活动 可 能 需要 在 几 个 这 样 的 系统 之 间 
进行 交互 ， 每 个 活动 执行 一 个 任务 ， 并且 与 人 进行 交互 。 

近年 来 人 们 已 经 开发 出 多 个 工作 流 系 统 。 这 里 我 们 在 一 个 相对 抽象 的 层次 上 研究 工作 流 系 统 的 特 
性 ， 而 不 深入 到 任何 一 个 特定 系统 的 细节 。 

26.2.1 工作 流 说 明 
任务 的 内 部 方面 无 需 为 了 工作 流 的 说 明和 管理 的 目的 而 建 模 。 从 任务 的 抽象 视角 来 看 ， 任 务 可 以 
使 用 存放 在 它 的 输入 变量 中 的 参数 ， 可 以 检索 和 更 新 本 地 系统 中 的 数据 ， 可 以 将 它 的 结果 存放 到 它 的 
输出 变量 中 ， 可 以 查询 出 其 执行 状态 。 在 执行 过 程 中 的 任何 时 间 ， 工 作 流 状态 ( workflow state) 包括 构 
成 该 工作 流 各 个 任务 的 状态 的 集合 ， 以 及 工作 流 说 明 中 所 有 变量 的 状态 ( 值 ) 。 
任务 之 间 的 协调 既 可 以 静态 地 声明 ， 也 可 以 动态 地 声明 。 静 态 声明 在 工作 流 开 始 执行 之 前 定义 任 
务 以 及 任务 之 间 的 依赖 关系 。 例 如 ， 开 支 凭单 工作 流 中 的 任务 可 能 包括 秘书 、 经 理 、 会 计 按 顺序 对 和 凭 
单 的 认可 ， 以 及 最 后 支票 的 交付 。 任 务 之 间 的 依赖 关系 可 能 很 简单 : 每 个 任务 必须 在 下 一 个 任务 开始 
之 前 完成 。 
该 策略 的 推广 是 ， 对 于 工作 流 中 每 个 任务 的 执行 都 有 一 个 前 提 条 件 ， 这 样 工 作 流 中 所 有 可 能 的 任 
务 以 及 它们 之 间 的 依赖 关系 都 可 以 预先 知道 ， 但 是 只 有 那些 前 提 条 件 满足 的 任务 才 会 被 执行 。 前 提 条 
件 可 以 通过 如 下 的 依赖 关系 来 定义 : 
© 其 他 任务 的 执行 状态 (execution state)。 例 如 ,“ 任 务 结束 了 ,任务 i; 才能 开始 "或 者 如果 任 
Zt HESS, MAES i 必须 中 止 ”。 

© 其 他 任务 的 输出 值 (output value)。 例 如 ,“ 如 果 任 务 4; 返回 一 个 大 于 25 的 值 ， 则 任务 i; 可 以 开 
始 ” 或 者 " 如果 秘书 审批 任务 返回 OK 值 ， 则 经 理 审批 任务 可 以 开始 ”。 

© 由 外 部 事件 修改 的 外 部 变量 (external variable) 。 例 如 ,“ 上 午 9 点 以 后 任务 i 才能 开始 "或 者 “在 
任务 二 完成 后 的 24 小 时 内 必须 开始 任务 t” o 

我 们 可 以 用 通常 的 逻辑 连接 符 (or、and 、not) 来 将 多 个 依赖 关系 组 合 在 一 起 ， 形 成 复杂 的 调度 前 
提 条 件 。 

任务 动态 调度 的 一 个 例子 是 电子 邮件 路 由 系统 。 对 于 给 定 的 邮件 消息 要 安排 的 下 一 个 任务 依赖 于 
消息 的 目的 地 址 是 什么 ， 以 及 哪些 中 间 路 由 器 在 运行 中 。 
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26. 2.2 工作 流 的 故障 原子 性 需求 

工作 流 设计 者 可 以 根据 工作 流 语义 来 声明 工作 流 的 故障 原子 性 (failure-atomicity ) 需求 。 传 统 故 障 原 
子 性 概念 会 要 求 当 任何 任务 发 生 故 障 时 就 导致 整个 工作 流 的 失败 。 但 是 在 许多 情况 下 ， 当 其 中 一 个 任 
务 发 生 故 障 时 工作 流 不 一 定 失败 ， 例 如， 可 以 通过 在 另 一 个 站 点 执行 一 个 功能 上 等 价 的 任务 来 使 工作 
流 完成 。 因 此 ， 我 们 应 该 允许 设计 者 定义 工作 流 的 故障 原子 性 需求 。 系 统 必须 保证 工作 流 的 每 次 执行 
都 以 一 种 满足 设计 者 定义 的 故障 原子 性 需求 的 状态 终止 。 我 们 将 这 些 状 态 称 作 工 作 流 的 可 接受 终止 状 
态 (acceptable termination state ) 。 工 作 流 的 所 有 其 他 执行 状态 构成 不 可 接受 终止 状态 ( nonacceptable 
termination state ) 的 集合 ， 这 些 状态 可 能 违背 故障 原子 性 需求 。 

可 接受 终止 状态 可 以 指定 为 提交 的 或 中 止 的 。 提 交 的 可 接受 终止 状态 (committed acceptable 
termination state) 是 工作 流 达 到 了 目标 的 执行 状态 。 相 反 ， 中 止 的 可 接受 终止 状态 (aborted acceptable 
termination state) 是 合法 的 终止 状态 ， 此 时 工作 流 未 能 达到 它 的 目标 。 如 果 达 到 了 一 个 中 止 的 可 接受 终 
止 状态 ， 那 么 工作 流 的 部 分 执行 产生 的 所 有 不 合 要 求 的 影响 都 应 该 按照 该 工作 流 的 故障 原子 性 需求 予 
以 撤销 。 

即使 在 发 生 系统 故障 的 情况 下 ， 工 作 流 也 必须 达到 一 个 可 接受 终止 状态 。 因 此 ， 如 果 当 发 生 故 障 
时 工作 流 处 于 一 个 不 可 接受 的 终止 状态 ,那么 在 系统 恢复 中 必须 使 它 进 入 一 个 可 接受 终止 状态 (中 止 
或 提交 恬 可 ) 。 

例如 ,借贷 处 理工 作 流 中 ， 在 最 终 状 态 ， 要 么 告诉 贷款 申请 人 他 不 能 获得 贷款 ,要么 支付 贷款 . 
在 发 生 故 障 的 情况 下 ， 比 如 验证 系统 长 时 间 故 障 ， 可 以 用 适当 的 解释 将 贷款 申请 退回 给 贷款 申请 人 ， 
这 种 结局 构成 一 种 中 止 的 可 接受 终止 。 提 交 的 可 接受 终止 应 该 要 么 是 批准 贷款 ， 要 么 是 拒绝 贷款 ， 

一 般 说 来 ， 在 工作 流 达 到 终止 状态 之 前 ， 任 务 可 以 提交 并 释放 其 所 占 资 源 。 然 而 ， 如 果 这 个 多 任 
务 事务 后 来 中 止 了 ， 其 故障 原子 性 可 能 要 求 通过 执行 补偿 任务 (作为 子 事务 ) 来 撤销 已 完成 任务 ( 例如 ， 
已 提交 的 子 事务 ) 所 造成 的 影响 。 补 偿 的 语义 要 求 补偿 事务 最 终 成 功 地 完成 它 的 执行 ， 也 许 需要 若干 次 
重新 提交 。 

例如 ， 在 开支 凭单 处 理工 作 流 中 ， 由 于 开始 时 经 理 批 准 了 一 张 凭单 ， 所 以 部 门 预 算 的 余额 减少 了 
如 果 后 来 由 于 故障 或 由 于 其 他 原因 ， 这 张 凭单 被 拒绝 了 ， 那 就 必须 通过 补偿 事务 来 恢复 预算 。 
26.2.3 工作 流 执行 

多 个 任务 的 执行 可 以 由 一 个 协调 人 来 控制 , 或 者 由 一 个 称 作 工 作 流 管理 系统 (workflow-management 
system) 的 软件 系统 来 控制 。 工 作 流 管理 系统 包括 一 个 调度 器 、 多 个 任务 代理 和 一 个 查询 工作 流 系 统 状 
态 的 机 制 。 任 务 代理 通过 处 理 实体 控制 任务 的 执行 。 调 度 器 是 一 个 对 工作 流 进行 处 理 的 程序 ， 它 将 不 
同 的 任务 交付 执行 ， 监 控 各 种 事件 ， 计 算 与 任务 间 依 赖 有 关 的 条 件 。 调 度 器 可 以 将 一 个 任务 交付 (给 任 
务 代 理 ) 执 行 ， 也 可 以 要 求 中 止 一 个 先前 交付 执行 的 任务 。 在 多 数据 库 事务 的 情况 下 ,任务 是 子 事 务 ， 
处 理 实体 是 本 地 的 数据 库 管理 系统 。 调 度 器 依据 工作 流 说 明 ， 施 加 调度 依赖 并 负责 确保 任务 到 达 可 接 
受 的 终止 状态 。 

开发 工作 流 管理 系统 有 三 种 体系 架构 方法 。 集 中 式 体 系 结构 (centralized architecture ) 用 单个 调度 顺 
去 调度 所 有 并 发 执行 工作 流 的 任务 。 部 分 分 布 式 体系 结构 ( partially distributed architecture ) 对 每 个 工作 
流 实 例 化 一 个 调度 器 。 当 并 发 执行 问题 可 以 从 调度 功能 中 分 离 出 来 时 ， 后 一 种 是 很 自然 的 选择 。 完 全 
分 布 式 体系 结构 (fully distributed architecture) 没有 调度 器 ， 而 由 各 个 任务 代理 通过 相互 之 间 的 通信 来 协 
调 它们 的 执行 ， 以 满足 任务 间 的 依赖 关系 和 其 他 工作 流 执行 的 需求 。 

最 简单 的 工作 流 执行 系统 采用 前 述 的 完全 分 布 式 方式 ， 并 且 是 基于 消息 的 。 消息 息 可 以 由 持久 消息 
机 制 来 实现 ， 以 提供 有 保证 的 传递 。 有 些 实现 使 用 电子 邮件 进行 消息 发 送 ， 这 种 实现 提供 持久 消息 的 
很 多 特点 ， 但 通常 不 保证 消息 发 送 和 事务 提交 的 原子 性 。 每 个 站 点 有 一 个 任务 代理 来 执行 通过 消息 接 
收 到 的 任务 。 执 行 中 也 可 能 会 将 消息 交 给 人 ， 由 人 随后 去 执行 某 些 动作 。 当 任务 在 一 个 站 点 上 完成 并 
需要 到 男 一 个 站 点 去 处 理 时 ,任务 代理 发 消息 给 下 一 个 站 点 。 消 息 中 包括 关于 待 执行 任务 的 所 有 相关 
信息 。 这 种 基于 消息 的 工作 流 系 统 对 于 在 部 分 时 间 内 可 能 会 断 开 连 接 的 网 络 特别 有 用 。 
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集中 式 方式 适用 于 数据 存储 在 中 央 数 据 库 中 的 工作 流 系统 。 调 度 器 通知 各 种 代理 (例如 人 或 计算 
机 程序 ) 有 任务 需要 执行 ， 并 且 跟 踪 任 务 的 完成 情况 。 在 集中 式 方 式 下 跟踪 工作 流 的 状态 比 在 完全 分 布 
式 方 式 下 要 更 容易 。 

调度 器 必须 保证 工作 流 终止 于 一 个 特定 的 可 接受 终止 状态 。 理 想 情 况 是 ， 在 打算 执行 工作 流 之 前 ， 
调度 器 应 该 检查 该 工作 流 ， 看 它 是 否 可 能 终止 于 一 个 不 可 接受 的 状态 。 如 果 调 度 器 不 能 保证 工作 流 将 
终止 于 一 个 可 接受 状态 ， 它 应 该 拒绝 这 样 的 工作 流 说 明 ， 而 不 应 该 试图 去 执行 它 。 作 为 一 个 例子 ， 我 
们 考虑 一 个 工作 流 ， 它 包括 两 个 任务 ， 表 示 为 子 事务 S 和 S,， 其 故障 原子 性 需求 指明 要 么 两 个 子 事务 
都 提交 ， 要 么 一 个 也 不 提交 。 如 果 S, AIS, 没有 提供 (两 阶段 提交 的 ) 准备 提交 状态 ， 而 且 也 没有 补偿 
事务 ， 那 么 就 有 可 能 到 达 一 个 子 事务 提交 而 另 一 个 中 止 的 状态 ， 而 且 没 有 办 法 使 两 个 子 事务 到 达 同 一 
状态 。 因 此 ， 这样 的 工作 流 说 明 是 不 安全 的 (unsafe) ， 应 该 拒绝 它 。 

在 调度 器 中 实现 诸如 上 述 的 安全 性 检查 可 能 是 不 可 能 的 或 者 不 现实 的 ， 这 样 保证 工作 流 的 安全 性 
就 变 成 了 工作 流 说 明 的 设计 者 的 责任 。 

26.2.4 工作 流 恢复 

工作 流 恢复 (workflow recovery) 的 目标 是 保证 工作 流 的 故障 原子 性 。 恢 复 过 程 必须 保证 ， 如 果 任 何 
一 个 工作 流 处 理 构 件 ( 包括 调度 器 ) 发 生 故 障 ， 工 作 流 最 终 都 能 达到 一 个 可 接受 的 终止 状态 (中 止 的 或 
者 提交 的 )。 例 如 ， 在 故障 和 恢复 后 调度 器 可 以 继续 处 理 ， 就 像 什么 事 也 没 发 生 一 样 ， 从 而 提供 向 前 的 
可 恢复 性 。 否 则 ， 调 度 器 可 以 中 止 整个 工作 流 ( 即 达到 一 个 全 局 中 止 状 态 )。 无 论 在 哪 种 情况 下 ， 都 可 
能 需要 提交 某 些 子 事务 或 者 甚至 将 某 些 子 事务 交付 执行 (例如 ， 补 偿 子 事务 ) 。 

我 们 假设 工作 流 中 涉及 的 处 理 实体 有 它们 自己 的 恢复 系统 ， 并 能 处 理 它们 的 本 地 故障 。 为 了 恢复 
执行 环境 的 上 下 文 ， 故 障 恢复 例 程 需要 恢复 调度 器 在 发 生 故 障 时 的 状态 信息 ， 包 括 关 于 每 个 任务 执行 
状态 的 信息 。 因 此 ， 必 须 将 适当 的 状态 信息 作为 日 志 记 录 到 稳定 存储 器 中 。 

我 们 还 需要 考虑 消息 队列 的 内 容 。 当 一 个 代理 将 任务 交 给 另 一 个 代理 时 ， 应 该 恰好 交接 一 次 。 如 
果 交 接 了 两 次 ， 那么 一 个 任务 可 能 被 执行 了 两 次 ; 如 果 没 有 交接 ,那么 任务 就 丢失 了 。 持 久 消息 
(19. 4. 3 节 ) 恰 好 提供 了 保证 确实 是 单 次 交接 的 特性 。 

26.2.5 工作 流 管理 系统 

作为 应 用 系统 的 一 部 分 ， 工 作 流 常常 是 手工 编码 的 。 例 如 ， 企 业 资 源 规划 (ERP) 系统， 用 于 帮助 
协调 整个 企业 内 部 的 活动 ， 其 内 部 就 做 有 许多 工作 流 。 

工作 流 管理 系统 的 目标 是 简化 工作 流 构造 并 使 得 它们 更 加 可 靠 ， 这 些 通过 人 允许 工作 流 以 高 层 的 形 
式 说 明 并 按照 相应 说 明 执 行 来 实现 。 有 大 量 商 用 的 工作 流 系统 ， 其 中 一 些 是 通用 的 工作 流 管理 系统 ， 
而 男 一 些 则 用 于 特殊 的 工作 流 ， 如 订单 处 理 或 错误 /失败 报告 系统 。 

当今 是 组 织 机 构 间 互联 的 世界 ， 只 在 一 个 组 织 机 构 内 部 管理 工作 流 是 不 够 的 。 跨 越 组 织 边 界 的 工 
作 流 变 得 越 来 越 普遍 。 例 如 ， 考 虑 由 某 个 组 织 下 达 订 单 ， 并 与 另 一 个 填充 该 订单 的 组 织 通信 。 在 每 个 
组 织 中 都 有 工作 流 与 此 订单 相 联系 ， 为 了 最 小 化 人 工 干预 ， 工 作 流 能 协同 工作 是 很 重要 的 ， 

术语 业务 流程 管理 (business process management ) 用 来 指 跟 业 务 流程 相关 的 工作 流 管理 。 如 今 ， 应 
用 越 来 越 多 地 把 它们 的 功能 变 成 可 以 被 其 他 应 用 调用 的 服务 ， 通 常 使 用 Web 服务 体系 结构 。 基 于 调用 
由 多 个 应 用 提供 的 服务 的 系统 体系 结构 称 为 面向 服务 的 体系 结构 ( Service Oriented Architecture, SOA). 
当今 的 工作 流 管理 是 在 这 些 服务 的 基层 之 上 实现 的 。 通 过 调用 服务 来 控制 工作 流 的 处 理 逻 辑 称 为 编排 
(orchestration ) 。 

基于 SOA 体系 结构 的 业务 流程 管理 系统 包括 Microsoft 的 BizTalk Server, IBM 的 WebSphere Business 
Integration Server Foundation 和 BEA 的 WebLogic Process Edition ， 等 等 。 

Web 服务 业务 流程 执行 语言 (Web Services Business Process Execution Language, WS-BPEL) 是 基于 
XML 的 标准 ， 用 于 指定 Web 服务 和 基于 Web 服务 的 业务 流程 (工作 流 ) ， 可 以 通过 业务 流程 管理 系统 
执行 。 业 务 流程 建 模 标记 法 (Business Process Modeling Notation, BPMN) 是 为 工作 流 中 的 业务 流程 进行 
图 形 化 建 模 的 标准 。XML 流程 定义 语言 (XML Process Definition Language，XPDL) 是 业务 流程 定义 的 基 
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于 XML 的 表示 ， 它 基于 BPMN 图 。 


26.3 ”电子 商务 


电子 商务 指 通过 电子 手段 ( 主要 是 通过 因特网 ) 执行 与 商务 相关 的 各 种 活动 的 过 程 。 活 动 类 型 
包括 : 
。 预 售 活动 ， 需 要 将 待 出 售 的 产品 或 服务 告知 潜在 买 家 。 
。 销售 过 程 ， 包 括 价格 和 服务 质量 的 协商 ， 以 及 其 他 合同 事项 。 
© 市 场 : 当 同 一 个 产品 对 应 多 个 买 家 和 卖家 时 ， 市 场 ( 如 股票 交易 市 场 ) 有 助 于 协商 产品 的 销售 价 
格 。 当 只 有 一 个 卖家 和 多 个 买 家 时 ， 可 以 举行 拍卖 ; 而 只 有 一 个 买 家 和 多 个 卖家 时 ， 可 以 举行 
反 向 拍卖 。 
。 销售 付款 。 
© 交付 产品 或 服务 的 相关 活动 。 一 些 产品 和 服务 可 以 通过 因特网 交付 ; 对 于 其 他 的 ， 因 特 网 只 用 
于 提供 运送 信息 和 跟踪 产品 的 运送 。 
。 客户 支持 和 售后 服务 。 
数据 库 广泛 应 用 于 支持 这 些 活动 。 对 于 有 些 活动 ， 数 据 库 的 使 用 是 直接 的 ， 但 对 于 其 他 活动 还 存 
在 有 趣 的 应 用 开发 方面 的 问题 。 
26. 3.1 电子 目录 
任何 电子 商务 站 点 都 给 用 户 提 供 该 站 点 所 供应 的 产品 和 服务 目录 。 电 子 目 录 提 供 的 服务 可 以 有 很 
大 差别 。 
在 最 低 限 度 上 ， 电 子 目录 必须 提供 浏览 和 搜索 功能 ， 以 帮助 客户 发 现 他 们 寻找 的 产品 。 为 了 有 助 
于 浏览 ， 产 品 应 该 组 织 成 直观 的 层次 结构 ， 这 样 只 需要 点 击 很 少 次 的 超 链 接 就 可 以 引导 客户 找到 他 们 
感 兴趣 的 产品 。 客 户 提供 的 关键 词 ( 例 如 ,“ 数 码 相 机 ”或 者 “计算 机 ”) 应 能 够 加 速 寻 找 所 需 产 品 的 过 
程 。 电 子 目 录 还 应 该 提供 这 样 的 手段 ， 使 得 客户 能 够 容易 地 比较 从 竞争 产品 中 进行 的 不 同 选择 。 
电子 目录 可 以 为 客户 定制 。 比 如 ， 一 个 零售 商 可 能 同意 向 一 家 大 公司 打折 供应 一 些 产品 。 这 家 公 
司 的 职员 在 为 公司 购买 产品 而 浏览 目录 时 ， 应 该 看 见 的 价格 单价 是 协商 好 的 打折 价格 ， 而 不 是 普通 价 
格 。 由 于 法 律 对 销售 某 些 类 型 的 商品 有 限制 ， 未 成 年 客户 或 者 来 自 特定 州 或 国家 的 客户 ， 就 不 应 该 看 
到 法 律 不 允许 卖 给 他 们 的 商品 。 对 于 个 人 用 户 ， 目 录 还 能 够 根据 以 前 的 购买 历史 进行 个 性 化 。 例 如 ， 
常客 可 以 在 某 些 商品 上 得 到 特殊 的 折扣 。 
支持 这 样 的 定制 ， 需 要 在 数据 库 中 存储 客户 信息 ， 以 及 特殊 的 价格 /折扣 信息 和 销售 限制 信息 。 在 
支持 很 高 的 事务 处 理 率 方面 还 有 一 些 挑战 ， 通 常用 对 查询 结果 或 所 生成 的 Web 页 面 进 行 高 速 缓存 的 方 
式 来 处 理 。 
26.3.2 市 场 
当 同 一 个 产品 有 多 个 卖家 或 多 个 买 家 (或 两 者 都 有 ) 时， 市 场 有 助 于 协商 产品 的 销售 价格 。 存 在 几 
种 不 同类 型 的 市 场 : 
© 在 反 向 拍卖 (reverse auction) 系统 中 ， 买 家 提出 要 求 ， 卖 家 们 为 了 供应 商品 进行 投标 。 提 出 最 低 
价格 的 供应 商 获 胜 。 在 封闭 投标 系统 中 ， 出 价 是 不 公开 的 ， 而 在 公开 投标 系统 中 ， 出 价 是 公 
开 的 。 
© 在 拍卖 (auction) 中 ， 有 多 个 买 家 和 一 个 卖家 。 为 简单 起 见 ， 假 设 每 种 待 售 商品 只 有 一 件 实物 ， 
买 家 为 待 售 商品 进行 投标 。 为 商品 出 价 最 高 的 买 家 可 以 用 投标 价格 买 下 该 商品 。 
当 存 在 同一 商品 的 多 个 实物 时 ， 人 情况 变 得 更 加 复杂 : 假设 有 四 件 商 品 ， 一 个 投标 者 愿意 用 
每 个 10 美元 的 价钱 买 下 3 个 ， 而 另 一 个 愿意 用 每 个 13 美元 的 价钱 买 下 2 个 。 显 然 不 可 能 同时 
满足 两 个 投标 者 。 如 果 商 品 没有 售 出 就 没有 任何 价值 (如 航班 座位 ， 必 须 在 飞机 起 飞 前 卖 出 ) ， 
卖家 就 简单 地 选 出 一 个 能 获得 最 大 收益 的 出 标 集合 。 和 否则 决策 就 更 为 复杂 。 
© 在 交易 (exchange) 中 ， 如 股票 交易 ， 存 在 多 个 卖家 和 多 个 买 家 。 买 家 提出 他 愿意 支付 的 最 高 价 
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钱 ， 卖 家 提出 他 期 望 的 最 低 价钱 。 经 常 存在 一 个 做 市 商 (market maker), ， 由 他 来 匹配 买 家 和 卖 
家 的 投标 ， 决 定 每 次 交易 的 价格 (如 按 卖家 的 出 标价 格 ) 。 
还 有 其 他 一 些 类 型 更 为 复杂 的 市 场 。 

在 处 理 市 场 类 型 中 遇 到 的 数据 库 方面 的 问题 有 : 

。 投标 者 在 被 允许 投标 之 前 需要 验证 身份 。 

。 出价 ( 买 家 的 或 卖家 的 ) 需 要 安全 地 记录 在 数据 库 中 。 出 价 需 要 很 快 通知 到 市 场 中 所 涉及 的 其 他 

人 (例如 所 有 的 买 家 和 卖家 ) ， 人 数 可 能 很 多 。 
o 广播 出 价 的 延误 可 能 导致 某 些 参与 者 的 财政 损失 。 
。 在 股票 市 场 波动 或 接近 拍卖 结束 时 ,交易 量 可 能 会 非常 巨大 。 因 此 ， 这 种 系统 使 用 高 度 并 行 
的 、 性 能 非常 高 的 数据 库 。 
26.3.3 ”订单 结算 

在 选 好 商品 (可 能 通过 电子 目录 ) 并 确定 价格 (可 能 通过 电子 市 场 ) 之 后 ， 就 需要 结算 订单 了 。 结 算 
包括 商品 支付 和 商品 运输 。 

一 种 简单 的 但 是 不 安全 的 电子 支付 方式 就 是 发 送信 用 卡号 。 这 里 存在 两 个 主要 问题 。 首 先 ， 可 能 
会 有 信用 卡 欺 诈 。 当 买 家 支付 实物 商品 时 ， 公 司 要 确保 运送 地 址 和 持 卡 人 地 址 相 匹 配 ， 这 样 其 他 的 人 
不 能 收 到 该 商品 。 但 是 以 电子 方式 发 送 商品 时 不 可 能 进行 这 种 检查 。 其 次 ， 必 须 信任 卖家 只 对 达成 协 
议 的 商品 进行 结账 ， 并 且 不 会 将 卡号 发 送 给 其 他 非 授权 的 人 小 用。 

有 几 种 协议 可 用 于 避免 如 上 所 列 出 的 两 个 问题 的 安全 支付 。 另 外 ， 这 些 协 议 提供 了 更 好 的 私密 性 ， 


据 此 卖家 不 会 得 到 有 关 买 家 的 任何 不 必要 的 细节 ， 且 信用 卡 公司 不 会 得 到 有 关 所 购 商 品 的 任何 不 必要 向 


的 信息 。 所 有 传送 的 信息 必须 加 密 ， 这 样 任何 在 网 络 上 拦截 数据 的 人 无 法 发 现 其 中 的 内 容 。 公 / 私 钥 加 
密 广泛 应 用 于 这 项 任务 中 。 

这 些 协议 还 必须 能 防止 中 间 人 攻击 ( person-in-the-middle attack)， 即 有 人 冒充 银行 或 信用 卡 公司 ， 
其 至 卖家 或 买 家 ， 偷 取 秘 密 信息 。 假冒 可 以 通过 传递 一 个 伪造 的 密 钥 ， 作 为 其 他 人 的 公 钥 (银行 的 、 信 
用 卡 公司 的 、 商 家 或 买 家 的 ) 。 数 字 证 书 ( digital certificate) 系统 可 以 防止 假冒 行为 ， 据 此 公 钥 由 一 个 认 
证 机 构 签署 ， 认 证 机 构 的 公 钥 是 公认 的 (或 者 它 的 公 钥 由 男 一 所 认证 机 构 认 证 ， 以 此 类 推 ， 直 到 找到 一 
个 公认 的 公 钥 为 止 )。 从 公认 的 公 钥 出 发 ， 系 统 可 以 通过 道 序 检查 证 书 的 方式 对 其 他 密 钥 授权 。 前 面 在 
9. 8. 3.2 节 已 经 对 数字 证 书 进行 了 描述 。 

几 个 新 的 支付 系统 是 在 Web 时 代 的 初期 开发 的 。 其 中 之 一 是 称 为 安全 电子 交易 (Secure Electronic 
Transaction，SET) 协 议 的 安全 支付 协议 。 为 了 确保 交易 的 安全 性 ， 协 议 需 要 在 买 家 、 卖 家 和 银行 之 间 
进行 多 轮 通 信 。 还 有 一 些 系统 提供 更 高 的 匿名 性 ， 就 如 同 实物 现金 提供 的 那样 。DigiCash 支付 系统 就 
是 这 样 的 一 个 系统 。 在 这 样 的 系统 中 ， 在 完成 支付 时 不 可 能 识别 购买 者 。 相 反 ， 使 用 信用 卡 可 以 很 容 
易 地 识别 购买 者 ， 即 便 在 SET 的 情况 下 ， 也 可 以 通过 与 信用 卡 公司 或 银行 的 合作 来 识别 购买 者 。 然 而 ， 
由 于 技术 和 非 技术 两 方面 的 原因 ， 没 有 一 个 这 样 的 系统 在 商业 上 成 功 。 

目前 ， 许 多 银行 提供 安全 支付 网 关 ( secure payment gateway) ， 人 允许 买方 在 银行 的 网 站 上 在 线 支 付 ， 
而 不 会 向 在 线 商家 暴露 信用 卡 或 银行 账户 信息 。 当 从 在 线 商 家 购买 商品 时 ， 买 方 的 Web 浏览 器 被 重 定 
向 到 支付 网 关 ， 通过 提供 信用 卡 或 银行 账户 信息 完成 支付 ， 之 后 买方 再 次 被 重 定向 回 商家 的 网 站 以 完 
成 购买 。 与 SET 或 DigiCash 协议 不 同 ， 除 了 Web 浏览 器 ， 在 买方 的 机 器 上 没有 软件 运行 ; 其 结果 是 在 
先前 方法 失败 的 场合 ， 此 方法 取得 了 大 范围 的 成 功 。 

由 PayPal 系统 使 用 的 另 一 种 方法 是 ， 让 买方 和 商家 在 一 个 共同 的 平台 上 都 拥有 账户 ， 转 账 完全 发 
生 在 共同 的 平台 内 。 买 方 首 先 使 用 信用 卡 往 他 的 账户 里 充值 ， 然 后 可 以 往 商 家 账户 里 转账 。 这 种 方法 
对 于 小 商家 已 经 非常 成 功 ， 因 为 它 不 需要 买方 或 商家 运行 任何 软件 。 


26.4 主 存 数 据 库 


为 了 获得 很 高 的 事务 处 理 率 ( 每 秒 数 百 或 数 千 的 事务 )， 我 们 必须 使 用 高 性 能 硬件 ， 而 且 必 须 使 用 
并 发 性 。 但 是 ， 仅 靠 这 些 技术 还 不 足以 获得 非常 快 的 响应 时 间 ， 因 为 磁盘 VO 仍然 是 瓶颈 一 一 每 次 VV 
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0 需要 大 约 10 上 毫秒， 而且 这 个 数据 并 没有 随 着 处 理 器 速度 的 增长 而 相应 减少 。 磁 盘 IO 通常 是 读 的 瓶 
颈 ， 也 是 事务 提交 的 瓶颈 。 长 时 间 的 磁盘 延迟 不 仅 增加 了 访问 数据 项 的 时 间 ， 而 且 限 制 了 每 秒 存 取 的 
次 数 。 = 

我 们 可 以 通过 增 大 数据 库 缓 冲 区 来 减 小 数据 库 系统 受 磁盘 限制 的 程度 。 主 存 技 术 的 进步 使 得 我 们 
能 够 以 相对 较 低 的 代价 构造 相当 大 的 主 存 。 现 在 的 商用 64 位 系统 能 提供 数 十 GB 的 主 存 。Oracle 
TimesTen 是 当前 可 用 的 主 存 数 据 库 。 在 文献 注解 的 参考 文献 中 给 出 了 有 关 主 存 数据 库 的 更 多 信息 。 

对 于 某 些 应 用 ， 例 如 实时 控制 ， 必 须 将 数据 存储 在 主 存 中 以 满足 性 能 要 求 。 虽 然 至 少 有 几 个 应 用 
需要 将 几 个 GB 的 数据 驻 留 在 主 存 中 ,但 大 多 数 这 类 系统 对 于 主 存 大 小 的 要 求 并 不 是 异常 的 大 。 随 着 
主 存 大 小 的 快速 增长 ， 会 有 越 来 越 多 的 应 用 能 够 将 数据 存 到 主 存 中 。 

大 的 主 存储 器 能 使 数据 驻 留 在 内 存 中 ， 从 而 使 事务 处 理 更 快 。 然 而 ， 仍 然 存在 与 磁盘 有 关 的 限制 : 

。 在 事务 提交 前 必须 将 日 志 记录 写 到 稳定 存储 器 中 。 由 于 大 的 主 存 所 带 来 的 性 能 提升 可 能 导致 日 
志 处 理 成 为 瓶颈 。 我 们 可 以 通过 使 用 非 易 失 性 RAM (例如 通过 有 电池 支持 的 内 存 来 实现 ) ， 在 
主 存 中 建立 稳定 的 日 志 缓冲 区 ， 从 而 缩减 提交 时 间 。 由 于 日 志 带 来 的 开销 还 可 以 通过 本 节 后 面 
讨论 的 组 提交 (group-commit) 技 术 来 减 小 。 吞 吐 量 (每 秒 的 事务 数目 ) 仍然 受 日 志 磁 盘 的 数据 传 
输 率 的 限制 。 

为 了 减 小 在 恢复 的 时 候 必 须 重 新 执行 的 日 志 数 量 ， 仍 然 有 必要 写 出 被 提交 事务 做 了 修改 标记 的 
缓冲 块 。 如 果 更 新 率 非 常 高 ， 那 么 磁盘 的 数据 传输 率 可 能 变 成 瓶颈 。 
如 果 系 统 崩 演 了 ， 所 有 的 主 存 数据 都 会 丢失 。 人 恢复 时 ， 系 统 的 数据 库 缓 冲 是 空 的 ， 对 数据 项 进 
行 访问 时 必须 从 磁盘 输入 。 因 此 ， 即 使 恢复 已 经 完成 了 ， 仍 然 需要 一 些 时 间 才 能 把 数据 库 完全 
装 人 到 主 存 中 ， 并 恢复 对 事务 的 高 速 处 理 。 
另 一 方面 ， 主 存 数 据 库 为 优化 提供 了 机 会 : 
。 由 于 主 存 比 磁盘 空间 价格 高 ， 因 此 ， 设 计 主 存 数 据 库 中 的 内 部 数据 结构 必须 注意 减 小 对 空间 的 
需求 量 。 然 而 ， 数 据 结构 中 可 以 有 跨 多 个 页 面 的 指针 ， 这 与 磁盘 数据 库 不 同 ， 其 中 跨越 多 个 页 
面 的 VO 代价 会 非常 高 。 例 如 ， 主 存 数据 库 中 的 树 结 构 与 B' 树 不 同 ,深度 可 以 相对 大 一 些 ， 
但 应 尽量 少 占 空间 。 
然而 ， 高 速 缓冲 存储 器 和 主 存储 器 之 间 的 速度 差异 ， 以 及 在 主 存 和 高 速 缓存 之 间 的 数据 传 
输 是 以 高 速 缓存 行 (cache-line) (通常 约 64 字 节 ) 为 单位 的 事实 ， 导 致 了 这 样 的 情况 : 高 速 缓存 
和 主 存 之 间 的 关系 与 主 存 和 磁盘 之 间 的 关系 没有 什么 不 同 (虽然 有 更 小 的 速度 差异 )。 其 结果 
是 ， 即 使 在 主 存 数据 库 里 ， 带 有 可 以 放 入 一 个 高 速 缓存 行 的 小 结 点 的 B' 树 被 发 现 是 相当 有 
用 的 。 
。 在 数据 存 取 前 没有 必要 钉 住 内 存 中 的 缓冲 页 ， 因 为 缓冲 页 从 来 不 会 被 替换 。 
© 查询 处 理 技术 应 该 设计 成 尽量 减 小 空间 开销 ， 从 而 在 执行 查询 时 不 会 超出 主 存 的 限制 ; 一 旦 发 
生 这 种 情况 会 导致 将 页 换 出 到 交换 区 中 ， 从 而 减 慢 查 询 处 理 速 度 。 - 
。 一 旦 消除 了 磁盘 LO 瓶颈 ， 诸 如 封锁 和 门 那样 的 操作 可 能 会 变 成 瓶颈 。 必 须 改进 这 些 操作 的 实 
现 来 消除 这 样 的 瓶颈 。 

© 可 以 对 恢复 算法 进行 优化 ， 因 为 很 少 会 需要 将 页 写 出 以 给 其 他 页 腾 出 空间 。 

处 理事 务 7 提交 的 过 程 中 需要 将 下 面 这 些 记 录 写 人 稳定 存储 器 中 : 

。 还 没有 输出 到 稳定 存储 器 中 的 所 有 与 了 相关 的 日 志 记 录 。 

e <T commit > 日 志 记录 。 

这 些 输出 操作 经 常 需要 输出 只 有 部 分 填充 的 块 。 为 了 保证 输出 接近 写 满 的 块 ， 我们 采用 组 提交 
(group-commit) 技 术 。 系 统 不 是 在 7 完成 时 就 试图 提交 7， 而 是 等 到 有 几 个 事务 都 完成 了 ,或 者 从 事务 
执行 完 后 已 经 过 了 一 个 特定 的 时 间 段 。 然 后 将 等 待 的 这 组 事务 一 起 提交 。 写 出 到 稳定 存储 器 上 的 块 可 
能 包含 几 个 事务 的 记录 。 通 过 仔细 选择 组 的 大 小 和 最 大 等 待 时 间 ， 系 统 可 以 保证 当 块 写 到 稳定 存储 器 





日 ”闪存 的 写 延 迟 取 决 于 是 否 需 要 先 执 行 擦 除 操作 。 
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时 是 满 的 ， 而 无 需 事 务 等 待 过 长 的 时 间 。 平 均 说 来 ， 此 技术 减少 了 每 个 提交 事务 的 输出 操作 。 [1107] 
虽然 组 提交 减少 了 日 志 带 来 的 开销 ， 但 它 造成 了 执行 更 新 的 事务 在 提交 时 的 轻微 延迟 。 延 迟 可 能 

很 小 ( 比方 说 ，10 毫秒 ) ， 这 对 许多 应 用 来 说 是 可 接受 的 。 如 果 磁 盘 或 磁盘 控制 器 对 写 操作 支持 非 易 失 

性 RAM 缓存 ， 这 个 延迟 可 以 消除 。 一 旦 在 非 易 失 性 RAM 缓冲 区 中 执行 了 写 操作 ， 事 务 就 可 以 提交 

在 这 种 情况 下 ， 没 有 必要 进行 组 提交 。 
注意 ， 不 只 是 对 于 主 存 数据 库 ， Ba ase ge gn 组 提交 也 是 有 用 的 。 如 果 

用 闪存 代替 磁盘 来 存储 日 志 记 录 ， 提 交 延 迟 会 显著 减少 。 然 而 ， 组 提交 仍然 是 有 用 的 ， 因 为 它 最 大 限 

度 地 减少 了 写 出 的 页 数 ， 这 就 转化 为 闪存 中 的 性 能 优势 ， 因 为 页 不 能 被 禾 盖 地 写 ， 而 且 擦 除 操作 的 代 

价 是 昂贵 的 。( 闪存 存储 系统 将 逻辑 页 重新 映射 到 预先 擦 除 的 物理 页 ， 避 人 免 在 写 页 面 时 的 延迟 ， 但 最 终 

必须 执行 擦 除 操作 ， 作 为 页 面 旧版 本 的 垃圾 回收 的 一 部 分 。) 


26.5 ”实时 事务 系统 


至 此 我 们 所 考虑 的 完整 性 约束 与 存储 在 数据 库 中 的 值 有 关 。 在 特定 应 用 中 ,约束 条 件 还 包括 指定 
任务 必须 完成 的 截止 时 间 ( deadline) 。 这 类 应 用 的 例子 包括 工厂 管理 、 交 通 控制 以 及 调度 。 当 把 截止 时 
间 考 虑 在 内 时 ， 执 行 的 正确 性 就 不 再 仅仅 是 数据 库 一 致 性 的 问题 了 , 我们 还 关心 截止 时 间 延 误 了 多 少 
次 ， 以 及 延误 了 多 长 时 间 。 截 止 时 间 的 特性 如 下 : 

o 硬 截 止 时 间 ( hard deadline ) 。 如 果 任 务 不 能 在 其 截止 时 间 之 前 完成 ， 可 能 出 现 严重 问题 ， 比 如 

系统 崩溃 。 

o 严格 截止 时 间 (firm deadline) 。 如 果 任 务 在 截止 时 间 之 后 完成 ， 它 的 价值 为 零 ， 

© 软 截止 时 间 ( soft deadline) 。 如 果 任 务 在 截止 时 间 之 后 完成 ， 它 的 价值 逐渐 缩小 ， 随 着 延误 时 间 

的 增长 其 价值 趋 近 于 零 。 
具有 截止 时 间 的 系统 称 作 实时 系统 (real-time system) 。 

实时 系统 中 的 事务 管理 必须 将 截止 时 间 考 虑 在 内 。 如 果 并 发 控制 协议 确定 让 事务 T, 等 待 ， 那 么 它 
可 能 导致 7, 错过 截止 时 间 。 在 这 种 情况 下 ， 可 能 最 好 是 抢占 持 有 锁 的 事务 ， 而 让 7, 进行 下 去 。 然 而 ， 
抢占 的 办 法 必须 慎重 使 用 ， 因 为 被 抢占 的 事务 所 失去 的 时 间 ( 由 于 回 滚 和 重启 ) 可 能 导致 该 事务 延误 它 
的 截止 时 间 。 遗 憾 的 是 ， 在 给 定 情况 下 很 难 确定 是 回 滚 更 好 还 是 等 待 更 好 。 

支持 实时 约束 的 一 个 主要 困难 来 自 事务 执行 时 间 的 差异 。 在 最 好 情况 下 ， 要 访问 的 所 有 数据 都 在 [1108 
数据 库 缓冲 区 中 。 在 最 坏 情况 下 ， 每 次 访问 都 导致 将 缓冲 页 写 到 磁盘 中 (还 要 先 写 必 不 可 少 的 日 志 记 
录 )， 然 后 再 从 磁盘 读 人 包含 待 访问 数据 的 页 面 。 由 于 最 坏 情况 下 所 需要 的 两 次 或 更 多 次 磁盘 访问 比 最 
好 情况 下 主 存 访 问 所 花 的 时 间 要 高 好 几 个 数量 级 ， 所 以 如 果 数 据 驻 留 在 磁盘 上 ， 那 么 事务 执行 时 间 的 
估算 就 非常 粗略 。 因 此 ， 如 果 需 要 满足 实时 约束 ， 常 常 采 用 主 存 数据 库 。 

然而 ， 即 使 数据 驻 留 在 主 存 中 ， 还 会 由 于 等 待 封锁 、 事 务 中 止 等 导致 执行 时 间 的 差异 。 人 研究 者 投 
和 人 了 相当 大 的 精力 来 研究 实时 数据 库 的 并 发 控制 。 他 们 扩展 了 封锁 协议 ， 为 那些 截止 时 间 早 的 事务 提 
供 较 高 的 优先 级 。 他 们 发 现 优 化 的 并 发 控制 在 实时 数据 库 中 执行 得 很 好 ， 即 这 些 协议 甚至 比 扩展 的 封 
锁 协 议 更 能 减少 截止 时 间 的 延误 。 文 献 注解 中 给 出 了 在 实时 数据 库 领域 中 的 研究 工作 的 参考 文献 。 

在 实时 系统 中 ， 最 重要 的 问题 不 是 绝对 速度 ， 而 是 截止 时 间 。 设 计 一 个 实时 系统 需要 保证 在 不 要 
求 过 多 硬件 资源 的 前 提 下 ， 有 足够 的 处 理 能 力 来 满足 截止 时 间 的 要 求 。 尽 管事 务 管理 会 导致 执行 时 间 
的 差异 ， 但 要 达到 这 一 目标 仍 是 一 个 挑战 性 的 问题 。 


26.6 长 事务 


事务 概念 原本 是 在 数据 处 理应 用 的 环境 中 提出 的 ， 在 此 环境 中 大 多 数 事务 不 是 交互 式 的 ， 并且 持 

续 时 间 很 短 。 昌 然 在 此 以 及 前 面 的 第 14、15、16 章 中 讨论 的 技术 能 够 很 好 地 支持 这 些 应 用 ,但 当 事 务 
的 概念 应 用 到 涉及 人 机 交互 的 数据 库 系统 时 ， 就 出 现 了 严重 的 问题 。 这 些 事务 具有 如 下 重要 特性 : 

© 持续 时 间 长 (long duration) 。 一 旦 人 介入 到 活 牙 事务 中 ， 从 计算 机 的 角度 看 ， 该 事务 就 变 成 了 长 

事务 (long-duration transaction) ， 因 为 人 的 响应 时 间 比 计算 机 的 速度 慢 。 而 且 ， 在 设计 应 用 中 ， 
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人 的 活动 可 能 会 长 达 数 小 时 、 数 天 甚至 更 长 。 因 此 ， 从 人 的 观点 和 从 机 器 的 观点 看 ， 事 务 的 持 
续 时 间 都 很 长 。 
© 暴露 未 提交 数据 (exposure of uncommitted data) 。 由 于 事务 可 能 中 止 ， 长 事务 产生 并 显示 给 用 户 
的 数据 可 能 未 提交 。 因 此 ， 用 户 或 其 他 事务 可 能 被 迫 去 读 未 提交 的 数据 。 如 果 在 一 项 工程 中 有 
几 个 用 户 在 合作 ,那么 用 户 事务 可 能 需要 在 事务 提交 之 前 交换 数据 。 
© 子 任务 (subtask) 。 一 个 交互 式 事务 可 能 包括 一 组 由 用 户 启动 的 子 任务 。 用 户 可 能 希望 中 止 其 中 
一 个 子 任务 ， 而 不 必 导 致 整个 事务 的 中 止 。 

© 可 恢复 性 (recoverability) 。 由 于 系统 崩溃 而 中 止 一 个 交互 式 的 长 事务 是 不 可 接受 的 。 活 牙 事 务 

必须 恢复 到 月 省 前 不 久 的 某 个 状态 ， 以 使 人 的 工作 丢失 得 相对 较 少 。 

o 性 能 (performance) 。 在 交互 式 事务 系统 中 将 性 能 好 定义 为 响应 时 间 快 。 这 一 定义 与 非 交 互 式 系 

统 中 的 定义 不 同 ， 非 交互 式 事务 系统 的 目标 是 高 吞吐 量 (每 秒 的 事务 数目 ) 。 具 有 高 吞吐 量 的 系 
统 能 够 有 效 利 用 系统 资源 。 然 而 ， 在 交互 式 事务 的 情况 下 ， 价 格 最 高 的 资源 是 用 户 。 如 果 要 提 
高 用 户 效率 和 满意 程度 ， 响 应 时 间 就 应 该 快 (从 人 的 角度 看 ) 。 在 一 个 任务 持续 很 长 时 间 的 情况 
下 ， 响 应 时 间 应 该 是 可 预知 的 ( 即 响 应 时 间 的 变化 应 该 不 大 ) ， 这 样 用 户 就 可 以 很 好 地 安排 自己 
的 时 间 。 

在 26. 6. 1 节 到 26. 6.5 节 中 ， 我 们 会 看 到 为 什么 这 五 个 特性 与 迄今 所 讨论 的 技术 不 相 容 ， 还 将 讨 
论 如 何 对 这 些 技术 进行 修改 以 适应 交互 式 长 事务 。 

26. 6. 1 不 可 串 行 化 的 执行 ， 

我 们 所 讨论 的 这 些 特性 使 得 前 面 章 节 中 所 用 的 只 允许 可 串 行 化 调度 的 要 求 变 得 不 切实 际 。 第 15 章 
中 的 每 种 并 发 控制 协议 对 于 长 事务 都 有 负面 影响 

© 两 阶段 封锁 (two-phase locking) 。 当 一 个 事务 请 求 封 锁 而 得 不 到 时 ， 它 就 被 迫 等 待 所 要 求 的 数据 

项 被 解锁 。 等 待 时 间 的 长 短 与 持 有 锁 的 事务 的 持续 时 间 成 比例 。 如 果 数 据 项 被 短 事务 封锁 ， 我 
们 预期 等 待 时间 会 很 短 (除非 发 生 了 死 锁 或 系统 负载 极 重 ) 。 然 而 ， 如 果 数 据 项 被 长 事务 封锁 ， 
则 会 发 生长 时 间 的 等 待 。 长 时 间 等 待 导致 响应 时 间 长 ， 并 且 发 生死 锁 的 可 能 性 增 大 。 
。 基于 图 的 协议 (graph-based protocol) 。 基 于 图 的 协议 使 得 锁 的 释放 比 两 阶段 封锁 协议 要 早 ， 并 且 
能 避免 死 锁 。 然 而 ， 它 对 数据 项 强加 了 一 个 顺序 。 事 务 对 于 数据 项 的 封锁 必须 以 与 该 顺序 一 致 
的 方式 进行 。 其 结果 是 ， 事 务 可 能 封锁 的 数据 比 它 实 际 需 要 的 要 多 。 而 且 ， 在 事务 确信 某 个 封 
锁 不 会 再 被 使 用 之 前 ， 必 须 持 有 该 封锁 ， 这 样 ， 就 可 能 发 生长 时 间 的 封锁 等 待 。 
© 基于 时 间 戳 的 协议 (timestamp-based protocol) 。 时 间 惟 协议 不 需要 事务 等 待 。 然 而 ， 在 某 些 情况 
下 ， 它 确实 需要 事务 中 止 。 如 果 一 个 长 事务 中 止 了 ， 就 会 丢失 大 量 实质 性 的 工作 。 对 于 非 交 互 
式 事务 来 说 ， 这 种 工作 的 丢失 是 性 能 问题 。 对 于 交互 式 事务 来 说 ， 这 还 是 个 用 户 满 意 度 的 问 
题 。 用 户 很 不 希望 发 现 他 几 个 小 时 的 工作 都 白 做 了 。 
© 有 效 性 检查 协议 (validation protocol) 。 与 基于 时 间 戳 的 协议 一 样 ， 有 效 性 检查 协议 通过 中 止 事 
务 来 保证 可 串 行 性 。 
由 此 看 来 ， 强 制 要 求 可 串 行 化 可 能 会 导致 长 时 间 的 等 待 、 长 事务 的 中 止 ， 或 者 两 者 同时 发 生 。 文 献 注 
解 中 引用 的 一 些 理论 结果 证 实 了 这 一 结论 。 

当 我 们 考虑 恢复 问题 时 ， 会 发 现 强制 要 求 可 串 行 化 所 带 来 的 进一步 的 困难 。 前 面 我 们 讨论 过 级 联 
回 滚 问题 ， 即 一 个 事务 的 中 止 可 能 导致 其 他 事务 的 中 止 。 这 一 现象 是 我 们 所 不 希望 的 ， 尤 其 对 于 长 事 
务 而 言 。 如 果 使 用 封锁 ， 又 想 避 免 级 联 回 滚 ， 就 必须 保持 排他 锁 直 至 事务 结束 。 然 而 ， 这 样 保持 排他 
锁 就 增加 了 事务 等 待 的 时 间 。 

由 此 看 来 ， 强 制 要 求 事务 的 原子 性 必然 导致 要 么 长 时 间 等 待 的 可 能 性 增 大 ， 要 么 产生 级 联 回 滚 的 
可 能 性 。 

在 15.7 节 描 述 的 快照 隔离 ， 可 以 提供 对 这 些 问题 的 部 分 解决 方案 ， 在 15. 9. 3 节 中 描述 的 无 读 有 
效 性 检查 的 乐观 并 发 控制 (optimistic concurrency control without read validation ) 协议 也 可 以 。 后 一 种 协议 
实际 上 是 用 来 专门 处 理 涉 及 用 户 交 互 的 长 事务 。 虽 然 无 读 有 效 性 检查 的 乐观 并 发 控制 并 不 能 保证 可 串 
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行 性 ,但 它 得 到 了 相当 广泛 的 使 用 。 

然而 ， 当 事务 具有 长 的 持续 时 间 ， 就 更 有 可 能 产生 冲突 的 更 新 ， 进 而 导致 额外 的 等 待 或 中 止 。 以 
上 考虑 为 我 们 在 本 节 其 余部 分 考虑 的 另外 一 些 有 关 并 发 执行 正确 性 和 事务 恢复 的 概念 打下 了 基础 
26.6.2 并 发 控制 

数据 库 并 发 控制 的 基本 目标 是 确保 事务 的 并 发 执行 不 会 导致 数据 库 一 致 性 的 丢失 。 可 以 利用 可 串 
行 化 的 概念 来 达到 这 一 目标 ， 因 为 所 有 可 串 行 化 的 调度 都 能 保持 数据 库 的 一 致 性 。 然 而 ， 并 非 所 有 保 
持 数 据 库 一 致 性 的 调度 都 是 可 串 行 化 的 。 例 如 ， 再 次 考虑 有 两 个 账户 4 和 B 的 银行 数据 库 ， 其 一 致 性 
要 求 是 4+B 之 和 保持 不 变 。 BE 26-5 中 的 调度 不 是 冲突 可 串 行 化 的 ,但 它 却 保持 了 A+B 的 和 不 
变 。 此 例 还 说 明了 无 可 串 行 化 条 件 下 有 关 正 确 性 概念 的 两 个 重要 观点 。 

。 正确 性 依赖 于 特定 的 数据 库 一 致 性 约束 。 

。 正确 性 依赖 于 每 个 事务 所 执行 的 操作 的 性 质 。 





通常 ， 事 务 对 低层 次 操作 进行 自动 分 析 并 检测 这 些 操作 对 数据 [一 下] 
库 一 致 性 约束 的 影响 是 不 可 能 的 。 然 而 ， 还 有 一 些 更 简单 的 技术 。 read) | 
其 中 之 一 是 以 数据 库 一 致 性 约 东 为 基础 ， 将 数据 库 划 分 成 一 些 子 数 AA 8 
据 库 ， 分 别管 理 每 个 子 数据 库 上 的 并 发 。 另 一 种 技术 是 将 一 些 操作 read(B) | 
(包括 read 和 write) 看 作 是 基本 的 低层 次 操作 ， 并 且 对 并 发 控制 进 | 
行 扩展 以 处 理 这 些 操作 。 reads) | | 
文献 注解 中 引用 了 不 要 求 可 品行 性 而 保证 一 致 性 的 另外 一 些 技 tes) 
术 。 这 些 技 术 中 有 许多 都 开发 了 多 版 本 并 发 控制 (参见 15.6 节 ) 的 变 cad | 
体 。 对 于 较 早 的 、 只 需要 一 个 版 本 的 数据 处 理应 用 来 说 ， 多 版 本 协 wi | 











议 为 存储 额外 的 版 本 导致 了 较 高 的 空间 开销 。 由 于 许多 新 的 数据 库 as RRE 
.应 用 需要 维护 数据 的 多 个 版 本 ， 所 以 开发 多 版 本 的 并 发 控制 技术 是 化 的 调度 
Anie 

夺 合 实际 的 。 
26.6.3 RESSMSRES 

可 以 将 一 个 长 事务 看 成 一 组 相关 的 子 任务 或 子 事务 。 通 过 一 组 子 事务 来 构建 事务 ， 我 们 可 以 提高 
并 行 度 ， 因 为 有 可 能 并 行 地 运行 几 个 子 事务 。 而 且 ， 处 理子 事务 失败 (由 于 中 止 、 系 统 前 溃 等 造成 ) 还 
可 以 不 用 回 滚 整 个 长 事务 。 

一 个 在 套 的 或 多 级 的 事务 7 了 包括 一 个 子 事务 的 集合 T= lt, hy oo, tT ERM Po TH 
的 一 个 子 事务 i 可 以 中 止 ， 而 无 需 强制 7 了 中止 。 反 过 来 ,7 可 以 重启 i;， 或 是 简单 地 选择 不 运行 1,。 如 
果 提交 了 ， 这 一 动作 并 不 使 t, 成 为 永久 的 (与 第 16 章 中 的 情况 不 同 ) 。 相 反 , t 向 了 提交 ， 如 果 了 中 
IE, 点 可 能 仍 会 中 止 (或 者 需要 补偿 一 一 见 26. 6.4 节 )。7 的 执行 不 能 违反 偏 序 P。 也 就 是 说 ， 如 果 在 
优先 图 中 出 现 边 tit, ABA tiot: 必定 不 能 在 P 的 传递 闭 包 中 。 

嵌 套 可 能 有 好 几 层 深 ， 表 示 将 事务 划分 为 子 任务 ， 子 任务 的 子 任务 ， 如 此 等 等 。 在 嵌 套 的 最 底层 ， 
是 我 们 前 面 用 到 的 标准 数据 库 操作 read 和 write。 

如 果 人 允许 了 的 子 任务 在 完成 的 时 候 释 放 锁 ， 那 么 了 称 为 多 级 事务 (multilevel transaction ) 。 当 一 个 多 
级 事务 代表 一 个 长 时 间 的 活动 时 ， 该 事务 有 时 称 作 一 个 传奇 (saga) 。 另 一 种 情况 是 ， 如 果 TOTES 1 
所 持 有 的 锁 在 i; 完成 时 自动 地 赋 给 了， 那么 了 就 称 作 骨 套 事务 (nested transaction) 。 

虽然 多 级 事务 的 主要 实用 价值 在 于 复杂 的 长 事务 ,但 我 们 将 用 图 26-5 的 简单 例子 来 说 明 如 何 用 髓 
套 来 建立 起 更 高 级 的 操作 ， 从 而 提高 并 发 度 。 我 们 用 子 事务 T ,和 7 ,来 重 写 事务 7 ， 这 两 个 子 事务 执 
行 增加 或 减少 的 操作 : 

e T, 包括 : 
Ti EAA 中 减 掉 50。 
T2; ZŒ B PHE 50, 
类 似 地 ， 我 们 用 子 事务 T, AT, ,来 重 写 事务 7,， 这 两 个 子 事务 也 执行 增加 或 减少 的 操作 : 























mi] 
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e 7, 包括 : 
OT, EMA B PRH 10. 
O 7,2, EEA 中 加 上 10, 
对 于 Ti， ，7Ti,，，7T, 1，D ,没有 说 明 顺序 。 这 些 子 事务 的 任意 执行 都 会 产生 正确 结果 。 图 26-5 中 的 调度 
对 应 于 调度 < Th, Try, Thay TT,>。 
26.6.4 ”补偿 事务 

为 减少 长 时 间 等 待 的 发 生 频 率 ， 我 们 将 未 提交 的 更 新 暴露 给 其 他 并 发 执行 的 事务 。 事 实 上 ， 多 级 
事务 可 能 允许 这 种 曝光 。 然 而 ， 曝 光 未 提交 数据 产生 了 级 联 回 滚 的 可 能 性 。 补 偿 事务 ( compensating 
transaction ) 的 概念 有 助 于 我 们 处 理 这 一 问题 。 

设 事务 7 被 划分 为 几 个 子 事务 t, ，t,，…，t,。 在 子 事务 i; 提交 之 后 ， 它 释放 了 它 的 封锁 。 现 在 ， 
如 果 必 须 中 止 外 层 事 务 7， 那 么 它 的 子 事务 所 造成 的 影响 必须 被 撤销 。 假 设 子 事务 十 ，…, t, 已 经 提交 
了 ， 在 作出 中 止 决定 时 ,正在 执行 。 我 们 可 以 通过 中 止 子 事务 加,, 来 消除 它 的 影响 。 然 而 ， 不 可 能 中 
止 子 事务 t, ，…，t， 因 为 它们 已 经 提交 了 。 

取而代之 ， 我 们 执行 一 个 新 的 子 事务 ( 称 作 补偿 事务 )ct, 去 撤销 子 事 务 t, 的 影响 ,每 个 子 事务 1, 都 
需要 有 一 个 补偿 事务 ct;,。 补 偿 事 务必 须 以 相反 的 顺序 ctp, =, cti 来 执行 。 下 面 给 出 几 个 补偿 的 例子 : 

。 考虑 图 26-5 的 调度 ， 我 们 已 经 说 明了 它 是 正确 的 ， 尽 管 它 不 是 冲突 可 串 行 化 的 。 每 个 子 事务 一 
旦 完成 就 释放 它 的 封锁 。 假 设 在 T, 即将 结束 前 ,7 ,已 经 释放 了 它 的 封锁 之 后 ，7, 失败 了 。 然 
后 我 们 就 运行 一 个 对 7 ;的 补偿 事务 ， 它 从 4 中 减 掉 10， 并 运行 一 个 对 7 ,的 补偿 事务 ， 它 往 B 
中 加 上 10。 
考虑 事务 T, 所 做 的 一 个 数据 库 插入 ， 其 副作用 造成 了 B' 树 索引 的 更 新 。 该 插入 操作 可 能 修改 
了 B 树 索 引 的 几 个 结 点 。 其 他 事务 在 访问 数据 (不 是 T, 新 插入 的 记录 ) 时 可 能 已 经 读 过 这 些 结 
点 。 正 如 16.7 节 所 提 到 的 ,我 们 可 以 通过 删除 7; 插入 的 记录 来 撤销 这 个 插入 的 影响 。 其 结果 
是 一 棵 正确 的 、 一 致 的 B' 树 ,但 不 一 定 与 7; 开始 之 前 的 结构 完全 相同 。 因 此 删除 是 插入 的 补 
偿 动作 。 

© 考虑 一 个 长 事务 7T,， 它 代表 旅行 预订 。 事 务 7 有 3 个 子 事务 : T ,预订 飞机 票 ; 7, ,预订 出 租车 ， 

T, ;预订 旅馆 房间 。 假 设 旅馆 取消 了 预订 。 我 们 不 用 撤销 整个 7， 对 7. ;失败 的 补偿 是 删除 原来 
的 旅馆 订单 ， 并 且 建 立 一 个 新 的 订单 。 

如 果 系 统 在 执行 外 层 事 务 的 中 间 崩 演 了 ， 那 么 当 对 它 进行 恢复 时 必须 回 深 它 的 子 事 务 。16.7 节 所 
描述 的 技术 可 以 用 于 这 一 目的 。 

对 事务 失败 的 补偿 需要 利用 失败 事务 的 语义 。 对 于 某 些 操作 ， 例 如 向 B' 树 中 增加 或 插入 ,很 容易 
定义 相应 的 补偿 。 对 于 更 复杂 的 事务 ， 可 能 需要 应 用 编程 者 在 对 事务 进行 编码 时 定义 补偿 的 正确 形式 。 
对 于 复杂 的 交互 事务 ， 可 能 需要 系统 与 用 户 进行 交互 ， 以 确定 补偿 的 正确 形式 。 

26.6.5 实现 问题 

本 节 讨 论 的 事务 概念 为 实现 带 来 了 很 大 困难 。 我 们 在 这 里 列 出 了 其 中 的 几 个 ， 并 讨论 我 们 可 以 如 
何 处 理 这 些 问 题 。 

长 事务 必须 能 够 免 遭 系统 崩溃 的 影响 。 我 们 能 够 确保 这 一 点 ， 办 法 是 对 已 提交 子 事务 执行 redo， 
对 于 崩溃 时 正 活跃 的 短 的 子 事务 执行 undo 或 补偿 。 然 而 ， 这 些 动作 仅 解决 了 部 分 问题 。 在 典型 的 数据 
库 系 统 中 ， 诸 如 锁 表 、 事 务 时 间 惟 等 这 样 的 内 部 系统 数据 是 存放 在 易 失 性 存储 器 中 的 。 为 使 长 事务 在 
崩溃 后 能 够 继续 ， 这 些 数据 必须 恢复 。 因 此 ， 不 仅 需 要 对 数据 库 的 改变 记 日 志 ， 而 且 需 要 对 与 长 事务 
有 关 的 内 部 系统 数据 的 改变 记 日 志 。 

当 数据 库 中 存在 特定 类 型 的 数据 项 时 ， 记 录 更 新 日 志 就 会 变 得 更 为 复杂 。 数 据 项 可 能 是 一 个 CAD 
设计 、 文 档 的 正文 或 者 另 一 种 复合 设计 的 形式 。 这 些 数据 项 物理 上 很 大 。 因 此 我 们 不 希望 在 日 志 记录 
中 既 存储 这 种 数据 项 的 旧 值 ， 也 存储 其 新 值 。 

有 两 种 方法 可 以 减少 保证 大 数据 项 可 恢复 性 的 开销 : 
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© 操作 日 志 (operation logging) 。 在 日 志 中 只 存放 在 数据 项 上 执行 的 操作 和 数据 项 的 名 称 。 操 作 日 


尽 


志 也 称 作 逻辑 日 志 (logical logging) 。 对 每 个 操作 ， 必 须 存 在 一 个 道 操作 。 我 们 用 道 操 作 执 行 
undo， 用 操作 本 身 执 行 redo。 通 过 操作 日 志 进 行 恢 复 更 为 困难 ， 因 为 redo 和 undo RES 
的 。 而 且 ， 对 于 更 新 多 个 页 面 的 操作 使 用 逻辑 日 志 是 非常 复杂 的 ， 其 原因 是 更 新 过 的 某 些 页 面 
(但 并 不 是 所 有 页 面 ) 可 能 已 经 写 出 到 磁盘 中 了 ， 因 此 在 恢复 时 很 难 在 磁盘 镜像 上 进行 该 操作 的 
redo 或 undo。 如 16.7 节 描 述 的 那样 ， 使 用 物理 重 做 日 志和 有 逻辑 撤销 日 志 提 供 了 逻辑 日 志 并 行 
性 的 优点 ， 同 时 避免 了 上 述 缺 陷 。 

日 志和 影子 分 页 (logging and shadow paging) 。 日 志 用 于 对 小 数据 项 的 更 新 ， 而 大 数据 项 的 可 恢 
复 性 通常 通过 影子 分 页 或 复制 写 技术 来 实现 。 当 我 们 使 用 影子 分 页 时 ， 通 过 只 保存 那些 实际 上 
被 修改 过 的 页 面 的 副本 可 以 降低 开销 。 


管 采 用 了 这 些 技 术 ， 由 于 长 事务 和 大 数据 项 而 引入 的 复杂 性 仍然 使 恢复 过 程 复杂 化 。 因 此 ， 我 


们 和 希望 允许 对 于 特定 的 非 关键 数据 不 记 日 志 ， 而 依赖 于 脱 机 备份 和 人 工 干预 。 


26. 7 


总 结 


工作 流 是 一 些 活动 ， 涉 及 由 不 同 处 理 实体 实现 的 多 个 任务 的 协同 执行 。 它 们 不 仅 存 在 于 计算 机 应 用 
中 ， 也 存在 于 几乎 所 有 的 组 织 机 构 活 动 中 。 随 着 网 络 的 发 展 ， 以 及 多 个 自治 数据 库 系 统 的 存在 ， 工 
作 流 提供 了 一 种 方便 的 方式 来 执行 涉及 多 个 系统 的 任务 。 

虽然 对 于 这 样 的 工作 流 应 用 来 说 ， 通 常 的 ACID 事务 性 要 求 太 强 了 ， 或 者 不 可 能 实现 ， 但 是 工作 流 必 
须 满足 事务 特性 的 一 个 有 限 集合 ， 以 保证 进程 不 会 处 于 一 种 不 一 致 的 状态 。 

最 初 开发 事务 处 理 监控 器 是 作为 多 线程 服务 器 ， 由 一 个 单独 的 进程 为 大 量 终端 服务 。 由 此 演变 而 来 ， 
现在 事务 处 理 监控 器 为 建立 和 管理 有 大 量 客户 端 和 多 个 服务 器 的 复杂 的 事务 处 理 系统 提供 基础 设施 。 
它 提供 各 种 服务 ， 例 如 客户 端 请 求 和 服务 器 响应 的 持久 队列 、 客 户 端 消 息 到 服务 器 的 路 由 、 持 久 消 
息 、 负 载 均衡 、 当 事务 访问 多 个 服务 器 时 的 两 阶段 提交 的 协调 。 

电子 商务 系统 已 成 为 商务 的 核心 部 分 。 在 电子 商务 系统 中 有 几 个 数据 库 方 面 的 问题 。 目 录 管 理 ， 特 
别 是 个 性 化 目录 ， 需 要 利用 数据 库 实现 。 电 子 市 场 帮助 确定 拍卖 、 反 向 拍卖 或 交易 中 的 产品 的 价格 。 
处 理 这 类 交易 需要 高 性 能 的 数据 库 系 统 。 订 单 由 电子 支付 系统 结算 ， 这 同样 需要 有 非常 高 的 事务 处 
理 率 的 高 性 能 数据 库 系统 。 

某 些 系统 采用 开发 了 大 容量 主 存 以 达到 较 高 的 系统 吞吐 量 。 在 这 样 的 系统 中 ， 日 志 成 为 瓶颈 。 依 据 
组 提交 的 概念 ， 可 以 减少 向 稳定 存储 器 输出 的 次 数 ， 从 而 缓解 这 个 瓶颈 。 

有 效 管理 持续 时 间 长 的 交互 式 事务 是 一 个 更 加 复杂 的 问题 ， 因 为 有 长 时 间 的 等 待 ， 还 因为 有 中 止 的 
可 能 性 。 由 于 第 15 章 采 用 的 并 发 控制 技术 使 用 等 待 或 中 止 ， 或 者 两 者 都 采用 ， 因 此 必须 考虑 另 一 些 
可 选 技术 。 这 些 技术 必须 在 不 要 求 可 串 行 性 的 条 件 下 保证 正确 性 。 

长 事务 表示 为 嵌 套 事务 ， 其 最 底层 是 数据 库 的 原子 操作 。 如 果 一 个 事务 失败 了 ， 只 有 活动 着 的 短 事 
务 中 止 。 一旦 所 有 短 事务 恢复 了 ， 活 动 的 长 事务 就 继续 进行 。 如 果 外 层 事务 失败 ， 需 要 使 用 补偿 事 
务 对 已 提交 的 舱 套 事务 的 更 新 进行 撤销 。 

在 具有 实时 约束 的 系统 中 ， 执 行 的 正确 性 不 仅 包括 数据 库 一 致 性 ， 而 且 还 包括 满足 截止 时 间 。 读 和 
写 操作 在 执行 时 间 上 的 巨大 差异 使 得 具有 时 间 约 束 的 系统 中 的 事务 管理 问题 复杂 化 了 。 














术语 回顾 
o TP 监控 器 。 多 任务 调度 口 远程 过 程 调用 ( RPC) 
。 TP 监控 器 体系 结构 e 上 下 文 切换 。 事务 工作 流 

口 每 客户 进程 © 多 线程 服务 器 任务 

O 单 服务 器 © 队列 管理 器 口 处 理 实体 

O 多 服务 器 单 路 由 器 。 应 用 协调 器 口 工作 流 说 明 

口 多 服务 器 多 路 由 器 口 资源 管理 器 工作 流 执行 
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。 工作 流 状 态 部 分 分 布 式 。 实时 系统 
口 执行 状态 口 完全 分 布 式 。 截止 时 间 
D 输出 值 e 业务 流程 管理 硬 截止 时 间 
口 外 部 变量 。 编排 口 严格 截止 时 间 
。 工作 流 的 故障 原子 性 。 电子 商务 口 软 截止 时 间 
。 工作 流 终止 状态 。 电子 目录 。 实时 数据 库 
口 可 接受 的 。 市 场 。 长 事务 
口 不 可 接受 的 口 拍卖 。 未 提交 数据 的 曝光 
口 提交 的 o 反 向 拍卖 。 不 可 串 行 化 执行 
口 中 止 的 口 交易 。 KREBS 
。 工作 流 恢复 。 订单 结算 。 多 级 事务 
。 工作 流 管理 系统 。 数字 证 书 © 传奇 (Saga) 
© 工作 流 管理 系统 体系 结构 。 主 存 数据 库 。 补偿 事务 
口 集 中 式 。 组 提交 。 PEHE 
实践 习题 
1116| 26. 1 类似 于 数据 库 系统 ， 工 作 流 系统 同样 需要 并 发 和 恢复 管理 。 列 出 三 个 原因 说 明 为 什么 我 们 不 能 简单 地 
Hi 应 用 一 个 采用 2PL、 物 理 撤销 日 志和 2PC 的 关系 数据 库 系 统 。 





26.2 考虑 系统 崩溃 后 的 主 存 数据 库 系统 的 恢复 。 解 释 下 列 方法 的 相对 优越 性 : 
。 在 重新 开始 事务 处 理 之 前 将 整个 数据 库 载 人 到 主 存 中 。 
。 当 事 务 请 求 数据 时 将 该 数据 载 人 。 
26.3 高 性 能 事务 系统 一 定 是 实时 系统 吗 ” 为 什么 ? 
26.4 解释 为 什么 要 求 长 事务 可 串 行 化 可 能 是 不 现实 的 。 
26.5 考虑 从 持久 消息 的 持久 队列 中 发 送 消息 的 多 线程 处 理 过 程 。 不 同 线程 可 以 并 发 运行 ， 试 图 发 送 不 同 的 
消息 。 在 发 送 失败 的 情况 下 ， 消 息 必须 重新 存 回 队列 中 。 像 多 级 事务 那样 模拟 每 个 线程 执行 的 动作 ， 
这 样 只 有 在 发 送 消息 时 才 需 要 持 有 该 队列 上 的 封锁 。 
26.6 ”如 果 我 们 允许 组 套 事务 ， 请 讨论 第 16 章 中 介绍 的 每 一 种 恢复 模式 需要 做 什么 修改 。 另 外 ， 如 果 我 们 
人 允许 多 级 事务 ， 请 解释 那 会 带 来 什么 不 同 。 
习题 
26.7 解释 TP 监控 器 在 管理 内 存 和 处 理 器 资源 方面 如 何 比 通常 的 操作 系统 更 加 有 效 。 
26.8 比较 TP 监控 器 和 支持 servlet 的 Web 服务 器 (这 种 服务 器 的 昵称 叫 TP-lite) 的 特征 。 
26.9 考虑 你 所 在 的 大 学 接收 新 学 生 ( 或 你 所 在 的 公司 接收 新 员工 ) 的 过 程 。 
a 从 学 生 申请 手续 开始 ， 给 出 工作 流 的 高 层 描述 。 
b. 指出 可 接受 终止 状态 以 及 需要 人 工 干预 的 步骤 。 
c. 指出 可 能 的 错误 (包括 超过 截止 时 间 ) 以 及 如 何 处 理 它们 。 
d 调查 你 所 在 的 学 校 里 工作 流 的 多 少 部 分 已 经 自动 化 了 。 
26.10 回答 下 面 关于 电子 支付 系统 的 问题 : 
a. 解释 为 什么 用 信用 卡号 码 执行 的 电子 事务 可 能 是 不 安全 的 。 
b 另 一 种 选择 是 通过 信用 卡 公司 维护 一 个 电子 支付 网 关 ， 接 受 支付 业务 的 站 点 将 客户 转 到 网 关 站 点 
来 完成 支付 。 
i 解释 如 果 网 关 不 进行 用 户 鉴别 ， 那 么 这 样 的 系统 能 够 提供 哪些 好 处 。 
ii 解释 如 果 网 关 有 用 户 鉴别 机 制 ， 那 么 还 能 够 提供 哪些 进一步 的 好 处 . 
c. 一 些 信用 卡 公 司 提供 一 种 一 次 性 信用 卡号 码 作为 一 种 更 为 安全 的 电子 支付 方法 。 客 户 连 接 到 信用 
卡 公 司 的 网 站 得 到 一 个 一 次 性 号 码 。 解 释 与 使 用 普通 信用 卡号 码 相 比 ， 这 样 的 系统 能 够 提供 怎样 
的 好 处 。 也 请 解释 与 使 用 鉴别 机 制 的 电子 支付 网 关 相 比 ， 这 种 系统 有 哪些 好 处 和 不 足 。 
d 当 交 易 是 用 现金 进行 的 ， 上 面 所 说 的 系统 中 有 保证 同样 的 隐私 吗 ? 解释 你 的 答案 。 
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26. 11 ”如果 整个 数据 库 能 放 入 主 存 ， 我 们 还 需要 数据 库 系 统 来 管理 数据 吗 ” 解释 你 的 答案 。 

26.12 ”在 组 提交 技术 中 ， 一 个 组 里 应 该 包括 多 少 个 事务 ?解释 你 的 答案 。 

26.13 在 使 用 先 写 日 志 的 数据 库 系 统 中 ， 最 坏 情 况 下 从 指定 磁盘 页 读 取 一 个 数据 项 所 需 的 磁盘 访问 次 数 是 
多 少 ? 解释 为 什么 这 对 于 实时 数据 库 系 统 设 计 者 提出 了 一 个 问题 。 提 示 : 考虑 磁盘 缓冲 满 的 情况 。 

26.14 ”补偿 事务 的 目的 是 什么 ?给 出 使 用 补偿 事务 的 两 个 例子 . 

26.15 解释 在 工作 流 和 长 事务 之 间 的 联系 。 


文献 注解 


Gray 和 Reuter[ 1993 ] 是 描述 事务 处 理 系统 详细 的 (并 且 极 好 的 ) 教 科 书 ， 包 括 有 关 TP 监控 器 的 几 个 章 
43, X/Open[ 1991] 定 义 了 X/Open XA 接口 。 

Fischer[ 2006 ] 是 一 本 工作 流 系 统 的 手册 ， 由 工作 流 管理 协会 联合 出 版 。 该 协会 的 网 址 是 www. wfmc. org. 
我 们 对 工作 流 的 描述 沿用 了 Rusinkiewicz 和 Sheth[ 1995 ] 的 模型 。 
Loeb[ 1998 | 提供 了 安全 电子 交易 的 详细 描述 。 

Garcia-Molina 和 Salem[ 1992 ] 给 出 了 关于 主 存 数据 库 的 综述 。jJagadish 等 [ 1993 ] HU T A EF RHE EI 
计 的 一 个 恢复 算法 。Jagadish 等 [1994 ] 描 述 了 主 存 数 据 库 的 存储 管理 。 

Lam 和 Kuo[ 2001] 讨 论 了 实时 数据 库 。Haritsa 等 [ 1990] Hong 等 [1993 ] Pang 等 [1995 ] 讨论 了 实时 数 
据 库 中 的 并 发 控制 和 调度 。Ozsoyoglu 和 Snodgrass[ 1995 ] 是 对 关于 实时 数据 库 和 时 态 数 据 库 研究 的 综述 . 

Moss[ 1985 ] 、Lynch 和 Merritt[ 1986 ] 、Moss[ 1987 ] 、Haerder 和 Rothermel [ 1987 ] 、Rothermel 和 Mohan 
[1989], Weikum 等 [1990] Korth 和 Speegle[ 1990 ] 、Weikum[ 1991 ] LAA Korth 和 Speegle[ 1994 | 介绍 了 
艇 套 事务 和 多 级 事务 。Lynch 等 [1988 ] 介 绍 了 多 级 事务 的 理论 层面 。Garcia-Molina 和 Salem[ 1987 | 介绍 了 
Saga 的 概念 。 
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本 部 分 描述 不 同 的 数据 库 系 统 如 何 将 本 书 前 面 所 描述 的 各 种 概念 相 融 合 。 我 们 首先 在 第 
27 章 介绍 广泛 使 用 的 开源 数据 库 系 统 PostgreSQL。 第 28、29、30 章 介 绍 三 种 广泛 应 用 的 商用 
数据 库 系 统一 一 IBM DB2、Oracle 和 Microsoft SQL Server。 这 三 个 系统 代表 了 三 种 应 用 最 为 广泛 
的 商用 数据 库 系 统 。 

这 几 章 中 每 章 都 强调 了 各 个 数据 库 系 统 独 有 的 特性 : 工具 、SQL 变化 和 扩展 以 及 系统 体 
系 结 构 ， 包 括 存储 组 织 、 查 询 处 理 、 并 发 控制 与 恢复 以 及 复制 能 力 。 

这 几 章 只 包括 所 讲述 数据 库 产品 的 关键 方面 ， 所 以 不 能 看 成 是 这 些 产品 的 全 面 介 绍 。 更 
何况 由 于 产品 经 常 改 进 ， 产 品 细节 会 发 生变 化 。 当 使 用 某 个 特定 版 本 的 产品 时 ， 对 于 特定 细 
节 一 定 要 参考 用 户 手 册 。 

记 住 本 部 分 章节 通常 使 用 的 是 工业 术语 而 不 是 学 术 术 语 。 例 如 ， 用 表 代 替 关 系 ， 行 代替 [1121 
元 组 ， 列 代替 属性 。 11122 


SS! 
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PostgreSQL 是 一 个 开放 源 代 码 的 对 象 - 关系 数据 库 管 理 系统 。 它 是 由 加 州 大 学 伯克利 分 校 的 
Michael Stonebraker 教授 主持 开发 的 Postgres 系统 的 后 代 。Postgres 系统 是 最 早 的 对 象 - 关系 数据 库 管 
理 系统 之 一 。 名 字 ” Postgres” 来自 于 关系 数据 库 系 统 的 先驱 之 一 mgres， 它 同样 也 是 由 伯克利 的 
Stonebraker 主持 开发 的 。 目 前 PostgreSQL 支持 SQL:2003 的 许多 方面 并 提供 许多 特性 ， 如 复杂 查询 、 
外 码 、 触 发 器 、 视 图 、 事 务 一 致 性 、 全 文 检 索 和 受 限 的 数据 复制 。 另 外 ， 用 户 可 以 为 PostgreSQL 扩 
展 新 的 数据 类 型 、 函 数 、 操 作 符 或 索引 方法 。PostgreSQL 支持 多 种 程序 设计 语言 (包括 C、C++、 
Java, Perl, Tcl 和 Python) 以 及 JDBC 和 ODBC 数据 库 接口 。PostgreSQL 的 另 一 个 突出 点 是 ， 它 和 
MySQL 是 两 种 使 用 最 为 广泛 的 开源 关系 数据 库 系统 。PostgreSQL 许可 证 是 BSD 许可 证 ， 这 就 允许 任 
何人 以 任何 目的 使 用 、 修 改 和 发 布 PostgreSQL 代码 和 文档 而 不 需要 付费 。 


27.1 概述 


在 二 十 年 中 ，PostgreSQL 有 过 几 次 大 的 发 布 。 最 早 的 原型 系统 ， 名 字 叫 做 Postgres， 在 1988 年 的 
ACM SIGMOD 会 议 上 演示 过 。1989 年 发 布 给 用 户 的 第 一 个 版 本 提供 了 许多 特征 ， 如 可 扩展 数据 类 
型 、 一 个 初步 的 规则 系统 和 名 为 Postquel 的 查询 语言 。 在 随后 的 多 个 版 本 中 增加 了 一 个 新 的 规则 系 
统 、 对 多 存储 管理 器 的 支持 以 及 改进 的 查询 执行 器 ,然后 系统 开发 者 关注 于 系统 的 便携 性 和 性 能 ， 
直到 1994 年 增加 了 SQL 语言 解释 器 。 之 后 系统 以 Postgres95 这 个 新 名 字 发 布 到 Web 上 ， 随 后 被 
Illustra Information Technologies( 后 又 合并 到 Informix, Informix MÆ X IBM 所 有 ) 商业 化 。 到 1996 年 ， 
PostgreSQL 这 个 名 字 取 代 了 Postgres95 ， 以 反映 原始 的 Postgres 和 兼容 SQL 的 最 新 版 本 之 间 的 关系 。 

PostgreSQL 实际 上 可 以 运行 在 所 有 类 UNIX 操作 系统 上 ， 包 括 Linux 和 Apple Macintosh OS X, 
期 版 本 的 PostgreSQL 服务 器 能 运行 在 Cygwin 环境 中 的 Microsoft Windows 下 ， 这 个 环境 提供 Windows 
中 的 Linux 仿真 。 在 2005 年 1 月 发 布 的 版 本 8. 0 提供 了 对 Microsoft Windows 的 天 然 支持 . 

SR, PostgreSQL 用 于 实现 若干 不 同 的 研究 和 产品 应 用 (例如 用 于 地 理 信息 的 PostGIS 系统 ) tE 
在 一 些 大 学 作为 教学 工具 。 在 由 大 约 1000 名 开发 者 组 成 的 社区 的 努力 下 ， 系 统 在 向 前 持续 演进 。 在 
本 章 我 们 将 解释 PostgreSQL 怎样 工作 ， 从 用 户 界 面 和 语言 开始 ， 直 到 系统 的 核心 (数据 结构 和 并 发 控 
制 机 制 ) 。 


27.2 用 户 界面 


PostgreSQL 标准 发 布 版 本 附带 有 管理 数据 库 的 命令 行 工具 。 然 而 ， 有 众多 支持 PostgreSQL 的 商业 
和 开源 的 图 形 管理 和 设计 工具 。 软 件 开发 人 员 也 可 以 通过 一 组 全 面 的 编程 接口 来 访问 PostgreSQL 
27.2.1 交互 式 终端 界面 

像 大 多 数 数据 库 系统 一 样 ，PostgreSQL 为 数据 库 管理 提供 命令 行 工具 。 其 主要 的 交互 式 终端 客户 
是 psql， 它 模仿 UNIX shell， 人 允许 在 服务 器 上 执行 SQL 命令 和 一 些 其 他 操作 (如 客户 端 复 制 ) 。 它 的 一 
些 特性 包括 : 

。 变量 ( variable) psql 提供 变量 替换 特征 ， 与 通常 的 UNIX 命令 解释 器 相似 。 

e SQL 替换 (SQL interpolation ) 。 通 过 在 变量 名 前 放 一 个 冒号 ， 用户 能 将 psql 中 的 变量 蔡 换 

(“interpolate”) 为 正规 的 SQL 语句 。 
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。 命令 行 编辑 ( command-line editing) 。psql 调用 GNU 读 行 库 程序 以 进行 便捷 的 行 编辑 ， 同 时 支 
持 按 tab 键 自 动 补 全 输入 。 
PostgreSQL 还 可 以 通过 Tel/Tk 解释 器 访问 ， 它 是 一 种 灵活 的 脚本 语言 ， 常 用 于 快速 实现 系统 原 
型 。 这 个 功能 通过 在 Tel/Tk 中 加 载 pgtcl 库 来 实现 ， 并 作为 PostgreSQL 可 选 的 扩展 进行 发 布 。 
27.2.2 图形 界面 


PostgreSQL 的 标准 发 布 版 本 不 包含 任何 图 形 工 具 。 然 而 已 经 有 一 些 图 形 化 的 用 户 界面 工具 ， 用 户 可 
以 选择 商用 产品 或 者 开源 软件 。 许 多 此 类 工具 发 布 周期 很 快 ， 下 面 所 介绍 的 反映 了 本 书写 作 时 的 情形 。 

用 于 管理 的 图 形 化 工具 包括 pgAccess 和 pgAdmin， 图 27-1 显示 了 后 者 。 数 据 库 设计 工具 包括 
TORA 和 Data Architect， 后 者 如 图 27-2 Aras. PostgreSQL 可 以 与 若干 商用 表单 设计 和 报表 生成 工具 一 
起 使 用 。 可 供 选 择 的 开源 替代 软件 包括 Rekall( 如 图 27-3 和 图 27-4 所 示 ) GNU Report Generator 和 一 
个 更 加 全 面 的 工具 包 GNU Enterprise。 
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图 27-2 Data Architect; 一 个 多 平台 数据 库 设 计 GUI 
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图 27-4 Rekall: 报表 设计 GUI 


27. 2.3 编程 语言 接口 

PostgreSQL 提供 支持 ODBC 和 JDBC 的 原生 接口 ， 同 时 为 大 多 数 编程 语言 提供 绑 定 接口 ， 包 括 C、 
C++, PHP, Perl, Tcl/Tk、ECPG、Python 和 Ruby. 

libpq 库 为 PostgreSQL 提供 了 C 的 API， 它 也 是 大 多 数 编程 语言 绑 定 的 基础 引擎。 通过 可 重 人 的 和 
线程 安全 的 接口 libpq 库 同时 支持 SQL 命令 和 准备 语句 的 同步 和 异步 执行 。libpq 的 连接 参数 可 以 用 
几 种 灵活 的 方式 来 设置 ， 如 设置 环境 变量 、 将 配置 信息 存储 在 本 地 文件 中 或 者 在 一 个 LDAP 服务 右上 
创建 条 目 。 


27.3 SQL 变化 和 扩展 


PostgreSQL 的 当前 版 本 支持 几乎 所 有 的 初级 SQL92 特征 ， 以 及 许多 中 级 和 完全 级 SQL92 特征 。 它 
同时 支持 许多 SQL:1999 和 SQL:2003 特征 ， 包 括 第 22 章 所 描述 的 大 多 数 对 象 -关系 特征 和 第 23 Sihi 
述 的 用 于 解析 XML 数据 的 SQL/XML 特征 。 事 实 上 ， 当 前 SQL 标准 的 一 些 特征 (例如 数组 、 函 数 和 继 
承 ) 是 由 PostgreSQL 及 其 祖先 开创 的 。 它 没有 支持 OLAP 特征 (尤其 是 cube 和 rollup 操作 ) ， 但 是 来 自 
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PostgreSQL 的 数据 可 容易 地 导入 到 开源 的 外 部 OLAP 服务 器 (如 Mondrian) 和 其 他 商用 产品 中 。 
27.3.1 PostgreSQL 类 型 
PostgreSQL 支持 一 些 对 于 特定 应 用 领域 非常 有 用 的 非 标准 类 型 。 进 一 步 说 ， 用 户 可 以 用 create type 
命令 定义 新 类 型 ， 包 括 新 的 低层 次 的 基本 类 型 ， 通 常用 C 书写 ( 见 27.3.3.1 节 )。 
27.3.1.1 PostgreSQL 类 型 系统 
“ PostgreSQL 类 型 分 为 如 下 几 类 
。 基本 类 型 (base type) 。 基 本 类 型 又 称 为 抽象 数据 类 型 ( abstract data type) ， 也 就 是 封装 状态 和 一 
组 操作 的 模块 。 它 们 在 SQL 层 以 下 实现 ， 通 常用 像 C 这 样 的 语言 来 实现 ( 见 27.3.3.1 节 )。 例 
如 int4( 已 经 包含 在 PostgreSQL 中 ) 或 complex( 包含 在 可 选 的 扩展 类 型 中 ) 。 一 个 基本 类 型 可 以 
表示 一 个 单独 的 标量 值 或 者 一 个 可 变 长 度 的 数组 值 。 对 于 数据 库 中 存在 的 每 个 标量 类 型 ， 
PostgreSQL 自动 创建 一 个 数组 类 型 用 于 存放 相同 标量 类 型 的 值 。 
复合 类 型 ( composite type) 。 它 们 对 应 于 表 中 的 行 。 也 就 是 说 ， 它 们 是 字段 名 字 及 其 相应 类 型 的 
列表 。 当 创建 一 个 表 时 就 会 隐 式 创建 一 个 复合 类 型 ， 当 然 用 户 也 可 以 显 式 地 构造 它们 。 
域 (domain) 。 域 类 型 是 通过 一 个 基本 类 型 关联 一 个 这 种 类 型 的 值 必须 满足 的 约束 来 定义 的 。 只 
要 满足 约束 ， 域 类 型 的 值 与 所 关联 的 基本 类 型 的 值 就 可 以 互 换 着 使 用 。 一 个 域 可 以 拥有 一 个 可 
选 的 默认 值 ， 其 含义 如 同 表 中 列 所 对 应 的 默认 值 。 
枚 举 类 型 (enumerated type) 。 它 们 类 似 于 如 C 和 Java 那样 的 编程 语言 中 使 用 的 enum 类 型 。 枚 举 
类 型 实质 上 是 一 个 指定 了 值 的 固定 列表 。 在 PostgreSQL 中 ， 枚 举 类 型 可 以 转换 成 它们 名 称 的 文 
本 表示 ， 但 是 这 种 转换 在 某 些 情 况 下 必须 显 式 地 声明 以 确保 类 型 安 人 全。 例如， 如果 没有 显 式 转 
换 成 相 容 类 型 ， 不 同 枚 举 类 型 的 值 就 不 可 以 进行 比较 。 
伪 类 型 (pseudotype) 。 当 前 ，PostgreSQL 支持 下 述 伪 类 型 : any. anyarray, anyelement, anyenum 、 
anynonarray cstring, internal, opaque, language_handler, record, trigger 和 void。 它 们 不 能 用 在 复 
合 类 型 中 ( 从 而 不 能 用 于 表 中 的 列 )， 但 是 可 作为 用 户 自 定义 函数 的 参数 和 返回 类 型 。 
多 态 类 型 (polymorphic type), anyelement, anyarray, anynonarray 和 anyenum 四 种 伪 类 型 都 称 为 
多 态 (polymorphic ) 类 型 。 携 带 此 类 参数 的 函数 ( 相应 地 称 为 多 态 函 数 (polymorphic function ) ) 可 
以 用 在 任何 实际 类 型 上 。PostgreSQL 有 一 个 简单 的 类 型 解析 模式 ， 要 求 : (1) 在 一 个 多 态 函 数 
的 任意 一 次 调用 中 ， 一 个 多 态 类 型 的 所 有 出 现 必须 限制 在 相同 实际 类 型 上 (也 就 是 说 ,定义 为 
f(anyelement，anyelement) 的 晴 数 只 可 以 运行 在 一 对 相同 的 实际 类 型 参数 上 ); (2) 如 果 返 回 类 型 
是 多 态 的 ， 那 么 至 少 有 一 个 参数 必须 是 相同 的 多 态 类 型 。 
27.3.1.2 非 标 准 类 型 
本 节 所 描述 的 类 型 包含 在 标准 发 布 版 本 中 。 进 而 言 之 ,感谢 PostgreSQL 开放 的 本 质 ， 还 有 一 些 贡 
献 出 来 的 扩展 类 型 ， 如 复数 和 ISBN/ISSN( 见 27.3.3 节 )。 
几何 数据 类 型 (point、line、lseg、box、polygon、path、circle) 用 于 地 理 信息 系统 中 ， 用 来 表示 二 维 
空间 对 象 ， 如 点 、 线 段 、 多 边 形 、 路 径 和 圆 。PostgreSQL 中 提供 许多 函数 和 运算 符 来 执行 各 种 几何 运 
算 ， 例 如 缩放 、 平 移 、 旋 转 和 相交 判断 。PostgreSQL 进一步 用 R 树 来 支持 对 这 些 类 型 的 索引 ( 见 
25:3: S. 3 FFA 27. 5.2. 1 To 
PostgreSQL 中 的 全 文 检索 使 用 tsvector 类 型 来 表示 一 份 文档 ， 用 tsquery 类 型 表示 一 个 全 文 查询 。 在 
将 每 个 词 的 不 同 变 体 转换 到 一 种 共同 的 规范 形式 以 后 (例如 ， 去 除 词 干 ) ， 一 个 tsvector 存储 一 份 文档 中 
可 相互 区 分 的 词 。PostgreSQL 提供 函数 将 原始 文本 转换 到 一 个 isvector， 并 连接 各 个 文档 。 一 个 tsquer) 
声明 了 用 于 在 候选 文档 中 搜索 的 词 ， 这 些 词 之 间 通 过 布尔 运算 符 连接 。 例 如 ， 查 询 “index & ! (tree 
| hash) ' 是 寻找 包含 “index ”但 没有 用 词 “tree" 或 “hash” 的 文档 。PostgreSQL 本 身 的 设计 就 支持 在 全 文本 
类 型 上 的 运算 ， 包 括 语言 特 征 和 索引 搜索 。 
PostgreSQL 提供 存储 网 络 地 址 的 数据 类 型 。 这 些 数据 类 型 允许 网 络 管理 应 用 程序 用 PostgreSQL 数 
据 库 来 存储 它们 的 数据 。 对 于 熟悉 计算 机 网 络 的 读者 ， 在 此 我 们 为 这 个 特征 提供 一 个 简要 的 概述 。 
IPv4 、IPv6 和 媒体 访问 控制 (MAC ) 地址 都 有 单独 的 类 型 (分 别 是 cidr, inet 和 macaddr) , inet 和 cidr 类 
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型 都 能 存放 IPv4 和 IPv6 地 址 ， 并 附带 一 个 可 选 的 子 网 掩 码 。 它 们 主要 的 差别 在 于 输入 /输出 的 格式 不 
同 ， 以 及 这 样 的 限制 : 无 类 别 域 间 路 由 ( Classless Internet Domain Routing, CIDR) 地 址 不 接受 网 络 掩 码 
右边 带 非 零 位 的 值 。macaddr 类 型 用 于 存储 MAC 地 址 ( 典型 的 是 以 太 网 卡 硬件 地 址 )。PostgreSQL 支持 
对 这 些 类 型 的 索引 和 排序 ， 以 及 一 组 操作 (包括 子 网 测试 和 将 MAC 地 址 映射 为 硬件 制造 商 名 称 )。 此 
外 ， 这 些 类 型 提供 输入 错误 校 验 。 因 此 它们 比 无 格式 的 文本 域 更 好 用 。 

PostgreSQL 的 bit 类 型 能 存储 固定 的 和 变 长 的 由 1 和 0 组 成 的 串 。 对 于 这 些 值 PostgreSQL 支持 位 
逻辑 运算 符 和 字符 串 操 作 函 数 。 

27. 3.2 ”规则 和 其 他 主动 数据 库 特 征 

PostgreSQL 支持 SQL 约束 和 触发 器 (以 及 存储 过 程 ， 见 27. 3. 3 节 )。 此 外 ， 它 的 一 大 特色 是 可 在 服 
务 器 上 声明 查询 重 写 规则 。 

PostgreSQL 支持 check 约束 、 非 空 约 束 、 主 码 和 外 码 约束 ( 带 受 限 删除 和 级 联 删除 ) 。 

像 许 多 其 他 关系 数据 库 系 统一 样 ，PostgreSQL 支持 触发 器 ， 它 可 用 于 非 平 凡 约 束 和 一 致 性 检查 或 
强制 执行 。 触 发 器 函数 可 用 过 程 语言 如 PL/pgSQL( 见 27.3.3.4 节 ) 或 C 语言 来 编写 ， 但 不 能 用 普通 
SQL 编写 。 触 发 器 可 以 在 insert, update 或 delete 操作 之 前 或 之 后 执行 ， 对 于 每 个 修改 行 执行 一 次 或 者 
每 条 SQL 语句 执行 一 次 。 

PostgreSQL 规则 系统 允许 用 户 在 数据 库 服 务 器 上 定义 查询 重 写 规 则 。 与 存储 过 程 以 及 触发 器 不 同 ， 
规则 系统 介 于 查询 解析 器 和 计划 器 之 间 ， 并 根据 规则 集 修 改 查 询 。 当 原始 查询 树 转换 成 一 个 或 多 个 树 
后 ， 传 递 到 查询 计划 器 。 因 此 ， 计 划 器 拥有 所 有 必要 的 信息 (需要 扫描 的 表 、 它 们 之 间 的 关系 、 限 定 条 
件 、 连 接 信息 等 等 ) ， 能 提出 一 个 有 效 的 执行 计划 ， 即 使 涉及 复杂 的 规则 。 

声明 规则 的 通用 语法 是 : 

create rule rule_name as 
on | select | insert | update | delete | 
to table [ where rule_qualification | 
do [ instead ] | nothing | command | (command ; command... ) | 

本 节 其 他 部 分 提供 了 一 些 例 子 来 展示 规则 系统 的 功能 。 关 于 规则 如 何 匹 配 查询 树 以 及 查询 树 随后 
如 何 转 换 的 更 多 细节 ， 可 以 在 PostgreSQL 文档 中 找到 ( 见 文献 注解 )。 规 则 系统 在 查询 处 理 的 重 写 阶段 
实现 ，27. 6. 1 节 将 对 此 进行 解释 。 

首先 ，PostgreSQL 使 用 规则 系统 来 实现 视图 。 如 下 定义 的 视图 


create view myview as select” from mytab; 
将 转化 为 下 述 规则 定义 : 
create table myview (same column list as mytab) ; 


create rule_return as on select to myview do instead 
select” from mytab; 


myview 上 的 查询 在 执行 前 转换 成 在 底层 表 mytab 上 的 查询 。create view 语法 在 这 种 情况 下 认为 是 
更 好 的 编程 形式 ， 因 为 它 更 简明 ， 也 防止 了 创建 相互 引用 的 视图 ( 如 果 在 声明 规则 时 不 小 心 ， 可 能 会 出 
现 这 种 情况 ， 导 致 潜在 的 、 让 人 迷惑 的 运行 时 错误 ) 。 然 而 ， 规 则 可 用 于 显 式 地 定义 视图 上 的 更 新 行为 
(create view 语句 不 允许 这 样 做 ) 。 

作为 另 一 个 例子 ， 考 虑 用 户 想 要 记录 所 有 教员 薪水 的 增 涨 情况 。 这 可 以 通过 下 面 的 规则 来 完成 


create rule salary_audit as on update to instructor 
where new. salary < > old. salary 
do insert into salary_audit 
values (current_timestamp, current_user, 
new. name, old. salary, new. salary) ; 


最 后 ， 我 们 给 出 一 条 稍微 更 复杂 的 插入 /更 新 规则 。 假 设 即 将 到 来 的 薪水 增 涨 存放 在 salary _ 
increases( mame ，increase) 表 中 。 我 们 声明 一 个 具有 相同 域 的 “虚拟 " 表 approved_increases ， 之 后 定义 如 下 
规则 : 
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create rule approved_increases_insert 
as on insert to approved_increases 
do instead 
update instructor 
set salary = salary + new. increase 
where name = new. name; 


然后 下 面 的 查询 


insert into approved_increases select” from salary_increases ; 


将 立刻 更 新 instructor 表 中 的 所 有 薪水 。 由 于 规则 中 声明 了 instead 关键 字 ， 表 approved _increases 不 会 

规则 和 行 触 发 器 在 功能 上 有 一 些 重 亚 之 处 。PostgreSQL 规则 系统 可 用 于 实现 大 部 分 触发 器 ， 但 某 
些 类 型 的 约束 (特别 是 外 码 ) 不 能 用 规则 来 实现 。 同 时 ， 触 发 器 具有 附加 的 能 力 来 生成 错误 信息 以 发 出 
违反 限制 的 信号 ， 然 而 规则 仅 能 悄悄 地 通过 禁止 无 效 的 值 来 实施 数据 完整 性 。 另 一 方面 ， 触 发 器 不 能 
用 于 视图 上 的 更 新 (update ) a AW PR (delete) 行为， 但 规则 却 能 。 既 然 在 视图 关系 中 没有 真正 的 数据 ， 和 触 
发 器 就 绝 不 会 被 调用 。 

触发 器 和 规则 的 一 个 重要 区 别 在 于 ， 和 触发 器 对 于 每 个 受 影响 的 行 会 迭代 执行 。 另 一 方面 ， 规 则 会 
在 查询 计划 之 前 操作 查询 树 。 因 此 如 果 一 条 语句 影响 了 许多 行 ， 那 么 规则 会 远 比 触发 器 高 效 得 多 。 

PostgreSQL 中 触发 器 和 约束 的 实现 机 制 将 在 27. 6.4 节 中 简要 概述 。 

27.3.3 可 扩展 性 

像 大 多 数 关 系数 据 库 系统 一 样 ，PostgreSQL 将 数据 库 、 表 、 列 等 信息 存储 在 通常 所 谓 的 系统 目录 
(system catalog) 中 ， 在 用 户 看 来 ， 它 们 和 普通 表 一 样 。 其 他 关系 数据 库 系 统 在 进行 扩展 时 ， 典 型 的 方 
式 是 通过 改变 源 代码 中 的 硬 编码 过 程 或 加 载 提 供 商 所 写 的 特殊 扩展 模块 。 

和 大 多 数 关系 数据 库 系统 不 同 ，PostgreSQL 更 进一步 ， 将 更 多 信息 存放 在 它 的 目录 中 : 不 仅 有 关 
于 表 和 列 的 信息 ， 还 包括 关于 数据 类 型 、 函 数 、 访 问 方法 等 方面 的 信息 。 因 此 ，PostgreSQL 更 容易 让 
用 户 扩展 ， 也 方便 了 快速 实现 新 的 应 用 和 存储 结构 的 原型 。 通 过 动态 加 载 共享 对 象 ，PostgreSQL 也 能 
将 用 户 编写 的 代码 合并 到 服务 器 中 。 这 提供 了 另 一 种 用 于 编写 扩展 的 途径 ， 它 可 以 在 基于 目录 的 扩展 
不 够 高 效 时 使 用 。 

此 外 ，PostgreSQL 发 布 版 本 中 的 contrib 模块 包括 许多 用 户 函 数 ( 如 数组 迭代 器 、 模 糊 串 匹配 、 加 密 
函数 ) 、 基 本 类 型 (如 加 密 的 密码 ISBN/ISSN, n 维 立 方 体 ) 以 及 索引 扩展 (如 RD 树 、 针 对 分 级 标记 的 
索引 ) 。 由 于 PostgreSQL 的 开源 特性 ， 有 一 个 由 PostgreSQL 专家 和 爱好 者 组 成 的 庞大 社区 也 在 积极 地 扩 
充 PostgreSQL， 几 乎 每 天 都 有 所 进展 。 扩 充 类 型 在 功能 上 和 内 置 类 型 是 一 样 的 ( 见 27.3,1.2 节 )， 只 是 
后 者 已 经 链接 到 服务 器 上 ， 并 在 系统 目录 中 预先 注册 好 了 。 类 似 地 ， 这 也 是 内 置 函数 和 扩充 函数 之 间 
的 唯一 区 别 。 

27.3.3.1 类 型 

PostgreSQL 允许 用 户 定 义 复合 类 型 、 枚 举 类 型 甚至 新 的 基本 类 型 。 

复合 类 型 的 定义 类 似 于 表 定 义 ( 事 实 上 ， 后 者 隐 含 了 前 者 ) 。 独 立 的 复合 类 型 一 般 用 于 函数 参数 
例如 ， 定 义 

create type city_t as (name varchar( 80), state char(2) ) ; 
允许 函数 接受 和 返回 ciy_1 的 元 组 ， 即 使 没有 表 显 式 地 包含 这 种 类 型 的 行 。 

枚 举 类 型 通过 简单 地 列 出 值 的 名 字 ， 可 以 很 容易 地 定义 。 下 面 的 例子 创建 了 一 个 枚 举 类 型 来 表示 
一 个 软件 产品 的 状态 。 


create type status_t as enum( ‘alpha’, ‘beta’, ‘release’ ) ; 


在 比较 一 个 枚 举 类 型 的 不 同 值 时 ， 所 列 出 名 字 的 顺序 是 很 重要 的 。 这 对 于 如 下 语句 是 有 用 的 : 


select name from products 
where status > ‘alpha’ ; 


639 


[1132] 


640 ”第 九 部 分 实例 研究 


它 检 索 已 经 通过 了 alpha 阶段 的 产品 的 名 字 。 
可 以 直接 向 PostgreSQL 中 增加 基本 类 型 。 在 发 布 的 PostgreSQL 向 导 中 的 complex. sql 和 complex. c 
中 可 以 找到 一 个 例子 。 基 本 类 型 用 C 语言 声明 ， 例 如 : 
typedef struct Complex | 
double x; 
double y; 
| Complex; 
下 一 步 是 定义 以 文本 格式 读 写 新 类 型 值 的 函数 ( 见 27.3.3.2 节 )。 随 后 ， 新 的 类 型 可 以 用 如 下 语句 
注册 : 
create type complex | 
internallength = 16, 
input = complex_in, 
output = complex_out , 
alignment = double 
fs 
假设 文本 VO KE ZEA complex_in 和 complex_out, 
用 户 也 可 以 选择 定义 二 进 制 IO 函数 (为 了 更 高 效 的 数据 转 储 ) 。 扩 展 类 型 可 以 像 PostgreSQL 中 已 
有 的 基本 类 型 一 样 使 用 。 事 实 上 ， 它 们 唯一 的 不 同 在 于 扩展 类 型 是 动态 加 载 并 链接 到 服务 器 上 的 。 此 
外 ， 索 引 也 很 容易 扩展 以 处 理 新 的 基本 类 型 ， 请 参考 27. 3. 3. 3 节 。 
27.3.3.2 函数 
PostgreSQL 允许 用 户 定 义 在 服务 器 上 存储 和 执行 的 图 数 。PostgreSQL 也 支持 函数 重 载 (也 就 是 说 ， 
多 个 函数 可 用 相同 的 名 称 声明 ， 但 是 参数 类 型 不 同 ) 。 函 数 可 写作 普通 SQL 语句 ， 也 可 以 用 几 种 过 程 
语言 (在 27.3.3.4 节 讲述 ) 来 编写 。 最 后 ，PostgreSQL 有 一 个 应 用 编程 接口 用 于 添加 用 C 语言 编写 的 也 
数 (在 本 节 解 释 ) o 
用 户 自 定义 函数 可 以 用 C 语言 (或 者 一 种 具有 兼容 的 调用 约定 的 语言 ， 例 如 C++) 编写 。 实 际 编 
码 约定 对 于 动态 加 载 的 用 户 自 定义 函数 以 及 内 部 函数 (它们 被 静态 地 链接 到 服务 器 中 ) 而 言 本 质 上 是 一 
样 的 。 因 此 ， 标 准 内 部 函数 库 是 用 户 自 定义 C 函数 的 编程 样 例 的 丰富 资源 。 一 旦 包含 某 函 数 的 共享 库 
已 经 产生 ， 类 似 如 下 的 一 个 声明 会 将 其 注册 到 服务 器 上 : 
create function complex_out( complex ) 
returns cstring 


as ‘ shared_object_filename’ 
language C immutable strict; 


共享 对 象 文件 的 入口 点 假设 与 SQL 函数 名 相同 (这 里 是 complex_out) ， 除 非 另外 特别 说 明 。 
这 里 继续 27. 3. 3. 1 节 中 的 那个 例子 。 应 用 编程 接口 隐藏 了 PostgreSQL 的 大 部 分 内 部 细节 。 因 此 ， 
上 述 complex 值 的 文本 输出 函数 的 实际 C 代码 非常 简单 : 
PG_FUNCTION_INFO_V1(complex_out) ; 
Datum complex_out( pg_function_args) | 
Complex* complex = (Complex” ) pg_getarg_pointer(0) ; 
char * result; 
result = (char” ) palloc( 100) ; 
snprintf( result, 100," (%g,%g)", complex - >x, complex — >y); 
pg_return_cstring( result) ; 
第 一 行 声明 了 complex_out 函数 ， 之 后 的 几 行 实现 了 这 个 输出 函数 。 代 码 中 使 用 了 几 个 PostgreSQL 特有 
的 结构 ， 比 如 palloc 函数 ， 它 用 于 动态 地 分 配 由 PostgreSQL 内 存 管理 器 支配 的 内 存 。 更 多 的 细节 可 以 
在 PostgreSQL 的 文档 中 找到 (参见 文献 注解 ) 。 
PostgreSQL 中 的 聚集 函数 执行 时 ， 利 用 状态 转换 ( state transition ) K% CE HAR AS{B (state value), Xf 
于 聚 集 组 中 的 每 个 元 组 值 ， 状 态 转换 函数 都 会 被 调用 。 例 如 ，avg 操作 符 的 状态 由 累加 和 以 及 值 的 计 
数组 成 。 每 当 一 个 元 组 到 达 时 ， 转 换 函 数 简单 地 将 它 的 值 增加 到 累加 和 中 ， 同 时 计数 增加 1。 有 时 需 
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要 调用 一 个 终结 函数 基于 状态 信息 计算 出 返回 值 。 例 如 ， 对 于 avg 的 终结 函数 将 简单 地 用 累加 和 除 以 
计数 ， 并 返回 结果 。 

因此 ， 定 义 一 个 新 的 聚集 就 如 同 定义 这 两 个 函数 一 样 简单 。 以 complex 类 型 为 例 ， 如 果 complex_ 
add 是 一 个 用 户 自 定义 函数 ， 接 收 两 个 复杂 参数 并 返回 它们 的 和 ， 那 么 sum 聚集 运算 符 可 以 用 如 下 简 
单 的 声明 来 扩展 以 支持 复杂 类 型 的 数字 : 


create aggregate sum ( 
sfunc = complex_add, 
basetype = complex, 
stype = complex, 
initcond =* (0, 0)* 
Js 
注意 函数 重 载 的 使 用 : PostgreSQL 将 根据 函数 调用 时 参数 的 实际 类 型 来 调用 适当 的 sum RE PR BL 
这 里 的 basetype 是 参数 类 型 ， 而 stype 是 状态 值 类 型 。 在 这 个 例子 中 不 需要 终结 函数 ， 因 为 返回 值 就 是 
状态 值 本 身 (也 就 是 两 个 例子 中 的 累加 和 ) 。 
使 用 操作 符 语 法 也 能 调用 用 户 自 定义 函数 。 除 了 用 于 函数 调用 的 简单 的 “语法 上 的 甜头 " 外， 运算 
符 声明 也 为 查询 优化 器 提供 了 提高 性 能 的 线索 。 这 些 线索 可 能 包括 的 信息 有 可 交换 性 、 约 束 、 连 接 选 
择 性 估计 以 及 与 连接 算法 相关 的 各 种 其 他 属性 。 
27.3.3.3 索引 扩展 
PostgreSQL 当前 支持 通用 的 B 树 和 散 列 索引 ， 还 有 两 种 PostgreSQL 特有 的 索引 方法 : 通用 搜索 树 
(GiST) 和 通用 倒 排 索引 (CGIN) ， 这 对 于 全 文 索 引 是 有 用 的 (27. 5. 2. 1 节 将 对 这 些 索 引 结构 进行 解释 ) 
最 后 ，PostgreSQL 提供 了 对 二 维 空间 对 象 的 R 树 索引 ， 它 背后 是 通过 使 用 GIST 索引 来 实现 的 。 所 有 这 
些 索引 都 很 容易 扩展 来 适应 新 的 基本 类 型 。 
为 一 个 类 型 添加 索引 扩展 需要 定义 一 个 操作 算 子 类 (operator class) ， 它 封装 如 下 信息 : 
© 索引 方法 策略 (index-method strategy) 。 在 where 子 句 中 可 以 用 一 组 运算 符 来 作为 限定 词 。 特 定 
的 运算 符 集合 取决 于 索引 类 型 。 例 如 ，B 树 索引 能 够 检索 对 象 的 范围 ， 因 此 该 集合 由 五 个 运算 


符 组 成 (< ，<= ，= ，>= 和 > ) ， 所 有 运算 符 都 可 以 出 现在 where 子 名 中， 同时 包含 一 个 B 树 
索引 。 散 列 索引 只 允许 相等 性 测试 ， 而 R 树 索 引 支 持 许多 空间 关系 运算 (如 包含 、 在 左边 等 
等 ) 。 


© 索引 方法 支撑 例 程 (index-method support routine) 。 上 述 运算 符 集合 通常 不 足以 支持 索引 的 操作 。 
例如 ， 散 列 索引 需要 一 个 函数 来 计算 每 个 对 象 的 散 列 值 。R 树 索引 需要 能 够 计算 交集 和 并 集 ， 
并 估计 索引 对 象 的 大 小 。 
例如 ， 如 果 定 义 下 述 函数 和 运算 符 来 比较 两 个 复数 值 ( 见 27. 3. 3. 1 节 ) 的 大 小 ,那么 我 们 可 以 通过 
下 面 的 声明 来 使 得 这 种 对 象 可 被 索引 : 
create operator class complex_abs_ops 
default for type complex using btree as 
operator | < (complex, complex) , 
operator 2 <= (complex, complex) , 
operator 3 = (complex, complex) , 
operator 4 >= (complex, complex) , 
operator 5 > (complex, complex) , 
function | complex_abs_cmp( complex, complex) ; 


operator 语句 定义 了 策略 方法 ， 而 function 语句 定义 了 支撑 方法 。 

27. 3.3.4 过 程 化 语言 

存储 函数 和 过 程 可 以 用 许多 过 程 化 语言 编写 。 此 外 ，PostgreSQL 定义 了 一 个 应 用 编程 接口 ， 用 于 
连接 用 于 此 目的 的 任意 编程 语言 。 编 程 语言 可 以 按 需 注册 ， 要 么 是 可 信 的 (trusted)， 要 么 是 不 可 信 的 
(untrusted) 。 后 者 允许 对 DBMS 和 文件 系统 进行 非 受 限 访问 ， 同 时 用 它们 编写 存储 函数 需要 超级 用 户 
权限 。 

© PL/pqSQL。 它 是 一 种 将 过 程 化 编程 能 力 ( 如 变量 和 控制 流 ) 添 加 到 SQL 中 的 可 信 语 言 ， 和 
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Oracle 的 PL/SQL 很 相似 。 尽 管 不 能 逐 字 地 将 一 种 语言 的 代码 变化 为 另 一 种 ， 但 移植 通常 是 比 
较 简 单 的 。 

e PL/Tcl, PL/Perl 和 PL/Python。 这 些 语言 利用 了 Tel, Perl 和 Python 的 能 力 来 编写 服务 器 上 的 
存储 函数 和 过 程 。 前 两 种 既 有 可 信 的 版 本 也 有 不 可 信 的 版 本 (分 别 为 PL/Tcl、PL/Perl 和 PL/ 
TclU, PL/PerlU) mi PL/Python 在 本 书写 作 时 是 不 可 信 的 。 每 种 这 样 的 语言 都 有 人 允许 通过 特定 
语言 接口 来 访问 数据 库 系统 的 绑 定 。 

27.3.3.5 服务 器 编程 接口 

服务 器 编程 接口 (Server Programming Interface, SPI) 是 一 种 应 用 编程 接口 ， 它 允许 用 户 自 定义 的 C 

函数 ( 见 27.3.3.2 节 ) 在 其 函数 内 部 运行 任意 的 SQL 命令 。 这 使 得 编写 用 户 自 定义 函数 的 用 户 只 需要 


(1136) 用 C 语言 实现 必要 的 部 分 ， 而 很 方便 地 利用 关系 数据 库 系 统 引 擎 的 强大 功能 来 完成 大 部 分 工作 ， 


27.4 PostgreSQL 中 的 事务 管理 


PostgreSQL 中 的 事务 管理 同时 使 用 快照 隔离 和 两 阶段 锁 协 议 。 采 用 哪 种 协议 取决 于 所 执行 语 
句 的 类 型 。 对 于 DML 语句 ”使 用 15.7 节 中 讲述 的 快照 隔离 技术 ， 这 个 快照 隔离 方案 被 认为 是 
PostgreSQL 中 的 多 版 本 并 发 控制 方案 (MVCC ) 。 另 一 方面 ，DDL 语句 的 并 发 控制 基于 标准 的 两 阶 
段 锁 协议 。 

27.4.1 PostgreSQL 的 并 发 控制 

因为 PostgreSQL 使 用 的 并 发 控制 协议 取决 于 应 用 所 需要 的 隔离 性 级 别 (isolation level) ， 我 们 就 从 概 
述 PostgreSQL 所 提供 的 隔离 性 级 别 开 始 。 然 后 我 们 描述 隐藏 在 MVCC 方案 背后 的 关键 思想 ， 紧 接着 讨 
论 PostgreSQL 中 MVCC 的 实现 ， 以 及 MVCC 的 一 些 推论 。 我 们 以 概述 DLL 语句 的 锁 机 制 和 讨论 索引 的 
并 发 控制 来 结束 本 节 内 容 。 

27.4.1.1 PostgreSQL 隔离 性 级 别 

SQL 标准 定义 了 三 种 弱 一 致 性 级 别 以 及 一 致 性 的 可 串 行 化 级 别 ， 本 书 的 大 部 分 讨论 都 基于 此 。 
一 些 应 用 并 不 需要 达到 可 串 行 化 所 提供 的 强 一 致 性 保证 ， 提 供 弱 一 致 性 级 别 的 目的 就 是 允许 这 些 
应 用 具有 更 高 的 并 发 度 。 此 类 应 用 的 例子 包括 收集 数据 库 的 统计 信息 并 且 不 需要 精确 结果 的 长 
事务 。 

根据 违反 可 串 行 化 的 三 种 现象 ，SQL 标准 定义 了 不 同 的 隔离 性 级 别 。 这 三 种 现象 称 作 : 读 脏 数 据 、 
不 可 重复 读 和 读 幻象 ， 定 义 如 下 : 

© 读 脏 数据 ( dirty read) 。 事 务 读 了 由 另 一 个 尚未 提交 事务 所 写 的 值 。 

© 不 可 重复 读 ( nonrepeatable read) 。 一 个 事务 在 执行 过 程 中 对 同一 对 象 读 了 两 次 ， 第 二 次 得 到 了 

不 同 的 值 ， 尽 管 在 此 期 间 该 事务 并 没有 改变 其 值 。 
© 读 幻 象 (phantom read)。 事 务 重新 执行 返回 结果 为 满足 某 搜索 条 件 的 行 集合 的 查询 ， 发 现 满足 
条 件 的 行 集合 已 经 改变 ， 这 是 由 于 另 一 个 事务 最 近 提 交 了 。( 有关 幻象 现象 更 详细 的 解释 ， 包 





1137 括 幻 象 冲突 的 概念 ， 见 15. 8. 3 节 ; 消除 幻象 读 不 一 定 就 能 消除 所 有 的 幻象 冲突 ,) 











很 显然 上 述 每 种 现象 都 破坏 了 事务 的 隔离 性 ， 因 此 违反 了 可 串 行 化 。 图 27-5 显示 了 SQL 标准 中 所 
指定 的 四 种 SQL 隔离 性 级 别 的 定义 一 一 读 未 提交 、 读 已 提交 、 可 重复 读 和 可 串 行 化 一 一 根据 上 面 这 些 
现象 所 进行 的 分 类 。PostgreSQL 支持 四 种 不 同 隔离 性 级 别 中 的 两 种 : 读 已 提交 ( 它 是 PostgreSQL 中 默认 
的 隔离 性 级 别 ) 和 可 串 行 化 。 然 而 ，PostgreSQL 使 用 快照 隔离 实现 了 可 串 行 化 的 隔离 性 级 别 ， 如 同 我 们 
之 前 在 15. 7 节 所 看 到 的 那样 ， 这 并 不 真正 确保 可 串 行 化 。 











© 一 条 DML 语句 是 在 一 个 表 中 更 新 或 读数 据 的 任何 语句 ， 也 就 是 select, insert, update, fetch 和 copy. 
DDL 语句 影响 整个 表 ; 例如 ， 它 们 可 以 删除 一 个 表 或 改变 一 个 表 的 模式 。DDL 语句 和 其 他 一 些 PostgreSQL 
特定 的 语句 将 在 本 节 后 面 讨论 。 
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隔离 性 级 别 读 脏 数据 不 可 重复 读 幻象 
读 未 提交 可 能 ， 可 能 可 能 
读 已 提交 不 可 能 可 能 可 能 
可 重复 读 不 可 能 不 可 能 可 能 
可 串 行 化 不 可 能 不 可 能 不 可 能 





图 27-5 ”四 种 标准 SQL 隔离 性 级 别 的 定义 


27.4.1.2 DML 命令 的 并 发 控制 
PostgreSQL 中 使 用 的 MVCC 方案 是 我 们 在 15.7 节 中 看 到 的 快照 隔离 协议 的 一 种 实现 。MVCC 背后 
的 关键 思想 是 维护 每 一 行 的 不 同 版 本 ， 而 不 同 版 本 对 应 着 在 不 同 的 时 间 点 上 该 行 的 实例 。 这 就 允许 事 
务 通过 选择 每 一 行 在 得 到 快照 之 前 提交 的 最 近 版 本 ， 来 查看 数据 的 一 致 性 快照 。MVCC 协议 使 用 快照 
来 确保 每 个 事务 看 到 数据 库 的 一 致 性 视图 : 在 执行 命令 之 前 ， 事 务 选 择 数 据 的 一 个 快照 ， 处 理 在 该 快 
照 中 或 是 被 同一 事务 的 更 早 命令 所 创建 的 行 版 本 。 由 于 完全 从 整个 事务 来 考虑 ， 数 据 的 视图 是 "一致 
的 ， 但 快照 没有 必要 和 数据 的 当前 状态 相同 。 
使 用 MVCC 的 动机 是 让 读者 从 不 阻塞 写 者 ， 反 之 亦 然 。 读 者 访问 行 的 最 近 版 本 ， 它 是 该 事务 快照 
的 一 部 分 。 写 者 创建 它们 自己 的 单独 的 行 拷贝 ， 用 于 更 新 。27. 4. 1.3 节 显 示 只 有 当 两 个 写 者 试图 更 新 
相同 行 时 ， 才 会 出 现 使 得 事务 阻塞 的 冲突 。 相 反 ， 在 标准 的 两 阶段 锁 方式 下 ， 读 者 和 写 者 都 可 能 被 阻 
塞 ， 因 为 每 个 数据 对 象 只 有 一 个 版 本 ， 读 操作 和 写 操作 在 访问 任何 数据 前 都 需要 获得 相应 的 锁 
PostgreSQL 中 的 MVCC 方案 实现 了 快照 隔离 协议 的 最 先 更 新 者 获胜 (firstrupdater-wins ) 版 本 ， 通 过 
在 对 行进 行 写 时 获取 互 斥 锁 ， 但 对 行进 行 读 时 使 用 快照 (不 用 任何 锁 ) 。 如 同 前 面 在 15.7 节 中 概述 的 那 
样 ， 在 获得 互 斥 锁 之 后 进行 附加 验证 。 m 
27.4.1.3 PostgreSQL 中 的 MVCC 实现 
PostgreSQL MVCC 的 核心 概念 是 元 组 可 见 性 ( tuple visibility) , PostgreSQL 的 元 组 指 行 的 一 个 版 本 
元 组 可 见 性 定义 了 在 给 定语 句 或 事务 的 上 下 文中 ， 表 中 行 潜在 的 多 个 版 本 中 哪个 是 有 效 的 。 基 于 在 执 
行 命令 前 所 选择 的 数据 库 快照 ， 事 务 决定 了 元 组 的 可 见 性 。 
如 果 满 足 如 下 两 个 条 件 ， 一 个 元 组 对 于 事务 7 是 可 见 的 : 
1. 元 组 被 一 个 事务 创建 ， 该 事务 于 事务 了 得 到 快照 之 前 提交 ， 
2. 该 元 组 的 更 新 ( 如 果 存 在 ) 由 一 个 事务 执行 ， 而 该 事务 要 么 : 
e 被 中 止 , 或 者 
。 在 事务 7 得 到 快照 之 后 开始 运行 ， 或 者 
e 在 了 得 到 快照 时 已 经 是 活跃 的 。 
更 准确 地 说 ， 如 果 一 个 元 组 是 由 了 创建 的 并 在 其 后 没有 被 了 更 新 ， 则 对 了 也 是 可 见 的 。 为 了 简单 起 见 ， 
我 们 忽略 了 这 种 特殊 情况 的 细节 。 
上 述 条 件 的 目标 是 为 了 确保 每 个 事务 看 到 的 都 是 数据 的 一 致 性 视图 。PostgreSQL 维护 如 下 状态 信 
息 来 高 效 地 检查 这 些 条 件 : 
e 事务 标识 (transaction ID ) ， 在 事务 启动 时 分 配给 每 个 事务 ， 同 时 也 被 当 作 时 间 惟 。PostgreSQL 
使 用 逻辑 计数 ( 见 15.4. 1 节 中 的 描述 ) 来 分 配 事务 标识 。 
e 一 个 叫做 pg_clog 的 日 志文 件 ， 包 含 每 个 事务 的 当前 状态 。 状 态 分 为 : 处 理 中 、 已 提交 或 
已 中 止 。 
。 表 中 每 个 元 组 都 有 一 个 元 组 头 ， 包 括 三 个 域 : xmin， 包 含 创建 该 元 组 的 事务 标识 ， 因 此 又 称 为 
创建 事务 标识 (creation-transaction ID); xmax， 包 含 替 换 或 删除 该 元 组 的 事务 标识 ( 如 果 没 有 删 
除 或 替换 则 为 null) ， 也 称 为 终止 事务 标识 (expire-transaction ID); 一 个 指向 相同 逻辑 行 的 新 版 
本 的 前 向 链接 (如 果 存 在 新 版 本 的 话 ) 。 
e 一 个 SnapshotData 数据 结构 要 么 在 事务 启动 时 创建 ， 要 么 在 查询 启动 时 创建 ， 这 取决 于 隔离 性 
级 别 ( 下 面 有 更 详细 的 阐述 )。 它 的 主要 目的 是 决定 一 个 元 组 对 当前 命令 是 否 可 见 
SnapshotData 存储 关于 一 个 事务 在 创建 时 的 状态 的 信息 ， 包 括 一 个 活跃 事务 的 列表 和 xmax， 其 
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值 等 于 1 加 上 到 目前 为 止 已 经 启动 的 事务 中 的 最 高 标识 。 

xmax 的 值 被 当 作 是 事务 可 能 被 看 作 是 可 见 的 一 个 “截止 ”。 

图 27-6 通过 一 个 简单 的 例子 演示 了 这 种 状态 信息 ， 包 括 一 个 只 有 一 个 表 的 数据 库 ， 即 图 27-7 中 的 
department K, department 表 有 三 列 : 系 的 名 称 、 系 所 在 的 建筑 和 系 的 预算 。 图 27-6 展示 了 department 
表 的 一 小 段 ， 只 含有 对 应 于 Physics 系 的 那些 行 (的 版 本 )。 元 组 头 中 的 信息 上 暗示 着 该 行 最 早 由 事务 100 
创建 ， 后 来 被 事务 102 和 事务 106 更 新 。 图 27-6 还 显示 了 相应 pg_clog 文件 的 一 小 段 。 根 据 pg_clog 文 
tF, 事务 100 和 102 已 提交 ， 而 事务 104 和 106 正在 处 理 中 。 





























ae sshd pg_clog 文 件 
向 前 ”xmin xmax department(dept_name, building, budget) XID ”状态 标志 
Watson 70000 om | 
102 10 
Watson 64000 
104 00 
Watson 68000 H 
事务 104 106 00 
select budget eae oy 
from department 7 
where dept_name = ‘Physics’ ~ 
00 执行 中 
01 中 止 
10 提交 























给 定 上 述 状态 信息 ， 对 于 一 个 元 组 可 见 的 两 个 需要 满足 的 条 件 可 | deptname | building | “budget 
以 重 写 如 下 : Biology | Watson | 90000 
ss =y Comp. Sci. | Tayl | 100000 
1. 元 组 头 中 的 创建 事务 标识 Elec. Eng, Taylor 85000 
a. 根据 pe_clog 文件 来 看 是 已 提交 事务 ， 并 且 Finance Painter | 120000 
TE J History Painter 50000 
b. 小 于 被 SnapshotData 记录 在 xmax 中 的 截止 事务 标识 ， 并 且 | Music Packard | 80000 
c. 不 是 SnapshotData 中 存储 的 活跃 事务 之 一 。 Physics Watson 70000 
2. 终止 事务 标识 ， 如 果 它 存在 图 27-7 department 关系 


a. 根据 pg_clog 文件 来 看 是 中 止 事 务 ， 或 者 
b. 大 于 或 等 于 被 SnapshotData 记录 在 xmax 中 的 截止 事务 标识 ， 或 者 
c. 存储 在 SnapshotData 中 的 活跃 事务 之 一 。 
考虑 图 27-6 中 的 数据 库 实例 ， 假 设 事务 104 用 到 的 SnapshotData 简单 地 使 用 103 作为 截止 事务 标 
识 xmax， 并 且 没 有 出 现 更 早 的 活跃 事务 。 在 这 种 情况 下 ， 对 应 Physics 系 的 那 一 行 只 有 一 个 版 本 对 事 
务 104 是 可 见 的 ， 那 就 是 表 中 由 事务 102 所 创建 的 第 二 个 版 本 。 由 事务 100 所 创建 的 第 一 个 版 本 不 可 
见 ， 因 为 它 破 坏 了 条 件 2: 这 个 元 组 的 终止 事务 标识 是 102， 这 是 一 个 并 未 中 止 的 事务 ， 并 且 它 的 事务 
标识 小 于 或 等 于 事务 103, Physics 元 组 的 第 三 个 版 本 是 不 可 见 的 ， 因 为 它 由 事务 106 产生 ， 它 的 事务 
标识 大 于 事务 103 ， 这 意味 着 在 SnapshotData 被 创建 时 该 版 本 尚未 提交 。 此 外 ， 事 务 106 正在 运行 中 ， 
这 破坏 了 另 一 个 条 件 。 该 行 的 第 二 个 版 本 满足 元 组 可 见 性 的 所 有 条 件 。 
PostgreSQL MVCC 同 SQL 语句 执行 之 间 的 具体 交互 细节 取决 于 该 语句 是 insert, select, update 还 
是 delete 语句 。 最 简单 的 情况 是 insert 语句 ， 它 基于 语句 中 的 数据 简单 地 创建 一 个 新 元 组 ， 初 始 化 元 
组 头 (创建 标识 ) ， 然 后 把 这 个 新 元 组 插入 到 表 中 。 与 两 阶段 锁 的 情况 不 同 的 是 ， 这 不 需要 与 并 发 控制 
协议 进行 任何 交互 ， 除 非 插入 需要 检查 完整 性 条 件 ， 如 : 唯一 性 或 者 外 码 约束 。 
当 系 统 执行 select 、update sk delete 语句 时 ， 与 MVCC 协议 的 交互 取决 于 应 用 所 指定 的 隔离 性 级 
别 。 如 果 隔 离 性 级 别 是 读 已 提交 ， 那 么 新 语句 的 处 理 从 创建 一 个 新 的 SnapshotData 数据 结构 开始 (与 
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该 语句 是 创建 一 个 新 事务 ， 还 是 它 只 是 现 有 事务 的 一 部 分 无 关 ) 。 接 着 ， 系 统 识别 目标 元 组 ， 就 是 关 
于 SnapshotData 可 见 且 匹 配 语句 搜索 条 件 的 那些 元 组 。 对 于 select 语句 ， 目 标 元 组 集 构 成 查询 的 

对 于 读 已 提交 模式 下 的 update 或 delete 语句 的 情况 ， 识 别 目标 元 组 后 ， 在 实际 更 新 或 删除 操作 发 
生前 ， 还 需要 一 个 额外 的 步骤 。 原 因 是 元 组 的 可 见 性 保证 了 只 有 那些 在 进行 中 的 update/delete 语句 之 
前 已 提交 的 事务 所 创建 的 元 组 才 启 动 。 然 而 ， 可 能 自 查 询 开 始 以 来 ,该 元 组 已 被 男 一 个 并 发 执行 的 事 
务 更 新 或 删除 。 通 过 查看 该 元 组 的 终止 事务 标识 可 以 检测 到 这 种 情况 。 如 果 终 止 事务 标识 对 应 着 一 个 
正在 处 理 的 事务 ， 有 必要 先 等 待 该 事务 完成 。 如 果 该 事务 中 止 ，update 或 delete 语句 继续 进行 并 执行 
实际 的 修改 。 如 果 该 事务 提交 ，update/delete 语句 的 搜索 条 件 需 要 重新 计算 ， 只 有 元 组 仍然 满足 这 些 
条 件 ， 该 行 才 可 以 修改 。 如 果 是 对 行 的 删除 ， 则 主要 的 步骤 是 更 新 旧 元 组 的 终止 事务 标识 。 行 的 更 新 
也 同样 执行 这 个 步骤 ， 外 加 还 会 创建 行 的 一 个 新 版 本 ,设置 它 的 创建 事务 标识 ,同时 把 旧 元 组 的 前 向 
链接 指向 新 元 组 。 

回 到 图 27-6 中 的 例子 ， 仅 由 一 个 select 语句 组 成 的 事务 104 识别 Physics 行 的 第 二 个 版 本 为 目标 元 
组 并 将 其 立即 返回 。 如 果 事 务 104 是 一 条 更 新 语句 ， 比 如 试图 让 Physics 系 的 预算 增加 一 些 ， 那 么 它 将 
必须 等 待 事务 106 完成 。 随 后 它 重 新 计算 搜索 条 件 ， 只 有 该 条 件 仍然 满足 时 更 新 才 会 进行 。 

使 用 上 面 描述 的 用 于 update 和 delete 语句 的 协议 只 提供 了 读 已 提交 隔离 性 级 别 。 在 某 些 方面 会 违 
反 可 串 行 化 。 首 先 ， 不 可 重复 读 是 可 能 的 。 因 为 事务 中 的 每 个 查询 可 能 会 看 到 数据 库 的 不 同 快照 ， 那 
么 事务 中 的 一 个 查询 可 能 会 看 到 已 完成 的 update 命令 的 结果 ， 与 此 同时 ， 相 同事 务 中 更 早 的 查询 却 看 
不 到 。 同 理 ， 当 一 个 关系 在 查询 之 间 被 修改 时 ， 读 幻象 也 是 可 能 的 。 

为 了 提供 PostgreSQL 的 可 串 行 化 隔离 性 级 别 ，PostgreSQL MVCC 用 两 种 方式 来 避免 违反 可 串 行 化 : 
首先 ， 当 确定 元 组 的 可 见 性 时 ， 事 务 内 的 所 有 查询 都 使 用 事务 启动 时 的 快照 ， 而 不 是 单个 查询 启动 时 
的 快照 。 这 样 事务 中 的 后 续 查 询 总 是 看 到 相同 的 数据 。 

其 次 ,在 可 串 行 化 模式 中 更 新 和 删除 的 处 理 方式 同 读 已 提交 模式 不 同 。 同 读 已 提交 模式 一 样 ， 当 
识别 出 一 个 满足 搜索 条 件 的 可 见 的 目标 行 ， 并 且 该 行 正 被 另 一 个 并 发 事务 所 更 新 或 者 删除 ， 则 事务 将 
等 待 。 如 果 执 行 更 新 或 者 删除 的 并 发 事务 中 止 ， 等 待 事务 可 以 继续 它 自己 的 更 新 。 然 而 ， 如 果 并 发 事 
务 提交 了 ，PostgreSQL 没 法 保证 等 待 事务 的 可 串 行 性 。 因 此 ， 等 待 事务 将 回 滚 并 返回 错误 信息 "由 于 并 
发 更 新 ， 不 能 串 行 化 访问 ”。 

如 何 适当 地 处 理 像 上 面 那样 的 错误 消息 取决 于 应 用 ， 可 以 中 止 当 前 事务 并 从 起 点 开始 重启 整个 事 
务 。 注 意 由 于 可 串 行 化 问题 带 来 的 回 滚 只 可 能 出 现在 update 和 delete 语句 中 。select 语句 还 是 一 样 的 ， 
从 不 与 任何 其 他 事务 冲突 。 

27.4.1.4 使 用 MVCC 的 推论 

使 用 PostgreSQL MVCC 方案 有 三 个 不 同方 面 的 推论 : (1 ) 给 存储 系统 带 来 了 额外 的 负担 ， 因 为 需要 
维护 元 组 的 不 同 版 本 ; (2) 开 发 并 发 应 用 需要 更 小 心 一 些 ， 因 为 与 使 用 标准 的 两 阶段 封锁 的 系统 相 比 ， 
PostgreSQL MVCC 可 能 导致 并 发 事务 运行 方式 上 微妙 的 但 很 重要 的 不 同 。(3 ) PostgreSQL 的 性 能 取决 于 
运行 在 其 之 上 的 工作 负载 的 特点 。 下 面 将 对 PostgreSQL MVCC 的 推论 进行 更 详细 的 描述 。 

创建 和 存储 每 行 的 多 个 版 本 会 带 来 昂贵 的 存储 开销 。 为 了 缓解 这 个 问题 ，PostgreSQL 在 可 能 的 时 
候 释放 空间 ， 识 别 和 删除 那些 对 于 任何 活跃 的 和 未 来 的 事务 不 再 可 见 的 ， 因 而 也 不 再 需要 的 元 组 的 版 
本 。 释 放空 间 的 任务 是 不 可 忽视 的 ， 因 为 索引 可 能 指向 不 再 需要 的 元 组 的 位 置 ， 所 以 在 重用 这 些 空 间 
之 前 需要 删除 这 些 引 用 。 为 了 减轻 这 个 问题 ，PostgreSQL 避免 对 有 相同 索引 属性 的 元 组 的 多 个 版 本 建 
立 索引 。 这 就 允许 任何 发 现 了 非 索引 元 组 的 事务 有 效 地 释放 被 该 元 组 所 占用 的 空间 。 

为 了 进一步 重用 空间 ，PostgreSQL 提供 了 vacuum 命令 ， 它 可 以 为 每 个 被 释放 的 元 组 正确 地 更 新 索 
引 。PostgreSQL 利用 一 个 后 台 进 程 来 自动 地 清扫 (vacuum) 表 ， 但 是 这 个 命令 也 可 以 直接 由 用 户 来 执行 ， 
vacuum 命令 提供 两 种 操作 模式 : 普通 的 vacuum 简单 地 识别 不 再 需要 的 元 组 ， 并 使 得 这 些 空间 可 以 重 
用 ， 这 种 形式 的 命令 可 以 与 表 的 普通 读 写 并 行 执行 ， vacuum full 命令 进行 更 为 广泛 的 处 理 ， 包 括 在 块 
之 间 移 动 元 组 以 试图 把 表 压 缩 到 最 少数 量 的 磁盘 块 上 ， 这 种 形式 会 慢 许 多 ， 同 时 在 每 个 正在 处 理 的 表 





1139 
1141 











646 第 九 部 分 实例 研究 


上 都 需要 一 个 排他 锁 。 

由 于 PostgreSQL 中 使 用 了 多 版 本 并 发 控制 ， 从 其 他 环境 中 将 应 用 程序 移植 到 PostgreSQL 中 需要 更 
加 小 心 ， 以 确保 数据 的 一 致 性 。 举 个 例子 ， 考 虑 执行 一 条 select 语句 的 事务 Tio BES PostgreSQL 中 的 
读者 不 需要 封锁 数据 ， 当 T, 仍 在 运行 时 ， 另 一 个 并 发 事务 T, 可 以 覆盖 T, 所 读 取 和 选择 的 数据 。 其 结 
RE, 一 些 由 7, 返回 的 数据 在 T, 完成 时 可 能 不 再 是 当前 值 了 。7, 也 可 能 返回 那些 同时 已 被 其 他 事务 
改变 和 删除 的 行 。 为 了 确保 某 行 当前 的 有 效 性 并 防止 它 被 并 发 更 新 ， 应 用 程序 必须 使 用 select for 
share ， 或 者 通过 恰当 的 lock table 命令 来 显 式 地 获得 封锁 。 

对 于 包含 的 读 操作 比 更 新 操作 多 得 多 的 工作 负载 来 说 ，PostgreSQL 的 并 发 控制 方法 性 能 最 好 。 因 

为 在 这 种 情况 下 ， 两 个 更 新 相 冲 突 ， 进 而 导致 事务 回 滚 的 几率 极 低 。 对 于 更 新 密集 的 工作 负载 来 说 ， 
两 阶段 锁 可 能 更 有 效 ， 但 这 依赖 于 许多 因素 ， 如 事务 长 度 和 死 锁 频 率 . 

27.4.1.5 DDL 并 发 控制 

前 一 节 所 描述 的 MVCC 机 制 并 未 保护 事务 与 影响 到 整个 表 的 操作 不 冲突 ， 例 如 删除 表 或 者 改变 
表 模 式 的 那些 事务 。 朝 着 这 个 目标 ，PostgreSQL 提供 了 显 式 的 锁 ， 强 制 要 求 DDL 命令 在 执行 之 前 获 
得 这 些 锁 。 这 些 锁 是 基于 表 的 ( 而 不 是 基于 行 的 ) ， 并 且 获 取 和 释放 的 规则 同 严 格 的 两 阶段 封锁 协议 
一 致 。 

图 27-8 列 出 了 PostgreSQL 所 提供 的 所 有 锁 类 型 、 与 之 相 冲 突 的 锁 以 及 使 用 它们 的 一 些 命令 (其 中 
create index concurrently 命令 在 27. 5. 2. 3 节 介 绍 )。 锁 类 型 的 取 名 通常 是 基于 历史 的 ， 未 必 反 映 锁 的 
使 用 情况 。 例 如 ， 所 有 的 锁 都 是 表 级 锁 ， 尽 管 一 些 锁 名 字 中 包含 单词 “ 行 ” DML 命令 只 获取 前 三 类 的 
锁 。 这 三 类 锁 相互 兼容 ， 因 为 MVCC 已 经 小 心地 保护 这 些 操作 互 不 冲突 。DML 命令 获取 这 些 锁 仅 仅 只 
是 为 了 保护 与 其 他 DDL 命令 不 冲突 。 

它们 的 主要 目的 是 为 DDL 命令 提供 PostgreSQL 内 部 的 并 发 控制 ， 而 PostgreSQL 应 用 程序 也 可 以 通 
过 lock table 命令 来 显 式 地 获得 图 27-8 中 的 所 有 锁 。 


锁 名 称 与 之 冲突 的 锁 需要 该 锁 的 操作 





ACCESS SHARE ACCESS EXCLUSIVE select query 
ROW SHARE EXCLUSIVE select for update query 
ACCESS EXCLUSIVE select for share query 
ROW EXCLUSIVE SHARE update 
SHARE ROW EXCLUSIVE delete 
EXCLUSIVE insert queries 


ACCESS EXCLUSIVE 
SHARE UPDATE EXCLUSIVE SHARE UPDATE EXCLUSIVE vacuum 














SHARE analyze 
SHARE ROW EXCLUSIVE create index concurrently 
EXCLUSIVE 
ACCESS EXCLUSIVE 
SHARE ROW EXCLUSIVE create index 


SHARE UPDATE EXCLUSIVE 
SHARE ROW EXCLUSIVE 
EXCLUSIVE 

ACCESS EXCLUSIVE 


SHARE ROW EXCLUSIVE ROW EXCLUSIVE 

SHARE UPDATE EXCLUSIVE 
SHARE 

SHARE ROW EXCLUSIVE 
EXCLUSIVE 

ACCESS EXCLUSIVE 


EXCLUSIVE All except ACCESS SHARE 


ACCESS EXCLUSIVE All modes drop table 
alter table 
vaccum full 

















图 27-8 ” 表 级 锁 模式 
锁 被 记录 在 锁 表 中 ， 锁 表 被 实现 为 一 个 放 在 共享 内 存 中 的 散 列 表 ， 以 标识 被 封锁 对 象 的 签名 作为 
关键 词 。 如 果 事 务 想 获得 某 对 象 上 的 锁 ， 而 该 锁 被 另 一 个 事务 以 冲突 模式 所 持 有 ， 则 它 需 要 等 待 锁 的 
释放 。 锁 等 待 用 信号 量 实现 。 每 个 信号 量 都 有 唯一 一 个 事务 与 之 关联 。 当 等 待 一 个 锁 时 ， 事 务实 际 上 
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在 与 持 有 该 锁 的 那个 事务 相关 联 的 信号 量 之 上 等 待 。 一 旦 锁 持 有 者 释放 该 锁 ， 它 将 通过 信和 号 量 通知 (多 
个 ) 等 待 事务 。 通 过 基于 每 执 有 者 每 锁 实现 锁 等 待 ， 而 不 是 基于 每 对 象 每 锁 ，PostgreSQL 对 于 每 个 并 发 
事务 最 多 获取 一 个 信号 量 ， 而 不 是 每 个 可 封锁 对 象 一 个 信和 号 量 。 

PostgreSQL 中 的 死 锁 检测 是 基于 超时 机 制 的 。 默 认 情 况 下 ， 如 果 某 事务 等 待 一 个 锁 超 过 1 秒 就 会 
触发 死 锁 检测 机 制 。 死 锁 检 测算 法 基于 锁 表 中 的 信息 构造 一 个 等 待 图 ， 并 搜索 此 图 中 的 循环 依赖 。 如 
果 发 现 了 任何 循环 依赖 ， 则 意味 着 检测 到 了 死 锁 ， 触 发 死 锁 检测 的 事务 会 中 止 并 给 用 户 返 回 一 个 错误 。 
如 果 没 有 检测 到 环 ， 则 事务 会 在 锁 上 继续 等 待 。 不 同 于 一 些 商 用 系统 ，PostgreSQL 并 不 动态 调整 锁 超 
时 参数 ， 但 是 它 人 允许 管 理 员 手动 调整 。 理 想 情 况 下 ， 这 个 参数 的 选择 应 该 与 事务 生命 周期 相似 ， 以 优 
化 死 锁 检测 所 耗费 的 时 间 和 不 存在 死 锁 时 运行 死 锁 检测 算法 所 空 耗 的 工作 之 间 的 权衡 。 

27.4.1.6 封锁 和 索引 

在 PostgreSQL 中 ， 所 有 当前 类 型 的 索引 允许 被 多 个 事务 并 发 访问 。 这 通过 页 级 封锁 通常 是 可 能 的 ， 
所 以 不 同事 务 如 果 不 请 求 同 一 页 上 的 冲突 锁 就 可 以 并 行 地 访问 索引 。 这 些 锁 通常 被 短 时 间 持 有 以 避免 
死 锁 ， 除 了 散 列 索引 之 外 ， 散 列 索引 封锁 页 面 时 间 更 长 ， 并 可 能 陷 人 死 锁 。 

27.4.2 WE 

历史 上 ，PostgreSQL 并 没有 将 先 写 日 志 (WAL) 用 于 恢复 ， 因 此 在 发 生 崩 溃 时 不 能 保证 一 致 性 。 骨 
省 洪 在 地 会 导致 不 一 致 的 索引 结构 ， 更 糟 时 会 完全 破坏 表 内 容 ， 因 为 只 写 了 部 分 数据 页 。 因 此 ， 从 版 
本 7. 1 开始 ，PostgreSQL 采用 了 基于 WAL 的 恢复 机 制 。 此 方法 类 似 于 标准 的 恢复 技术 ， 比 如 ARTES 
( 见 16.8 节 ) ， 但 PostgreSQL 中 的 恢复 由 于 MVCC 协议 在 某 些 方式 上 简化 了 。 

首先 ， 在 PostgreSQL 中 ， 恢 复 不 是 必须 撤销 中 止 事 务 的 影响 : 一 个 正中 止 的 事务 在 pg_clog 文件 中 
登记 一 项 ， 记 录 下 它 正中 止 的 事实 。 结果， 它 遗 留 的 行 的 所 有 版 本 对 任何 其 他 事务 都 再 不 可 见 。 这 种 
方法 唯一 可 能 导致 问题 的 情况 是 ， 某 事务 因 相 应 的 PostgreSQL 进程 崩溃 而 中 止 ， 而 PostgreSQL 进程 在 
前 溃 前 没有 机 会 创建 pg_clog 项 。PostgreSQL 按 如 下 方式 处 理 此 问题 : 在 检查 pg_clog 文件 中 男 一 事务 


行 该 事务 ， 并 且 pg_clog 文件 表明 事务 还 在 运行 中 ， 则 可 以 安全 地 假定 事务 已 崩溃 ， 同 时 更 新 事务 的 
PE_clog 项 为 “已 中 止 ”。 

其 次 ,恢复 被 简化 了 是 由 于 这 样 的 事实 : PostgreSQL MVCC 已 经 记录 了 WAL 日 志 所 需要 的 某 些 信 
息 。 更 准确 地 说 ， 没 有 必要 在 日 志 中 记录 事务 的 启动 、 提 交 和 中 止 ， 因 为 MVCC 在 pg_clog 中 记录 了 每 
个 事务 的 状态 。 


27.5 存储 和 索引 


PostgreSQL 的 数据 布局 和 存储 的 方法 是 为 了 实现 以 下 目标 : (1) 实 现 简洁 (2) 易 于 管理 。 为 了 实现 
这 样 的 目标 所 采取 的 一 个 措施 是 ，PostgreSQL 依赖 于 “已 建立 的 "文件 系统 ， 而 并 非 自 己 处 理 在 原始 磁 
盘 分 区 上 数据 的 物理 布局 。PostgreSQL 在 文件 层次 结构 中 维护 了 一 个 目录 列表 用 于 存储 ,按照 惯例 被 
称 为 表 空间 。 每 个 PostgreSQL 在 安装 时 都 初始 化 一 个 默认 的 表 空间 ， 新 增 的 表 空 间 可 以 在 任何 时 候 添 
加 。 当 创建 表 、 索 引 或 整个 数据 库 时 ， 用 户 可 以 指定 任何 已 有 的 表 空间 来 存放 相关 的 文件 。 创 建 驻 留 
在 不 同 物理 设备 上 的 多 个 表 空 间 特别 有 用 ,这样 速度 更 快 的 设备 可 以 专用 于 存放 有 更 高 需求 的 数据 。 
此 外 ， 存 放 在 分 离 磁 盘 上 的 数据 可 以 被 更 高 效 地 并 行 访问 。 

由 于 PostgreSQL 和 文件 系统 之 间 的 冲突 ，PostgreSQL 存储 系统 的 设计 潜在 地 导致 了 一 些 性 能 上 的 
局 限 。 使 用 已 建立 的 文件 系统 导致 了 双 缓 冲 ， 从 磁盘 取出 的 块 首先 被 放 到 文件 系统 的 缓存 (在 内 核 空 
间 ) 中 ， 然 后 才 会 复制 到 PostgreSQL 的 缓存 池 。 人 性 能 也 会 因为 PostgreSQL 在 8KB 的 块 中 存放 数据 而 受 
到 限制 ， 这 可 能 和 内 核 使 用 的 块 大 小 不 匹配 。 在 服务 器 安装 的 时 候 可 以 改变 PostgreSQL 的 块 大 小 ， 但 
这 可 能 带 来 不 期 望 的 结果 : 小 的 块 限制 了 PostgreSQL 有 效 存储 大 元 组 的 能 力 ， 而 当 只 有 一 小 部 分 文件 
被 访问 时 ， 大 的 块 也 是 浪费 的 。 

另 一 方面 ， 现 代 企业 越 来 越 多 地 使 用 外 部 存储 系统 ， 比 如 网 络 附加 存储 和 存储 区 域 网 络 ， 而 不 是 
与 服务 器 相连 的 磁盘 。 此 处 的 观点 认为 存储 是 一 种 服务 ， 能 够 很 容易 地 根据 性 能 来 单独 管理 和 调试 它 。 
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这 些 系 统 使 用 的 一 种 方法 是 RAID， 如 同 10. 3 节 介 绍 的 那样 ， 它 同时 提供 并 行 和 元 余 存储 。 因 为 依赖 
于 已 建立 的 文件 系统 ，PostgreSQL 可 以 直接 利用 这 些 技术 。 因 此 ， 许 多 PostgreSQL 开发 者 的 感觉 是 ， 
对 于 PostgreSQL 用 户 的 绝 大 多 数 应 用 而 言 ， 与 管理 的 轻松 和 实现 简单 相 比 ， 性 能 上 的 限制 是 微不足道 
和 合理 的 。 
27.5.1 表 

PostgreSQL 中 的 基本 存储 单元 是 表 。 在 PostgreSQL 中 ， 表 存储 在 堆 文件 中 。 这 些 文件 采用 10.5 广 
中 介绍 的 一 种 标准 的 分 槽 的 页 (slotted-page) 格式 。PostgreSQL 的 格式 如 图 27-9 所 示 。 在 每 一 页 中 ， 一 
个 头 (header) 后 都 跟 有 一 组 “ 行 指针 ”。 一 个 行 指 针 存 储 了 该 页 中 一 个 特定 元 组 的 偏 移 量 ( 相对 于 每 一 页 
的 开始 位 置 ) 和 长 度 。 实 际 的 元 组 是 从 每 一 页 末尾 开始 ， 以 与 行 指针 相反 的 顺序 存储 。 





linp, 





page header data 


eae | tinp, NX 
———_ 


pd_upper 


N tuple, | is | tuple, 


tuple, | tuple, | “special space” 


linp; 











linp, linp, 








pd_lower 
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堆 文 件 中 的 记录 通过 它 的 元 组 标识 符 (TID ) 加 以 标识 。TID 包括 一 个 4 字 节 的 块 DD( 块 有 D 指明 了 包 
含 此 元 组 的 文件 页 ) 和 一 个 2 SE ASA ID, AID 是 对 行 指针 数组 的 索引 ， 通 过 它 可 以 访问 到 该 元 组 。 
尽管 这 种 架构 允许 向 一 页 中 添加 或 删除 元 组 ， 基 于 PostgreSQL 的 MVCC 方式 ， 这 些 操作 都 不 会 真 
正 地 立即 删除 或 替换 行 的 旧版 本 。 如 同 在 27.4.1.4 节 中 解释 的 ， 过 期 元 组 可 以 通过 之 后 的 命令 来 物理 
删除 ， 从 而 在 该 页 中 形成 空洞 。 通 过 行 指针 数组 来 间接 访问 元 组 的 策略 使 得 这 些 空 洞 可 以 重用 。 
元 组 的 长 度 通常 受 数据 页 长 度 的 限制 。 这 使 得 要 存储 非常 长 的 元 组 很 困难 。 当 PostgreSQL 遇 到 如 
此 大 的 元 组 时 ， 它 尽力 “缩减 ”(toast) 单 个 的 大 属性 。 在 有 些 情 况 下 ， 缩 减 一 个 属性 可 能 通过 对 值 的 压 
缩 来 实现 。 如 果 这 还 不 足以 使 元 组 缩减 到 可 以 放 和 人 页 中 (通常 的 情况 ) ， 则 被 缩减 属性 中 的 数据 被 一 个 
引用 所 取代 ， 它 指向 数据 在 该 页 之 外 的 拷贝 存储 。 
27.5.2 索引 
PostgreSQL 索引 是 一 种 数据 结构 ， 提 供 从 搜索 谓词 到 特定 表 的 元 组 标识 序列 的 动态 映射 。 被 返回 
的 元 组 倾向 于 匹配 搜索 谓词 ， 虽 然 在 有 些 情 况 下 谓词 必须 在 堆 文件 中 复查 。PostgreSQL 支持 几 种 不 同 
的 索引 类 型 ， 包 括 那 些 基 于 用 户 可 扩展 的 访问 方法 的 索引 。 尽 管 一 种 访问 方法 可 能 使 用 不 同 的 页 格式 ， 
PostgreSQL 中 的 所 有 可 用 索引 都 使 用 在 上 面 27. 5. 1 节 中 介绍 的 分 槽 的 页 格式 。 
27.5.2.1 索引 类 型 
PostgreSQL 支持 如 下 几 种 类 型 的 索引 : 
© B 树 。 默 认 索 引 类 型 是 一 种 基于 Lehman 和 Yao 提出 的 B-link 树 的 B* 树 索引 (15. 10 节 中 介绍 了 
支持 高 并 发 性 操作 的 B-link W) 。 该 类 索引 能 有 效 支 持 对 于 有 序数 据 的 等 值 查询 和 范围 查询 ， 
以 及 特定 的 模式 匹配 操作 ， 如 like 表达 式 。 
© 散 列 。PostgreSQL 的 散 列 索引 是 线性 散 列 的 一 种 实现 ( 想 了 解散 列 索引 的 更 多 内 容 ， 请 参见 
11.6.3 节 )。 该 类 索引 仅 对 简单 的 等 值 操作 有 用 。PostgreSQL 使 用 的 散 列 索引 并 未 显示 出 比 也 
树 更 好 的 查找 性 能 ， 但 它 还 需要 更 多 的 空间 开销 和 维护 代价 。 另 外 ， 散 列 索 引 是 PostgreSQL 中 
唯一 不 支持 灾难 恢复 的 索引 。 所 以 相对 于 散 列 索引 而 言 ， 人 们 几乎 总 是 更 愿意 使 用 B 树 索 引 。 
e GiST。PostgreSQL 支持 一 个 高 可 扩展 性 索引 ， 称 作 GiST， 或 者 通用 搜索 树 。GiST 是 一 种 平衡 的 
树 状 结构 的 访问 方法 ， 使 得 精通 特定 数据 类 型 (如 图 像 数据 ) 的 领域 专家 可 以 无 需 关 注 数据 库 系 
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统 的 内 部 细节 就 可 以 容易 地 开发 出 增强 性 能 的 索引 。 使 用 GST 构建 的 一 些 索引 实例 包括 了 B 

树 和 R 树 ， 还 有 用 于 多 维 立 方 体 和 全 文 检 索 的 不 那么 传统 的 索引 。 可 以 通过 创建 如 27. 3.3.3 

节 中 介绍 的 操作 算 子 类 来 实现 一 个 新 的 GiST 访问 方法 。GiST 的 操作 算 子 类 不 同 于 B 树 ， 每 个 

GIST 操作 算 子 类 可 以 有 一 个 不 同 的 策略 集合 来 表示 通过 索引 实现 的 搜索 谓词 。CiST 还 依赖 七 

个 支撑 函数 来 进行 操作 ， 如 测试 集合 成 员 资格 和 用 于 页 溢出 的 条 目 集 分 裂 。 [1148| 
有 趣 的 是 PostgreSQL 原本 实现 的 R 树 ( 见 25.3.5.3 节 ) 在 8.2 版 中 被 GiST 算 子 类 所 取代 。 

这 使 得 R 树 可 以 利用 WAL 日 志和 在 8. 1 版 中 添加 到 GST 中 的 并 发 能 力 的 优势 。 因 为 原来 实现 

的 R 树 没 有 这 些 特点 ， 这 种 改变 显示 了 可 扩展 索引 方法 的 好 处 。 更 多 关于 GiST 索引 的 信息 请 

参考 文献 注释 中 的 文献 。 

。 GIN, PostgreSQL 中 索引 的 最 新 类 型 是 通用 倒 排 索引 ( GIN)。 一 个 GIN 索引 把 索引 关键 字 和 搜 
索 关 键 字 都 当 作 集 合 ， 使 得 索引 类 型 适合 于 面向 集合 的 操作 。GIN 的 一 个 预期 的 应 用 是 为 全 文 
搜索 对 文档 进行 索引 ， 通 过 把 文档 和 查询 规约 为 搜索 项 的 集合 来 实现 。 类 似 于 GiST， 通 过 创建 
有 合适 支撑 函数 的 操作 算 子 类 ，GIN 索引 可 以 扩展 到 处 理 任 何 比较 运算 。 

为 了 评估 一 个 搜索 ，GIN 有 效 地 识别 和 搜索 关键 字 重 释 的 索引 关键 字 ， 并 计算 一 个 位 图 表 
明 哪 些 被 搜索 元 素 是 索引 关键 字 的 成 员 。 这 实现 了 对 支撑 函数 的 使 用 ， 该 支撑 函数 从 一 个 集合 
中 提取 成 员 并 比较 单独 成 员 。 基 于 位 图 和 原始 的 断言 ， 另 一 个 支撑 函数 基于 位 图 和 初始 谓词 判 
定 是 否 满足 搜索 谓词 。 如 果 没 有 完全 索引 属性 就 不 能 决定 搜索 谓词 ， 则 判定 函数 必须 报告 一 个 
匹配 并 复查 在 堆 文件 中 的 谓词 。 

27.5.2.2 其 他 索引 变形 

对 于 上 述 某 些 索引 类 型 PostgreSQL 还 支持 更 复杂 的 变形 ， 比 如 : 

。 多 列 索 引 。 该 类 索引 对 于 定义 在 一 个 表 中 多 个 列 上 的 谓词 的 合 取 很 有 效 。 多 列 索 引 只 支持 B 树 
和 GIST 索引 。 

e 唯一 性 索引 。 在 PostgreSQL 中 ， 唯 一 性 和 主 码 约束 可 通过 使 用 唯一 性 索引 来 实现 。 只 有 Be 

引 能 定义 为 唯一 性 的 。 

表达 式 上 的 索引 。 在 PostgreSQL 中 ， 可 以 在 列 的 任意 标量 表达 式 上 创建 索引 ， 而 不 局 限于 表 中 

特定 的 列 。 当 讨论 中 的 表达 式 “ 代 价 特别 大 ”时 一 一 比如 包含 复杂 的 用 户 自 定 义 运 算 一 一 这 种 索 

引 特 别 有 用 。 举 例 来 说 ， 通 过 在 表达 式 lower (column) 上 定义 索引 ， 并 在 查询 中 使 用 谓词 lower 

(column) = ‘value’ ， 就 能 支持 不 区 分 大 小 写 的 比较 操作 。 但 表达 式 上 的 索引 的 一 个 缺点 是 其 维 

护 成 本 高 。 1149 

。 操作 算 子 类 。 用 于 建立 、 维 护 和 使 用 列 上 索引 的 特定 比较 函数 ， 是 与 该 列 的 数据 类 型 密切 相关 

的 。 每 种 数据 类 型 都 有 与 之 关联 的 默认 “操作 算 子 类 ” (在 27.3.3.3 节 中 介绍 ) ， 它 标识 了 通常 

使 用 的 实际 操作 。 大 多 数 情况 下 ， 默 认 操 作 算 子 类 通常 是 够 用 的 ， 一 些 数据 类 型 还 可 能 拥有 多 

个 “有 意义 ”的 类 。 例 如 ， 在 处 理 复数 时 ， 可 能 需要 对 实 部 或 虚 部 建立 索引 。 对 于 那些 不 使 用 标 

准 的 、 面 向 现场 校对 规则 的 文本 数据 上 的 模式 匹配 操作 (例如 like 操作 ) PostgreSQL 提供 了 一 

些 内 置 的 操作 算 子 类 ( 换 名 话说， 特定 于 语言 的 排序 顺序 ) 。 

部 分 索引 。 这 类 索引 建立 在 表 的 一 个 子 集 上 ， 该 子 集 用 谓词 定义 。 该 索引 只 包含 对 应 于 表 中 那 

些 满 足 此 谓词 的 元 组 的 项 。 部 分 索引 适用 于 列 包含 很 少量 的 值 ， 但 又 可 能 多 次 出 现 的 情况 。 在 

这 种 情况 下 ， 常 见 的 值 就 不 值得 索引 了 ， 因 为 对 于 需要 基 表 大 部 分 数据 的 查询 来 说 索引 扫描 是 

无 益 的 。 而 排除 了 常见 值 的 部 分 索引 很 小 ， 且 只 引发 少量 1O 操作 。 由 于 不 需要 对 部 分 索引 进 

行 大量 的 插入 操作 ， 它 的 维护 成 本 也 较 小 。 
27.5.2.3 索引 构建 

使 用 create index 命令 可 以 为 数据 库 添加 索引 。 例 如 ， 下 面 的 DDL 语句 在 教员 工资 上 创建 了 一 个 

B 树 索 引 。 








create index inst_sal_idx on instructor (salary) ; 


该 语句 的 执行 是 通过 扫描 instructor 关系 ， 找 到 可 能 对 将 来 事务 可 见 的 行 版 本 ， 然 后 把 它们 的 索引 属性 
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进行 排序 ， 并 构建 索引 结构 。 在 这 个 过 程 中 ,创建 索引 的 事务 持 有 instructor 关系 上 的 锁 ， 防 止 并 发 的 
insert, delete 和 update 语句 。 一 且 这 个 过 程 完成 ， 索 引 就 已 准备 好 可 以 使 用 了 ， 表 上 的 锁 也 被 释放 
通过 create index 命令 获得 的 锁 对 于 某 些 应 用 来 说 可 能 会 带 来 很 大 的 不 便 ， 在 这 些 应 用 中 很 难 在 创 
建 索引 时 挂 起 更 新 操作 。 对 于 这 种 情况 ，PostgreSQL 提供 了 create index concurrently 变 体 ， 它 允许 在 
构建 索引 时 进行 并 发 的 更 新 。 这 由 一 个 更 复杂 的 、 扫 描 两 次 基 表 的 构建 算法 来 实现 。 第 一 次 表 的 扫描 
建立 起 索引 的 初始 版 本 ， 类 似 于 前 面 描 述 的 普通 索引 的 构建 方式 。 如 果 表 上 有 并 发 的 更 新 ， 这 个 索引 
就 可 能 缺失 一 些 元 组 ， 但 该 索引 具有 良好 的 形式 ， 所 以 它 在 准备 好 进行 插入 时 会 被 标记 。 最 后 ， 算 法 
第 二 次 扫描 表 ，, 插入 其 找到 的 还 需要 被 索引 的 所 有 元 组 。 这 个 扫描 同样 也 会 缺失 并 发 更 新 的 元 组 ,但 
算法 与 其 他 事务 同步 以 保证 在 第 二 次 扫描 中 更 新 的 元 组 ， 将 由 一 个 更 新 事务 添加 到 索引 中 。 因 此 ， 在 
第 二 次 扫描 表 之 后 索引 就 可 以 使 用 了 。 由 于 这 种 两 遍 扫 描 的 算法 是 耗 时 的 ， 如 果 容 易 临 时 挂 起 表 的 更 
新 ， 最 好 选择 普通 的 create index 命令 。 


27.6 查询 处 理 和 优化 


当 PostgreSQL 收 到 一 个 查询 请 求 时 ， 它 首先 将 其 解析 为 一 种 内 部 表示 ， 然 后 通过 一 系列 的 变换 ， 
得 到 能 被 执行 器 用 于 查询 处 理 的 一 个 查询 计划 。 

27.6.1 查询 重 写 

查询 转换 的 第 一 个 阶段 是 重 写 (rewrite) ， 这 一 步 由 PostgreSQL 的 规则 系统 负责 。 正 如 27.3 节 中 所 
述 ， 在 PostgreSQL 中 ， 用 户 可 以 创建 被 不 同事 件 ( 如 update, delete, insert 和 select 语句 ) 所 触发 的 规 
则 。 视 图 是 系统 通过 将 视图 定义 转换 为 select 规则 来 实现 的 。 当 收 到 涉及 视图 上 的 select 语句 的 查询 请 
求 时 ， 有 关 该 视图 的 select 规则 被 触发 ， 查 询 将 根据 视图 的 定义 进行 重 写 。 

使 用 create rule 命令 将 在 系统 中 注册 一 条 规则 ， 此 时 该 规则 的 信息 存储 在 目录 中 。 在 进行 查询 重 
写 时 ， 这 一 目录 将 用 于 找 出 与 给 定 查询 相关 的 所 有 候选 规则 。 

在 重 写 阶段 将 首先 处 理 所 有 的 update, delete 和 insert 语句 ， 这 通过 触发 所 有 相关 规则 来 实现 。 这 
些 语 句 可 能 很 复杂 ， 并 包含 select 子 句 。 然 后 ， 剩 下 的 所 有 只 涉及 select 语句 的 规则 被 触发 。 因 为 触发 
一 条 规则 所 引发 的 查询 重 写 可 能 需要 和 触发 另外 的 规则 ， 每 次 重 写 的 查询 形式 都 要 反复 地 进行 规则 检查 ， 
直到 不 需要 再 触发 规则 为 止 。 

在 PostgreSQL 中 没有 默认 规则 ， 只 有 用 户 显 式 定 义 的 规则 和 视图 定义 中 隐 含 的 规则 。 

27. 6.2 查询 规划 和 优化 

一 旦 查询 被 重 写 后 ， 就 进入 到 查询 规划 和 优化 阶段 。 在 这 个 阶段 ， 每 个 查询 块 被 单独 处 理 ， 并 为 
之 生成 一 个 查询 计划 。 这 个 规划 过 程 由 重 写 的 查询 的 最 内 层 子 查询 开始 ， 自 底 向 上 产生 ， 直 至 到 达 最 
外 层 的 查询 块 。 

在 大 多 数 情况 下 PostgreSQL 中 的 优化 器 是 基于 代价 的 。 其 思想 是 为 每 个 查询 计划 生成 一 个 估计 
开销 最 小 的 访问 计划 。 代 价 模型 包括 的 参数 有 : 顺序 和 随机 页 面 存 取 的 IO 代价 ， 以 及 处 理 堆 元 组 、 
索引 元 组 和 简单 谓词 的 CPU 开销 。 

实际 的 优化 过 程 是 基于 以 下 两 种 形式 之 一 的 : 

© 标准 规划 器 ( standard planner) 。 标 准 的 规划 器 采用 自 底 向 上 的 动态 规划 算法 来 进行 连接 顺序 的 
优化 , 在 IBM 研究 机 构 于 20 世纪 70 年 代 开 发 的 早期 关系 数据 库 系 统 Syetem R 中 最 早 使 用 
13.4. 1 节 详 细 介绍 了 System R 的 动态 规划 算法 ， 该 算法 每 次 用 于 一 个 单一 的 查询 块 上 

。 遗传 查询 优化 器 ( genetic query optimizer) 。 当 查询 块 中 的 表 数 量 很 多 时 ，System R 的 动态 规划 算 
法 代价 会 非常 大 。 与 其 他 默认 使 用 贪心 法 或 基于 规则 方法 的 商用 系统 不 同 ，PostgreSQL 使 用 了 
一 种 更 激进 的 方法 : 一 种 最 初 为 了 解决 旅行 商 问题 而 开发 出 的 遗传 算法 。 有 证 据 表明 ， 遗 传 查 
询 优 化 在 具有 涉及 大 约 45 个 表 的 查询 的 生产 系统 中 有 成 功 应 用 . 

由 于 规划 器 以 自 底 向 上 的 方式 运行 在 查询 块 上 上 ， 它 能 够 在 查询 计划 构建 时 进行 一 些 转换 工作 . 一 
个 实例 是 在 许多 商用 系统 中 常见 的 子 查询 - 连接 转换 (通常 在 查询 重 写 阶段 实现 ) 。 当 PostgreSQL 遇 到 
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一 个 非 关联 子 查询 (比如 由 一 个 视图 上 的 查询 所 引发 的 子 查询 ) 时 ,通常 可 以 把 规划 好 的 子 查询 “上 
移 ”， 与 高 层 的 查询 块 融合 。 但 是 ， 在 PostgreSQL 中 将 消除 重复 操作 下 推 到 更 低层 的 查询 块 的 转换 通常 
不 可 能 实现 。 

查询 优化 阶段 产生 了 一 个 查询 计划 ， 它 是 一 棵 关系 操作 算 子 的 树 。 每 个 操作 算 子 代表 在 一 个 或 多 
个 元 组 集合 上 的 一 种 特定 操作 。 这 些 操 作 算 子 可 以 是 一 元 的 (比如 排序 、 聚 集 ) 、 二 元 的 (比如 藤 套 循 
PRE), 或 者 元 的 (比如 集合 的 并 )。 

对 于 代价 模型 来 说 ， 关 键 是 要 精确 估计 出 查询 计划 中 每 次 操作 所 要 处 理 的 元 组 总 数 。 这 可 以 由 优 
化 器 根据 系统 中 为 每 个 关系 所 维护 的 统计 信息 来 推算 。 这 些 统计 信息 指明 了 每 个 关系 的 元 组 总 数 和 关 
系 的 每 个 列 的 具体 信息 ， 比 如 列 的 基数 (cardinality) ， 表 中 最 常见 的 数值 和 该 数值 出 现 次 数 的 列表 ， 以 
及 将 列 的 值 划 分 到 若干 有 相同 数量 值 的 组 中 的 直方 图 ( 即 在 13.3.1 节 中 描述 的 等 深 直方 图 ) 。 另 外 ， 
PostgreSQL 还 维护 着 列 的 值 在 物理 行 次 序 和 催 辑 行 次 序 之 间 的 统计 相关 性 一 一 它 指出 了 利用 索引 扫描 
来 检索 出 满足 该 列 上 谓词 的 元 组 的 代价 。 数 据 库 管理 员 通 过 周期 性 地 运行 analyze 命令 ， 来 确保 这 些 统 
计数 据 都 是 当前 最 新 的 。 

27. 6.3 查询 执行 器 
执行 模块 负责 处 理 优化 器 产生 的 查询 计划 。 执 行 器 遵循 迭代 器 (iterator ) 模型 ， 该 模型 为 每 个 操作 
算 子 提供 了 四 个 实现 函数 (open、next、rescan 和 close), Æ 12.7.2.1 节 中 ， 将 迭代 器 作为 需求 驱动 
流水 线 的 一 部 分 进行 了 介绍 。PostgreSQL 的 和 迭代 器 还 支持 一 个 额外 的 函数 rescan， 它 通过 设置 诸如 索引 
码 范围 这 样 的 参数 来 重 置 一 个 子 计划 ( 比如 连接 的 内 循环 ) 
对 执行 器 支持 的 重要 的 操作 算 子 分 类 如 下 : 
1. 访问 方法 (access method), PostgreSQL 中 实际 用 于 从 磁盘 对 象 中 检索 数据 的 访问 方法 是 堆 文 件 
的 顺序 扫描 、 索 引 扫 描 和 位 图 索引 扫描 。 
© 顺序 扫描 (sequential scan) 。 关 系 中 的 元 组 是 从 文件 的 第 一 块 到 最 后 一 块 顺 序 扫描 。 只 有 根据 
27. 4. 1.3 节 所 介绍 的 事务 隔离 性 规则 是 “可 见 的 "元 组 才 会 返回 给 调用 者 。 

© 索引 扫描 (index scan) 。 给 定 一 个 搜索 条 件 ， 如 一 个 范围 或 等 式 谓词 ， 这 种 访问 方法 会 从 相关 的 
堆 文 件 中 返回 匹配 的 元 组 集 。 该 算 子 一 次 处 理 一 个 元 组 ， 开 始 是 从 索引 中 读 取 一 个 项 ， 然 后 从 
堆 文件 中 取 相 应 的 元 组 。 在 最 坏 情况 下 ， 这 可 能 导致 对 于 每 个 元 组 都 要 随机 地 取 一 次 页 面 。 

© 位 图 索引 扫描 (bitmap index scan) 。 位 图 索引 扫描 减少 了 在 索引 扫描 中 过 多 的 随机 取 页 面 的 风 
险 。 这 通过 在 两 个 阶段 中 处 理 元 组 来 实现 。 第 一 个 阶段 读 取 所 有 的 索引 项 并 在 一 个 位 图 中 存储 
堆 元 组 的 标识 ， 第 二 个 阶段 按 顺 序 取 匹 配 上 的 堆 元 组 。 这 保证 了 每 个 堆 页 面 只 访问 一 次 ， 并 增 
加 了 顺序 取 页 面 的 机 会 。 男 外 ， 由 多 个 索引 建立 的 位 图 可 以 合并 或 求 交 ， 以 便 在 访问 堆 之 前 计 
算 复 杂 的 布尔 谓词 。 

2. 连接 方法 (join method), PostgreSQL 支持 三 种 连接 方法 : ARP VIPER. BRE -循环 连接 (包括 
对 于 内 层 的 索引 谍 套 循环 变 体 ) 和 混合 散 列 连接 ( 见 12.5 节 ) 。 

3. 排序 (sort) 。PostgreSQL 中 外 排序 通过 12. 4 节 介 绍 的 算法 来 实现 。 输 入 被 划分 成 若干 排 好 序 的 
归并 段 ， 然 后 这 些 归 并 段 将 被 多 路 归并 。 初 始 归并 段 使 用 选择 替换 算法 ( replacement selection ) 来 生成 ， 
然而 PostgreSQL 使 用 了 优先 级 树 ， 而 不 是 固定 了 内 存 记 录 中 数目 的 数据 结构 。 这 是 因为 PostgreSQL 可 
以 处 理 大 小 变化 很 大 的 元 组 ， 它 努力 确保 对 配置 的 排序 内 存 空间 的 充分 使 用 。 

4. 聚集 ( aggregation) PostgreSQL 中 的 分 组 聚集 要 么 是 基于 排序 的 ， 要 么 是 基于 散 列 的 。 当 估计 到 
不 同 分 组 的 数目 很 大 时 ， 会 使 用 基于 排序 的 聚集 ， 否 则 使 用 基于 散 列 的 聚集 。 


27.6.4 触发 器 和 约束 

在 PostgreSQL 中 (不 同 于 某 些 商 用 数据 库 系 统 ) ， 在 查询 重 写 阶 段 没 有 实现 诸如 触发 器 和 约束 那样 
的 动态 数据 库 特性 。 相 反 ， 它 们 是 作为 查询 执行 器 的 一 部 分 实现 的 。 当 用 户 注 册 和 触发 器 和 约束 时 ， 它 
们 的 细节 都 与 每 一 个 相应 的 关系 和 索引 的 目录 信息 联系 在 一 起 。 执 行 器 通过 对 关系 反复 生成 元 组 的 修 
改 ， 来 执行 update delete 和 insert 语句 。 对 每 一 行 的 修改 ， 执 行 器 显 式 地 在 所 需要 的 改变 之 前 或 其 后 
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识别 、 触 发 和 实施 候选 的 触发 器 和 约束 。 
27.7 系统 结构 


PostgreSQL 的 系统 结构 遵循 每 事务 每 进程 ( process-per-transaction ) 模式 。 每 一 个 运行 中 的 PostgreSQL 
站 点 由 一 个 集中 式 的 、 称 作 postmaster 的 协调 进程 来 管理 。 这 个 postmaster 进程 负责 初始 化 和 关闭 服务 
器 ， 以 及 处 理 来 自 新 客户 端的 连接 请 求 。postmaster 为 每 个 新 连接 的 客户 端 分 配 一 个 后 台 服 务 器 进程 ， 
该 进程 负责 代表 客户 端 执行 查询 ， 并 将 结果 返回 客户 端 。 该 系统 结构 如 图 27-10 所 示 。 

一 一 -一 一- 
客户 端 进程 服务 器 进程 共享 内 存 UNIX 系 统 


客户 端 应 用 共享 磁盘 内 核磁 盘 
缓冲 区 缓冲 区 


通过 API 初始 化 
磁盘 存储 
图 27-10 PostgreSQL 系统 结构 


库 通 信 

客户 端 应 用 程序 能 够 连接 到 PostgreSQL 服务 器 ， 并 通过 PostgreSQL 支持 的 多 种 数据 库 应 用 编程 接 
口 (如 libpq, JDBC, ODBC 和 Perl DBD) 之 一 来 提交 查询 请 求 ， 这 些 数 据 库 应 用 编程 接口 是 作为 客户 端 
库 形式 提供 的 。 一 个 客户 端 应 用 程序 的 例子 是 包含 在 标准 PostgreSQL 发 布 里 的 命令 行 形 式 的 psql 程序 
postmaster 负责 处 理 初始 的 客户 端 连接 。 为 此 ， 它 在 一 个 已 知 端口 上 不 断 监 听 新 的 连接 请 求 。 在 完成 诸 
如 用 户 认证 这 样 的 初始 化 步骤 后 ，postmaster 将 生成 一 个 新 的 后 台 服务 器 进程 来 处 理 新 客户 端 。 在 这 种 
初始 连接 之 后 ， 客 户 端 将 只 与 后 台 服 务 器 进程 交互 ， 提 交 查 询 请 求 并 接收 查询 结果 。 这 就 是 
PostgreSQL 采用 的 每 连接 每 进程 模式 的 核心 。 

后 台 服 务 器 进程 负责 执行 客户 端 提交 的 查询 请 求 ， 执 行 一 系列 必要 的 查询 步 又 ,包括 解析 、 优 化 
和 执行 。 每 个 后 台 服 务 器 进程 一 次 只 能 处 理 一 条 查询 。 为 了 能 够 并 发 处 理 多 条 查询 ， 应 用 程序 必须 维 
护 与 服务 器 的 多 个 连接 。 

在 任 一 给 定时 刻 ， 可 能 有 多 个 客户 端 连接 到 系统 ， 因 此 可 能 有 和 多 个 后 台 服 务 器 进程 并 发 执行 。 后 
台 服 务 器 进程 通过 主 存 缓 存 池 来 访问 数据 库 中 的 数据 ， 而 该 缓存 池 位 于 共享 内 存 区 ， 因 此 所 有 进程 都 
有 相同 的 数据 视图 。 共 享 内 存 也 用 于 实现 服务 器 进程 间 的 其 他 形式 的 同步 ， 比 如 对 数据 项 的 封锁 。 

要 使 用 共享 内 存 作 为 通信 媒介 ， 就 要 求 PostgreSQL 服务 器 运行 于 一 台 机 器 上 ; 在 没有 第 三 方 软件 
包 ( 如 Slony 复制 工具 ) 的 帮助 下 ， 一 个 单 服 务 器 站 点 不 能 分 散 于 多 台 机 器 上 。 但 是 ， 可 以 构建 一 个 无 
共享 的 并 行 数 据 库 系统 ， 其 中 每 个 结 点 上 都 运行 一 个 PostgreSQL 实例 ;事实 上 ， 有 几 个 商用 并 行 数据 
库 系 统 就 是 采用 这 种 体系 结构 构建 的 ， 如 18. 8 节 所 述 。 


文献 注解 


在 www. postgresql. org 上 有 大 量 有 关 PostgreSQL 的 在 线 文档 。 这 个 网 站 是 关于 PostgreSQL 最 新 版 本 的 权 
威 的 信息 源 ， 它 定期 更 新 有 关 PostgreSQL 的 内 容 。 直 到 PostgreSQL 版 本 8 之 前 ， 在 微软 Windows 平台 上 运行 
PostgreSQL 的 唯一 方式 是 使 用 Cygwin, Cygwin 是 一 个 类 似 于 Linux 的 环境 ， 它 允许 从 源 程 序 开始 重新 构建 
Linux 应 用 以 运行 于 Windows 之 上 。 详 细 信 息 请 参考 www. cygwin. com。 有 关 PostgreSQL 的 书包 括 Douglas 和 
Douglas[ 2003 ] 以 及 Stinson [ 2002 ] 。Stonebraker 等 [1990 ] 介绍 了 PostgreSQL 所 采用 的 规则 。GiST 结构 在 
Hellerstein 等 [1995 ] 里 有 介绍 。 

PostgreSQL 的 许多 工具 和 扩展 被 pgFoundry 文档 化 在 www. pgfoundry. org 上 。 其 中 包括 pgtcl 库 和 本 章 提 
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到 的 pgAccess 管理 工具 。pgAdmin 工具 在 网 站 www. pgadmin. org 上 有 描述 。 数 据 库 设计 工具 TORA 和 Data 
Architect 分 别 在 tora. sourceforge. net 和 www. thekompany. com/products/dataarchitect 上 有 介绍 。 报 表 生 成 工具 
GNU Report Generator 和 GNU Enterprise 分 别 在 www. gnu. org/software/grg 和 www. gnuenterprise. org 上 有 介绍 。 
开源 的 Mondrian OLAP 服务 器 在 mondrian. pentaho. org 上 有 介绍 。 

除 PostgreSQL 之 外 ， 还 有 一 个 开源 的 MySQL， 它 在 GNU 通用 公共 许可 ( General Public License) 下 可 用 于 [1 154| 
非 商 业 应 用 。MySQL 可 以 嵌入 到 不 免费 发 布 源码 的 商业 软件 中 ， 但 这 需要 购买 一 个 特别 的 许可 证 。 关 于 这 ha 
两 个 系统 最 新 版 本 的 比较 在 网 上 已 有 介绍 。 = 
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“41977 年 Larry Ellison, Bob Miner 和 Ed Oates 成 立 Oracle 软件 开发 实验 室 时 ， 还 没有 商品 化 的 美 
系数 据 库 产品 存在 。 这 家 公司 ， 后 来 更 名 为 Oracle， 开 始 构建 作为 商用 产品 的 关系 数据 库 管 理 系统 ， 
并 成 为 RDBMS 市 场 的 先驱 ， 至 此 一 直 在 关系 数据 库 市 场 上 保持 领导 地 位 。 这 些 年 以 来 ， 它 的 产品 和 提 
供 的 服务 已 经 超越 了 关系 数据 库 服 务 器 的 范畴 ， 还 包括 中 间 件 和 应 用 软件 。 

除了 公司 内 部 开发 的 产品 以 外 ，Oracle 的 产品 还 包括 被 它 兼 并 的 公司 原本 开发 的 软件 。Oracle 3 
并 的 公司 范围 从 小 公司 到 大 型 公开 上 市 交易 的 公司 ， 包 括 Peoplesoft, Siebel, Hyperion 和 BEA。 这 些 兼 
并 的 结果 ， 使 得 Oracle 拥有 了 非常 广阔 的 企业 软件 产品 的 系列 。 

本 章 重 点 描述 Oracle 主要 的 关系 数据 库 服 务 器 和 密切 相关 的 产品 。 产 品 的 新 版 本 还 在 不 断 开 发 ， 
因此 产品 的 所 有 说 明 也 会 跟着 改变 。 这 里 表述 的 特征 集 是 基于 Oraclellg 的 第 一 个 发 行 版 本 ， 它 是 
Oracle 的 旗舰 数据 库 产品 。 


28.1 数据 库 设 计 和 查询 工具 


Oracle 提供 各 种 工具 来 进行 数据 库 设计 、 查 询 、 报 表 生 成 和 数据 分 析 ， 包 括 联 机 分 析 处 理 。 这 些 
工具 ， 包 括 各 种 其 他 应 用 开发 工具 ， 是 被 称 作 Oracle Fusion Middleware( Oracle 融合 中 间 件 ) 的 软件 产品 
系列 的 一 部 分 。 产 品 既 包括 使 用 Oracle 的 PL/SQL 编程 语言 的 传统 工具 ， 也 包括 基于 Java/J2EE 技术 的 
更 新 的 工具 。 软 件 支 持 开放 的 标准 ， 如 SOAP, XML, BPEL 和 UML. 

28.1.1 数据 库 和 应 用 设计 工具 

Oracle 应 用 开发 框架 ( Oracle Application Development Framework, ADF) 是 一 个 端 到 端的 基于 J2EE 的 
开发 框架 ， 用 于 Model-View-Control( 模型 -视图 - 控制) 设计 模式 的 。 在 这 个 框架 中 ， 一 个 应 用 程序 由 
多 层 组 成 。 模 型 和 业务 服务 层 处 理 与 数据 源 的 交互 ， 并 包含 业务 逻辑 。 视 图 层 处 理 用 户 接口 ， 控 制 层 
处 理应 用 流 以 及 与 其 他 层 之 间 的 交互 。 

Oracle ADF 主要 的 开发 工具 是 Oracle JDeveloper， 它 提供 了 一 个 支持 Java, XML, PHP, HTML, 
JavaScript, BPEL, SQL 和 PL/SQL 开发 的 集成 开发 环境 ， 拥 有 对 UML 建 模 的 内 置 支持 。 

Oracle Designer 是 一 个 数据 库 设 计 工 具 ， 它 将 业务 逻辑 和 数据 流转 换 成 由 应 用 逻辑 的 模式 定义 和 过 
程 脚本 。 它 支持 诸如 E-R 图 、 信 息 工 程 、 对 象 分 析 和 设计 那样 的 建 模 技术 。 

Oracle 还 有 一 个 用 于 数据 仓库 的 应 用 开发 工具 ， 即 Oracle Warehouse Builder。Warehouse Builder 是 
对 数据 仓库 的 所 有 方面 进行 设计 和 部 署 的 工具 ， 包 括 模式 设计 、 数 据 映射 和 转换 、 数 据 加 载 处 理 以 及 
元 数据 管理 。Oracle Warehouse Builder 既 支 持 3NF( 第 三 范式 ) 和 星 型 模式 ， 又 能 从 Oracle Designer FA 
设计 。 这 个 工具 再 加 上 数据 库 特 性 (如 外 部 表 和 表 函 数 ) ， 通 常 能 消除 对 第 三 方 抽取 、 转 换 和 加 载 工具 
(ETL) 的 需求 。 

28. 1.2 查询 工具 

Oracle 提供 用 于 即席 查询 、 报 表 生 成 、 数 据 分 析 ( 包 括 联机 分 析 处 理 ) 的 工具 。 

Oracle 商务 智能 套件 ( Oracle Business Intelligence Suite, OBI) 是 一 套 综 合 工 具 ， 这 些 工 具 共 享 共 辣 
的 面向 服务 体系 架构 。 组 件 包 括 一 个 商务 智能 服务 器 和 用 于 即席 查询 、 仪 表盘 ( dashboard ) 生成 、 报 表 


”和 警报 (alerting) 的 工具 。 这 些 组 件 共享 用 于 数据 访问 和 元 数据 管理 的 基础 设施 和 服务 ， 有 一 个 共同 的 
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安全 模型 和 管理 工具 

Oracle BI Answers 组 件 用 于 即席 查询 ， 是 一 个 交互 式 工 具 ， 它 给 用 户 提 供 数 据 的 逻辑 视图 ， 隐 藏 物 
理 实现 的 细节 。 用 户 可 用 的 对 象 以 图 形 化 的 方式 显示 ， 用 户 可 以 通过 点 和 点 击 (point-and-click ) 接口 来 
构造 查询 。 这 种 逻辑 查询 被 发 送 到 Oracle BI 服务 器 组 件 ， 该 组 件 接着 生成 物理 查询 。 查 询 支持 多 个 物 
理 数 据 源 ， 查 询 可 以 合并 存储 在 关系 数据 库 OLAP 源 和 Excel 表单 中 的 数据 。 结 果 可 以 显示 为 图 表 、 
报表 、 转 轴 (pivot) 表 或 者 可 钻 取 的 仪表 板 ， 并 可 以 保存 和 进行 后 续 修 改 。 


28.2 SQL 的 变化 和 扩展 


除了 功能 一 致 性 (features-and-conformance ) 视 图 以 外 ，Oracle 全 部 或 部 分 支持 SQL: 2003 的 所 有 核 
心 特性 。 此 外 ，Oracle 支持 大 量 的 其 他 语言 结构 ， 其 中 有 些 遵从 SQL Foundation; 2003 的 可 选 特性 ， 而 [158] 
其 余 的 在 语法 或 功能 上 是 Oracle 特有 的 。 
28.2.1 对 象 -关系 特性 
Oracle 广泛 支持 对 象 -关系 结构 ， 包 括 : 
© 对 象 类 型 (object type) 。 类 型 层次 中 支持 单 继承 模型 . 
© 集合 类 型 (collection type), Oracle 支持 变 长 数组 varray AREK. 
© 对 象 表 (object table) 。 它 们 用 于 存储 对 象 ， 同 时 提供 对 象 属性 的 关系 视图 。 
© #2 BW (table function)。 这 些 函 数 可 以 生成 行 集合 作为 输出 ， 可 用 于 查询 的 from 子 句 中 ， 
Oracle 中 的 表 函 数 可 以 栓 套 。 如 果 用 一 个 表 晴 数 来 表示 某 种 数据 变换 ， 那 么 幅 套 的 多 层 函 数 允 
许 在 一 条 语句 中 表达 多 重 变 换 。 
© 对 象 视图 (object view) 。 它 们 为 存储 在 常规 关系 表 中 的 数据 提供 虚拟 的 对 象 表 视图 。 它 们 使 得 
数据 可 以 以 面向 对 象 的 方式 访问 或 显示 ， 即 使 这 些 数据 实际 上 以 传统 关系 格式 存储 
e 方法 (method) 。 它 们 可 以 用 PL/SQL, Java 或 C 来 编写 。 
e FA BEM BSBA user-defined aggregate function ) 。 它 们 可 以 像 sum 和 count 那样 的 内 置 函 数 
一 样 用 于 SQL 语句 中 。 
28.2.2 Oracle XML DB 
Oracle XML DB 为 XML 数据 提供 了 数据 库 内 的 存储 ， 并 支持 包括 XML Schema 和 XQuery 在 内 的 丰 
富 的 XML 功能 集 。 它 建立 在 被 当 作 原生 的 Oracle 数据 类 型 的 XMLType 抽象 数据 类 型 之 上 。XML DB 
提供 了 关于 这 种 数据 类 型 的 数据 在 数据 库 中 如 何 存储 的 若干 选项 ， 包 括 : 
© 结构 化 为 对 象 关 系 格式 存储 。 这 种 格式 通常 有 效 利用 了 空间 ， 人 允许 使 用 各 种 标准 的 关系 特征 ， 
如 B 树 索引 ， 但 在 XML 文档 和 存储 格式 之 间 的 映射 上 带 来 了 一 些 开 销 。 它 主要 适合 于 高 度 结 
构 化 的 XML 数据 ， 并 且 映 射 中 包含 可 控 数 量 的 关系 表 和 连接 。 
© 作为 文本 串 的 非 结构 化 存储 。 这 种 表示 不 需要 任何 映射 ， 当 插入 或 检索 一 份 完整 的 XML 文档 
时 提供 了 高 吞吐 量 。 可 是 它 通常 不 能 非常 有 效 地 利用 空间 ， 并 且 当 操作 XML 文档 的 部 分 时 提 
供 欠 智能 化 的 处 理 。 [1159] 
。 二 进 制 XML 存储 。 这 种 表示 方式 是 一 种 后 解析 ( post-parse ) 的 、XML 模式 已 知 的 二 进 制 格式 。 
它 比 非 结 构 化 存储 的 空间 利用 更 高 效 ， 可 以 处 理 针对 XML 文档 部 分 的 操作 。 在 处 理 高 度 非 结 
构 化 数据 时 也 比 结构 化 格式 更 好 ， 但 不 是 总 能 有 效 利 用 空间 。 对 于 XQuery 语句 的 处 理 ， 这 种 
格式 可 能 比 使 用 结构 化 格式 低 效 。 
二 进 制 和 非 结构 化 的 表示 形式 都 可 以 用 一 种 称 为 XMLIndex 的 特殊 类 型 的 索引 来 索引 。 这 种 类 型 
的 索引 允许 文档 片段 基于 它们 相应 的 XPath 表达 式 来 索引 。 
在 数据 库 内 部 存储 XML 数据 意味 着 可 以 得 到 很 多 方面 的 Oracle 功能 上 的 优势 ， 如 备份 、 恢 复 、 安 
全 和 查询 处 理 。 它 允许 把 关系 数据 的 访问 作为 XML 处 理 的 一 部 分 ， 也 允许 把 XML 数据 的 访问 作为 
SQL 处 理 的 一 部 分 。 一 些 XML DB 的 非常 高 级 的 特点 包括 : 
© 支持 XQuery 语言 (W3C XQuery 1. 0 推荐 的 )。 
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© XSLT 处 理 使 得 可 以 在 数据 库 内 部 完成 XSL 转换 。 
。 XPath 重 写 优化 可 以 加 速 以 对 象 关系 形式 存储 的 数据 上 的 查询 。 通 过 把 XQuery 中 使 用 的 表达 式 
翻译 为 直接 作用 在 对 象 -关系 列 上 的 条 件 ， 这 些 列 上 的 常规 索引 就 可 用 于 加 快 查询 处 理 。 

28.2.3 ”过程 化 语言 

Oracle 有 两 种 主要 的 过 程 化 语言 ， 分 别 是 PL/SQL 和 Java. PL/SQL 是 Oracle 存储 过 程 最 初 使 用 的 
语言 ， 其 语法 类 似 于 Ada 语言 。Java 是 通过 数据 库 引擎 内 部 的 Java 虚拟 机 来 支持 的 。Oracle 提供 了 一 
个 程序 包 来 把 相关 的 过 程 、 函 数 和 变量 封装 为 独立 的 单元 。Oracle 支持 SQLJ( Java A He AY SQL) All 
JDBC， 并 提供 一 个 工具 来 生成 对 应 于 用 户 自 定 义 数据 库 类 型 的 Java 类 定义 。 
28.2.4 维度 

对 于 关系 星 型 模式 和 多 维 数据 库 ， 维 度 建 模 是 一 种 常用 的 设计 技术 。 为 了 支持 基于 这 种 技术 设计 
的 数据 库 上 的 查询 处 理 ，Oracle 支持 创建 维度 ( dimension ) 作为 元 数据 对 象 。 这 些 元 数据 对 和 象 用 于 存放 
关于 一 个 维度 的 各 种 类 型 的 属性 信息 ， 但 更 重要 的 可 能 是 关于 关系 的 层次 信息 。 参 见 28. 3. 10 节 中 的 
例子 。 
28.2.5 联机 分 析 处 理 

Oracle 以 若干 种 不 同 的 方式 为 分 析 型 数据 库 处 理 提供 支持 。 除 了 支持 一 个 丰富 的 分 析 型 SQL 构造 
集合 (立方 体 、 上 卷 、 集 合 分 组 、 窗 口 函 数 等 ) Oracle 还 支持 关系 数据 库 服务 器 内 部 原生 的 多 维 存储 。 
多 维 数据 结构 允许 基于 数组 的 数据 访问 ， 并 且 在 正确 情况 下 ， 这 类 访问 比 传统 关系 访问 方式 有 效 得 
使 用 这 种 数据 结构 作为 关系 数据 库 的 一 个 完整 部 分 提供 了 以 关系 的 或 多 维 的 格式 存储 数据 的 一 种 选择 ， 
同时 还 利用 了 Oracle 在 诸如 备份 与 恢复 、 安 全 和 管理 工具 方面 的 优势 。 

Oracle 为 多 维 数 据 提 供 了 称 为 分 析 型 工作 空间 (analytic workspace) 的 存储 容器 。 一 个 分 析 型 工作 空 
间 同 时 包含 了 OLAP 立方 体 的 维 数据 和 度量 (或 事实 ) ， 并 存储 在 一 个 Oracle 表 中 。 从 传统 关系 的 观点 
来 看 ， 存 放 在 一 个 表 中 的 立方 体 可 以 是 一 个 不 透明 的 对 象 ， 当 中 的 数据 通常 不 能 直接 根据 表 的 行 和 列 
这 些 术 语 来 解释 。 不 过 ， 数 据 库 内 部 的 Oracle 的 OLAP 服务 器 知道 如 何 解释 和 访问 数据 ， 使 得 可 以 用 
SQL 来 访问 数据 ， 就 像 数据 是 以 常规 的 表格 式 来 存储 的 一 样 。 因 此 ， 可 以 用 多 维 格式 或 传统 关系 格式 
来 存放 数据 ， 这 取决 于 哪个 最 适合 ， 还 可 以 在 单条 SQL 查询 中 连接 以 两 种 表示 形式 存储 的 数据 。 物 化 
视图 可 以 使 用 任何 一 种 表示 形式 。 

除了 在 Oracle 关系 数据 库 中 支持 OLAP，Oracle 的 产品 套件 包括 Essbase。Essbase 是 一 个 广泛 使 用 
的 多 维 数据 库 ， 随 着 对 Hyperion 的 兼并 成 为 Oracle 的 一 部 分 。 
28.2.6 触发 器 

Oracle 提供 若干 类 型 的 触发 器 和 激活 这 些 触 发 器 的 时 间 和 方式 的 几 种 选择 。( 见 5.3 节 关 于 SQL 中 
触发 器 的 介绍 。) 触 发 器 可 以 用 PL/SQL 或 Java 语言 ,或 者 C 程序 (callout) 来 编写 。 

对 于 在 插入 、 更 新 和 删除 这 样 的 DML 语句 上 执行 的 触发 器 ，Oracle 支持 行 触发 器 (row trigger) ANA 
句 触发 器 ( statement trigger) 。 行 触发 器 为 每 个 受 DML 操作 影响 (譬如 更 新 或 删除 ) 的 行 执 行 一 次 。 一 个 
语句 触发 器 在 每 条 语句 中 只 执行 一 次 。 在 每 种 情况 下 ， 根 据 触发 器 是 在 DML 操作 执行 之 前 或 之 后 激 
活 ， 可 以 将 触发 器 定义 为 前 触发 器 或 后 触发 器 。 

Oracle 允许 为 不 能 执行 DML 操作 的 视图 创建 替代 (instead of) 触发 器 。 依 赖 于 视图 的 定义 ，Oracle 
可 能 无 法 将 一 条 针对 视图 的 DML 语句 明确 地 翻译 成 对 底层 基 表 的 修改 。 因 此 ， 视 图 上 的 DML 操作 受 
到 许多 限制 。 用 户 可 以 在 视图 上 创建 替代 触发 器 来 人 工 指定 在 基 表 上 该 执行 何 种 操作 以 响应 视图 上 的 
DML 操作 。Oracle 执行 触发 器 而 不 是 DML 操作 ， 因 此 提供 了 一 种 绕 过 视图 上 对 DML 操作 限制 的 机 制 

Oracle 还 有 一 些 在 各 种 其 他 事件 上 执行 的 触发 器 ， 这 些 事件 包括 启动 或 关闭 数据 库 、 服 务 器 错误 
信息 、 用 户 登录 或 退出 ， 以 及 如 create, alter 和 drop 语句 那样 的 DDL 语句 。 


28.3 存储 和 索引 
根据 Oracle 的 说 法 ， 一 个 数据 库 ( database ) 是 由 存储 在 文件 中 的 信息 组 成 的 ， 并 且 通 过 一 个 实例 
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(instance) 来 访问 ， 它 是 一 个 共享 存储 区 和 一 组 与 文件 中 的 数据 交互 的 进程 。 控 制 文件 ( control file) 是 
一 个 小 文件 ， 包 含 一 些 启动 或 操作 实例 所 需 的 非常 高 层 的 元 数据 。 下 一 节 将 讲述 正规 数据 和 元 数据 的 
存储 结构 o 
28.3.1 ZE 
数据 库 由 一 个 或 多 个 称 作 表 空 间 (table space ) 的 逻辑 存储 单元 组 成 。 而 每 个 表 空 间 又 由 一 个 或 多 个 
称 作 数 据 文件 (data file) 的 物理 结构 组 成 。 数 据 文件 可 能 是 文件 系统 的 一 部 分 ， 或 是 原始 的 设备 。 
一 个 Oracle 数据 库 通 常会 包括 以 下 表 空间 : 
© 系统 (system) 表 空间 和 辅助 的 sysaux 表 空间 总 是 被 创建 ， 它 们 包含 数据 字典 表 、 触 发 怖 和 存储 
WEN FARE o 
。 创建 的 存储 用 户 数据 的 表 空 间 。 虽 然 用 户 数据 可 以 存储 在 系统 表 空 间 ， 但 将 用 户 数据 与 系统 数 
据 分 离 一 般 是 值得 的 。 通 常 ， 决 定 要 创建 另外 哪些 表 空 间 是 基于 性 能 、 可 用 性 、 可 维护 性 以 及 
易于 管理 来 考虑 的 。 譬 如， 拥有 多 个 表 空 间 对 于 局 部 备份 和 恢复 操作 比较 有 用 
© 撤销 (undo) 表 空间 ， 它 仅仅 用 于 存放 事务 管理 和 恢复 的 撤销 信息 。 
© 临时 (temporary ) 表 空间 。 许 多 数据 库 操作 需要 对 数据 进行 排序 ， 如 果 排 序 不 能 在 内 存 中 完成 ， 
排序 例 程 可 能 需要 将 数据 暂时 保存 在 硬盘 上 。 为 排序 和 散 列 操作 分 配 临时 表 空 间 ， 能 够 使 得 涉 
及 将 数据 溢出 到 磁盘 的 空间 管理 操作 更 加 高 效 。 
表 空 间 也 可 以 作为 在 数据 库 之 间 转 移 数据 的 一 种 方式 。 辟 如， 通常 每 隔 一 段 时 间 就 要 把 数据 从 事 
务 系统 转移 到 数据 仓库 中 去 。Oracle 通过 简单 地 复制 数据 文件 并 导出 和 导入 少量 的 数据 字典 元 数据 ， 
就 允许 将 一 个 表 空 间 中 的 所 有 数据 从 一 个 系统 转移 到 另 一 个 系统 。 这 些 操作 比 从 一 个 数据 库 锦 载 数据 ， 


然后 用 一 个 加 载 器 将 数据 插入 到 男 一 个 数据 库 中 要 快 得 多 。Oracle 的 这 个 特性 称 为 可 移动 表 空 间 [1162 


(transportable table space ) 。 
28.3.2 & 
表 空 间 中 的 空间 被 划分 成 一 个 个 单元 ， 称 为 段 (segment) ， 每 个 段 包含 一 种 特定 数据 结构 的 数据 ， 
一 共有 四 种 类 型 的 段 : 
© 数据 段 ( data segment) 。 表 空间 中 的 每 个 表 都 有 自己 的 数据 段 ， 除 非 表 被 划分 ， 表 数据 就 存储 在 
这 里 ; 若 表 被 划分 ， 每 个 分 区 都 有 一 oo (Oracle 中 的 划分 在 28. 3. 9 节 中 描述 。) 
© 索引 段 (index segment) 。 除 了 被 划分 的 索引 ， 每 个 表 空 间 中 的 索引 都 有 自己 的 索引 段 ， 被 划分 
的 索引 在 每 个 分 区 有 一 个 索引 段 。 
o 临时 段 (temporary segment)。 这 些 段 用 于 当 排 序 操作 需要 将 数据 写 到 硬盘 上 时 ， 或 者 将 数据 插 
入 到 临时 表 中 时 。 
© 撤销 段 (undo segment)。 这 些 段 包 含 了 撤销 信息 ， 使 未 提交 事务 可 以 回 深 。 在 特殊 的 撤销 表 空 
间 中 ， 这 些 段 是 自动 分 配 的 。 它 们 也 在 Oracle 的 并 发 控制 模型 和 数据 库 恢复 中 起 重要 作用 ， 这 
将 在 28.5.1 节 和 28.5. 2 节 中 讲 到 。 为 了 实现 Oracle 的 撤销 管理 ， 使 用 RB” 这 个 术语 。 
在 段 这 一 层 以 下 ， 空 间 以 盘 区 (extent) 的 粒度 级 别 进行 分 配 。 每 个 盘 区 由 一 组 连续 的 数据 库 块 
(block) 组 成 。 数 据 库 块 是 Oracle 进行 磁盘 TO 的 最 低 的 粒度 级 别 。 数 据 库 块 的 大 小 不 必 和 操 作 系 统 中 
的 块 相同 ,但 必须 是 它 的 倍数 。 
Oracle 提供 存储 参数 ， 允 许 对 如 何 分 配 和 管理 空间 进行 详细 控制 。 这 样 的 参数 如 下 : 
。 为 给 插入 表 中 的 行 提 供 空间 而 即将 被 分 配 的 新 盘 区 的 大 小 。 
。 空间 利用 的 百分比 ， 用 该 比例 确定 一 个 数据 库 块 已 满 ， 并 且 不 允许 更 多 的 行 插入 到 这 个 块 中 . 
(在 块 中 留 一 些 自由 空间 ， 可 以 允许 已 有 的 行 通过 更 新 而 增 大 ， 却 不 会 溢出 这 个 块 的 空间 。) 
28.3.3 表 
Oracle 中 的 标准 表 是 以 堆 组 织 的 ; 也 就 是 说 ， 表 中 行 的 存储 位 置 不 是 由 该 行 所 包含 的 值 决定 的 ， 
而 是 在 行 被 插入 时 确定 的 。 但 是 ， 如 果 这 个 表 被 划分 ， 行 的 内 容 影响 到 该 行 被 存储 到 哪个 分 区 中 。 这 
当中 有 几 个 特点 和 变化 。 如 同 28. 3. 3. 2 节 介 绍 的 ， 堆 表 可 以 选择 为 被 压缩 。 
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Oracle FREK; 也 就 是 说 ， 表 中 列 的 数据 类 型 可 以 是 另 一 个 表 。 艇 套 表 不 是 有 序 地 存储 在 父 
表 中 ， 而 是 存储 在 单独 的 表 中 。 

Oracle 支持 临时 表 ， 临 时 表 中 数据 的 持续 时 间 要 么 是 插入 这 个 数据 的 事务 的 时 间 ， 要 么 是 用 户 会 
话 的 时 间 。 数 据 对 于 会 话 而 言 是 私有 的 ， 并 且 在 其 持续 时 间 结 束 时 自动 删除 。 

#& (cluster) 是 表 数 据 的 另 一 种 文件 组 织 形式 ， 在 前 面 的 10.6.2 WPR, SMA SARA, 
这 里 用 到 “ 簇 " 这 个 术语 ， 不 要 与 cluster 这 个 词 的 其 他 意思 混淆 了 ， 如 那些 与 硬件 体系 结构 相关 的 意 
思 。 在 一 个 艇 的 文件 组 织 中 ， 基 于 某 些 共 同 的 列 ， 来自 不 同 表 中 的 行 被 一 起 存储 在 相同 的 块 中 。 壁 如 ， 
一 个 部 门 表 和 一 个 雇员 表 可 以 聚 簇 在 一 起 ， 这 样 部 门 表 中 的 每 行 与 所 有 在 该 部 门 工作 的 雇员 对 应 的 雇 
员 行 存储 在 一 起 。 主 码 / 外 码 的 值 用 于 确定 存储 位 置 。 

徐 的 组 织 暗示 了 行 属于 一 个 特定 的 位 置 ; 璧 如， 一 个 新 的 雇员 行 必 须 与 相同 部 门 的 其 他 的 行 插 
人 到 一 起 。 所 以 ， 簇 列 上 的 索引 是 强制 性 的 。 另 一 种 可 选 的 组 织 方式 是 散 列 簇 (hash cluster) 。 这 里 ， 
Oracle 通过 将 一 个 散 列 函数 作用 到 簇 列 的 值 上 ， 以 计算 出 一 个 行 的 位 置 。 散 列 函 数 将 行 映 射 到 散 列 
簇 中 一 个 特定 的 块 。 由 于 根据 簇 列 的 值 来 访问 一 个 行 时 不 需要 索引 遍历 ， 这 种 组 织 可 以 节省 大 量 的 
磁盘 IO。 

28.3.3.1 按 索引 组 织 的 表 

在 一 个 按 索引 组 织 的 表 ( Index-Organized Table，IOT) 中 ， 记 录 存储 在 Oracle 的 B 树 索引 中 ， 而 不 是 
在 堆 中 。 之 前 在 11.4.1 节 介 绍 了 这 种 文件 组 织 ， 当 时 称 为 B 树 文件 组 织 。 一 个 IOT 需要 一 个 可 识别 
的 唯一 的 关键 字 用 作 索 引 关 键 字 。 虽 然 常规 索引 中 的 条 目 包含 了 索引 行 的 关键 字 值 和 行 标识 ,但 IOT 
用 行 中 剩余 列 的 列 值 来 代替 行 标识 。 与 将 数据 存储 在 常规 堆 表 中 并 在 关键 字 列 上 创建 索引 相 比 ， 使 用 
IOT 可 以 同时 提高 性 能 和 空间 利用 率 。 给 定 主 码 值 ， 考 虑 查找 一 个 行 的 所 有 列 值 。 对 于 堆 表 ， 需 要 在 
探测 索引 之 后 再 通过 行 标识 访问 表 。 对 于 IOT， 只 需要 探测 索引 。 

按 索 引 组 织 的 表 中 非 关 键 字 列 上 的 辅助 索引 与 常规 堆 表 上 的 索引 不 同 。 在 堆 表 中 ， 每 行 有 一 个 固 
定 不 变 的 行 标识 。 但 是 ，B 树 在 插入 或 删除 条 目 后 会 因 增 长 或 缩小 而 重新 组 织 ， 并 和 且 不 能 保证 IOT 中 
的 行 会 留 在 固定 的 地 方 。 所 以 ，IOT 上 的 辅助 索引 不 包含 通常 的 行 标识 ， 而 是 逻辑 行 标识 (logical row- 
id)。 俱 辑 行 标识 由 两 部 分 组 成 : 对 应 于 在 创建 索引 时 或 在 上 次 重建 索引 时 行 的 存储 位 置 的 物理 行 标 


识 ， 以 及 唯一 性 关键 字 的 值 。 物 理 行 标识 作为 “猜测 "来 引用 ， 因 为 它 在 行 移 动 后 可 能 是 错 的 。 如 果 这 


样 的 话 ， 逻 辑 行 标识 的 另 一 部 分 ， 行 的 关键 字 的 值 就 被 用 于 访问 该 行 ; 但 是 ， 此 访问 比 猜测 正确 时 要 
慢 ， 因 为 它 涉 及 对 IOT 的 B 树 从 根 到 叶 结 点 的 所 有 路 径 的 遍历 ， 洪 在 地 导致 了 一 些 磁盘 LO。 然而， 
如 果 一 个 表 是 易 变 的 并 且 大 部 分 猜测 可 能 是 错 的 ,那么 只 用 关键 值 来 创建 辅助 索引 要 更 好 一 些 ( 如 
11.4.1 节 所 述 ) ， 因 为 使 用 不 正确 的 猜测 会 导致 磁盘 1/0 的 浪费 。 
28.3.3.2 压缩 
Oracle 的 压缩 特性 允许 数据 以 压缩 格式 存储 ， 压 缩 极 大 地 降低 了 存储 数据 所 需 的 空间 和 检索 数据 
所 需 的 1/O 操作 数 。Oracle 的 压缩 方法 是 一 种 无 损 的 、 基 于 字典 的 算法 ， 它 单独 地 压缩 每 个 块 。 所 有 
用 来 解压 一 个 块 的 信息 就 包含 在 那个 块 自身 中 。 算 法 把 在 块 中 重复 出 现 的 值 替换 为 指向 块 中 符号 表 
(或 字典 ) 中 该 值 所 对 应 项 的 指针 。 项 可 以 基于 单独 的 列 或 者 列 的 组 合 中 重复 的 值 。 
Oracle 最 初 的 表 压 缩 是 当 数 据 被 批量 加 载 到 表 中 时 生成 压缩 的 块 格式 ， 主 要 是 用 于 数据 仓库 环境 。 
更 新 的 OLTP 压缩 特性 还 支持 与 常规 DML 操作 相关 的 压缩 。 在 后 一 种 情况 下 ，Oracle 只 在 达到 了 特定 
赣 值 量 的 数据 被 写 人 到 块 中 之 后 才 压 缩 块 。 因 此 ， 只 有 导致 超过 阔 值 的 事务 才 会 产生 压缩 数据 块 的 任 
何 开销 。 
28.3.3.3 数据 安全 
除了 通常 的 诸如 密码 、 用 户 权 限 和 用 户 角色 这 样 的 访问 控制 特性 ，Oracle 还 支持 一 些 防止 数据 被 
非 授权 访问 的 特性 ， 包 括 : 
© 加 密 (encryption) 。Oracle 可 以 自动 地 以 加 密 格式 存储 表 数 据 ， 并 能 使 用 AES 和 3DES 算法 透明 
地 加 密 和 解密 数据 。 可 以 对 整个 数据 库 加 密 ， 也 可 以 只 对 表 中 的 单个 的 列 加 密 。 此 特性 的 主要 
动机 是 在 通常 的 保护 环境 之 外 保护 敏感 数据 ， 如 当 备 份 媒质 被 发 送 到 远 地 。 
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© 数据 库 保险 库 ( database vault) 。 此 特性 的 目的 是 为 用 户 访问 数据 库 提供 职责 分 离 。 数 据 库 管理 
员 是 有 高 度 特权 的 用 户 ， 通 常 几乎 可 以 在 数据 库 中 做 任何 事情 。 可 是 ， 让 这 样 的 人 访问 敏感 的 
公司 财务 数据 或 关于 其 他 员工 的 个 人 信息 可 能 是 不 合适 的 或 违法 的 。 数 据 库 保险 库 包 括 多 种 机 
制 ， 可 用 于 限制 或 监视 高 特权 的 数据 库 用 户 对 敏感 数据 的 访问 。 
© 虚拟 私人 数据 库 (virtual private database) 。 在 前 面 9. 7. 5 节 描 述 过 此 特性 ， 它 允许 附加 的 谓词 被 
自动 添加 到 访问 一 个 给 定 表 或 视图 的 查询 的 where 子 名 上。 典型 地 ， 使 用 此 特性 使 得 附加 谓词 
过 滤 掉 所 有 用 户 无 权 看 到 的 行 。 例 如 ， 两 个 用 户 可 以 提交 相同 的 查询 来 找 出 在 整个 员工 表 中 所 
有 员工 的 信息 。 可 是 ， 如 果 存 在 一 种 策略 限制 了 每 个 用 户 只 能 看 到 员工 号 与 用 户 标识 匹配 的 信 
息 ， 自 动 添加 的 谓词 确保 每 个 查询 只 返回 提交 查询 的 用 户 所 对 应 的 员工 信息 。 因 此 ， 给 每 个 用 
户 留 下 的 印象 是 访问 一 个 只 包含 了 物理 数据 库 中 一 个 数据 子 集 的 虚拟 数据 库 。 
28. 3.4 索引 
Oracle 支持 几 种 不 同类 型 的 索引 。 最 常 使 用 的 类 型 是 建立 在 一 列 或 多 列 上 的 B 树 索 引 。 注 意 在 
Oracle( 也 在 其 他 几 种 数据 库 系统 中 ) 的 术语 中 ，B 树 索引 就 是 第 11 章 中 所 说 的 B 树 索引 。 索 引 项 有 以 
下 格式 : 对 于 在 列 col, 、co 和 col, 上 的 索引 ， 表 中 每 个 至 少 在 一 个 这 样 的 列 上 取 非 空 值 的 行 可 以 形成 
这 样 的 索引 项 : 


<col, > <col, > <col, > < row-id > 


这 里 <col, > 表示 第 i 列 上 的 取 值 ，<row-id > 是 行 的 行 标识 。Oracle 可 以 有 选择 地 压缩 项 的 前 级 以 节省 
空间 。 壁 如， 如 果 有 许多 重复 的 <col, > <col, > 值 的 组 合 ， 则 每 个 不 同 的 < col, > <col, > 前 组 表示 就 
可 以 在 具有 该 值 组 合 的 项 之 间 共 享 ， 而 不 是 为 每 个 这 样 的 项 显 式 存储 。 前 缀 压缩 可 以 带 来 实质 性 的 空 
间 节 省 。 
28.3.5 位 图 索引 

位 图 索引 (在 11. 9 节 中 讲 到 ) 使 用 位 图 表示 索引 项 ， 当 被 索引 的 列 有 适中 数量 的 不 同 值 的 时 候 ， 这 
种 表示 可 以 实质 性 地 节省 空间 (同样 也 节省 了 磁盘 IO) 。Oracle 中 的 位 图 索引 使 用 与 常规 索引 相同 类 
型 的 B 树 结构 来 存储 项 。 然 而 ， 列 上 的 常规 索引 的 项 形 如 <col, > <row-id > ， 位 图 索引 的 项 形 如 : 


<col, > <start row-id > <end row-id > < compressed bitmap > 


位 图 在 概念 上 代表 表 中 起 始 行 标识 至 终止 行 标识 之 间 所 有 可 能 的 行 占 用 的 空间 。 一 个 块 中 这 种 可 
能 的 行 的 数量 取决 于 块 中 可 以 容纳 多 少 行 ， 它 是 关于 表 中 列 的 数量 及 其 数据 类 型 的 一 个 函数 。 位 图 中 
每 个 位 (bit) 表示 块 中 这 样 一 个 可 能 的 行 。 如 果 该 行 在 列 上 的 取 值 等 于 索引 项 的 值 ， 这 一 位 就 设置 为 1。 
如 果 该 行 取 其 他 值 ， 或 者 这 一 行 根 本 不 在 表 中 存在 ， 这 一 位 就 设置 为 0。( 某 行 在 表 中 实际 上 并 不 存在 
是 可 能 的 ， 因 为 一 个 表 的 块 中 的 行 数 可 能 比 由 计算 得 到 的 最 大 可 能 的 行 数 要 少 。) 如 果 差 异 很 大 ， 可 能 
导致 位 图 中 出 现 长 串 连 续 的 0， 但 是 压缩 算法 能 够 处 理 这 种 0 串 ， 因 而 负面 影响 是 有 限 的 。 

压缩 算法 是 一 种 叫做 字 节 对 齐 位 图 压缩 (Byte-Aligned Bitmap Compression, BBC) 的 压缩 技术 的 变 
体 。 本 质 上 ， 位 图 中 两 个 连续 的 1 之 间 的 距离 足够 小 的 部 分 存储 为 逐 字 位 图 (verbatim bitmap ) 。 如 果 两 
个 1 之 间 的 距离 足够 大 ， 也 就 是 说 ， 它 们 之 间 有 大 量 邻 接 的 0， 则 存储 的 是 0 的 长 度 ， 也 即 0 的 个 数 

如 果 在 查询 的 where 子 句 中 ， 在 索引 列 上 有 多 个 条 件 时 ， 位 图 索引 允许 把 同一 个 表 上 的 多 个 索引 
合并 在 同一 个 访问 路 径 中 。 根 据 where 子 句 中 的 条 件 ， 使 用 布尔 运算 来 合并 从 不 同 索 引 中 检索 到 的 位 
图 。 所 有 布尔 运算 都 是 直接 在 位 图 的 压缩 形式 上 进行 的 ， 无 需 解压 缩 ， 并 且 结果 (压缩 的 ) 位 图 表示 匹 
配 所 有 逻辑 条 件 的 那些 行 。 

使 用 布尔 运算 来 合并 多 个 索引 的 能 力 并 不 只 限于 位 图 索引 。Oracle 可 以 把 行 标识 转化 为 压缩 位 图 
形式 ， 所 以 它 能 在 位 图 运算 的 布尔 树 中 的 任何 地 方 使 用 常规 的 B 树 索 引 ， 只 要 简单 地 在 执行 计划 中 把 
行 标识 - 位 图 操作 符 放 在 索引 访问 之 上 即 可 。 

根据 经 验 ， 如 果 不 同 码 值 数目 少 于 表 中 行 数 的 一 半 ， 位 图 索引 应 该 比 常规 B 树 索引 空间 利用 率 更 
高 。 例 如 ， 在 一 个 具有 100 万 行 的 表 中 ， 如 果 在 少 于 50 万 个 不 同 取 值 的 列 上 创建 的 是 位 图 索引 ， 可 能 
更 节省 空间 。 对 于 取 很 少 的 、 不 同 值 的 列 ， 例 如 ， 对 于 表示 国家 、 州 、 性 别 、 婚 姻 状 况 以 及 各 种 状态 
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标志 属性 的 列 ， 位 图 索引 可 能 只 需要 常规 B 树 索引 所 用 空间 的 一 小 部 分 。 在 扫描 索引 的 时 候 ， 任 何 这 
样 的 空间 优势 都 能 以 更 少 的 磁盘 IO 带 来 相应 的 性 能 优势 。 
28.3.6 基于 函数 的 索引 

除了 在 表 的 一 个 或 多 个 列 上 创建 索引 外 ，Oracle 还 允许 在 包含 一 个 或 多 个 列 的 表达 式 上 创建 索引 ， 
比如 col, + col, *5。 例 如 ， 在 表达 式 upper( name) 上 创建 一 个 索引 ， 其 中 upper 是 一 个 函数 ， 它 返回 字符 
串 的 大 写 形式 ， 而 name 是 一 个 列 ， 这 就 可 以 对 name 列 执行 大 小 写 不 敏感 的 搜索 。 为 了 高 效 地 找到 含 
H APR“ van Gogh” WHAT, AE: 

upper( name) = * VAN GOGH’ 
将 在 查询 的 where 子 句 中 使 用 。Oracle 随后 将 该 条 件 与 索引 定义 相 匹 配 ， 并 且 不 管 存储 在 数据 库 中 时 
name 的 大 小 写 如 何 ， 最 后 该 索引 都 能 用 于 检索 出 匹配 “van Gogh ”的 所 有 行 。 基 于 函数 的 索引 可 以 创建 
为 位 图 索引 或 者 B 树 索 引 。 
28.3.7 连接 索引 

连接 索引 是 这 样 一 种 索引 : 索引 中 行 标识 所 指向 的 关键 字 列 并 不 在 表 中 。Oracle 支持 位 图 连接 索 
引 ， 主 要 用 于 星 型 模式 ( 见 20.2.2 节 )。 例 如 ， 如 果 产 品 维 表 中 有 一 个 产品 名 字 的 列 ， 事 实 表 中 在 该 关 
键 字 列 上 的 位 图 连接 索引 可 用 于 检索 出 对 应 于 特定 名 称 产品 的 事实 表 中 的 行 ， 虽 然 产品 名 称 并 没有 存 
储 在 事实 表 中 。 事 实 表 和 维 表 两 个 表 中 的 行 是 如 何 对 应 的 ， 取 决 于 创建 索引 时 指定 的 连接 条 件 ， 并 成 
为 索引 元 数据 的 一 部 分 。 当 处 理 查询 时 ， 优 化 器 从 查询 的 where 子 句 中 查找 相同 的 连接 条 件 ， 以 决定 
是 否 可 以 应 用 连接 索引 。 

Oracle 能 够 借助 布尔 位 图 运算 的 操作 符 ， 把 事实 表 上 的 位 图 连接 索引 与 同一 个 表 上 的 其 他 索引 (无 
论 是 否 为 连接 索引 ) 合 并 。 

28.3.8 域 索 引 

Oracle 允许 非 Oracle 原生 的 索引 结构 对 表 进 行 索 引 。Oracle 服务 器 的 这 种 扩展 特性 允许 软件 厂商 
为 特定 应 用 领域 ， 如 文本 、 空 间 数据 和 图 像 ， 开 发 所 谓 插 卡 式 ( cartridge ) 的 功能 ， 以 提供 标准 Oracle 索 
引 类 型 未 提供 的 索引 功能 。 在 实现 索引 的 创建 、 维 护 和 搜索 逻辑 时 ， 索 引 设 计 者 必须 确保 索引 与 
Oracle 服务 器 进行 交互 时 遵循 特定 的 协议 。 

域 索 引 必须 连同 它 所 支持 的 操作 符 一 起 在 数据 字典 中 注册 。Oracle 优化 器 认为 域 索 引 是 表 可 能 的 
访问 路 径 之 一 。Oracle 允许 为 操作 符 注册 代价 函数 ， 据 此 优化 器 可 以 比较 使 用 域 索 引 和 使 用 其 他 访问 
路 径 的 代价 。 

例如 ， 高 级 文本 搜索 的 域 索 引 可 能 支持 contains 操作 符 。 一 旦 注册 这 个 操作 符 ， 该 域 索 引 就 会 当 作 
是 形 如 下 述 查询 的 一 条 访问 路 径 : 

select’ 


from employees 
where contains( resume, ‘LINUX’ ); 


其 中 resume 是 employee 表 中 的 一 个 文本 列 。 域 索引 既 可 以 存储 在 外 部 数据 文件 中 ， 也 可 以 存储 在 
Oracle 的 按 索引 组 织 的 表 内 部 。 

代 助 于 在 行 标识 和 位 图 表示 之 间 的 转换 以 及 使 用 布尔 位 图 运算 ， 域 索引 可 以 与 在 同一 访问 路 径 下 
的 其 他 索引 (位 图 索引 或 者 B 树 索 引 ) 合并 。 
28. 3.9 划分 


Oracle 支持 多 种 对 表 和 索引 的 水 平 划分 方式 ， 并 且 这 种 特性 在 Oracle 支持 特大 数据 库 的 能 力 中 发 
挥 着 重要 作用 。 对 表 或 索引 进行 划分 的 能 力 有 许多 方面 的 优点 。 
。 备份 和 恢复 更 容易 也 更 快速 ， 因 为 可 以 对 单独 的 分 区 进行 而 不 是 对 整个 表 进 行 。 
© 数据 仓库 环境 下 的 加 载 操 作 不 那么 生硬 : 数据 可 以 添加 到 新 创建 的 分 区 ， 然 后 把 分 区 添加 到 表 
中 ， 这 是 一 种 瞬时 性 操作 。 同 样 地 ， 在 维护 历史 数据 滚动 窗口 的 数据 仓库 中 ， 从 表 中 丢弃 存放 
废弃 数据 的 分 区 非常 容易 。 
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。 查询 性 能 获得 实质 性 受益 ， 因 为 处 理 查询 时 优化 器 可 以 识别 只 需要 访问 表 的 分 区 的 一 个 子 集 
(分 区 裁剪 ，partition pruning) 。 同 样 ， 在 连接 时 优化 器 可 以 识别 ， 不 必 把 一 个 表 的 所 有 行 和 另 
一 个 表 的 所 有 行进 行 匹配 ， 而 只 需要 在 匹配 的 分 区 对 之 间 进 行 连接 ( 按 分 区 连接 ) 。 

被 划分 的 表 上 的 索引 可 以 是 全 局 索引 ( global index) ， 或 者 是 局 部 索引 (local index), SHRI PH 
项 可 以 指向 任何 分 区 中 的 行 。 局 部 索引 的 表 对 每 个 划分 有 一 个 物理 索引 ， 它 只 包含 该 分 区 中 的 项 。 除 
非 分 区 裁剪 限制 了 查询 只 能 在 单个 分 区 上 ， 通 过 局 部 索引 访问 的 表 需 要 对 多 个 独立 的 物理 索引 进行 探 
查 。 可 是 ， 在 数据 仓库 环境 下 局 部 索引 具有 这 样 的 优势 : 新 的 数据 可 以 加 载 到 一 个 新 的 分 区 中 并 被 索 
引 ， 无 需 维 护 任 何 已 有 索引 。!( 在 数据 加 载 中 ， 加 载 后 创建 索引 远 比 维护 已 有 索引 更 高 效 。) 类 似 地 ， 
删除 一 个 旧 的 分 区 及 其 局 部 索引 的 物理 部 分 也 不 需要 维护 任何 索引 。 

被 划分 表 中 的 每 一 行 都 与 某 一 特定 分 区 相关 联 。 该 关联 基于 划分 列 或 被 划分 的 表 定 义 的 部 分 列 。 
有 几 种 方法 将 列 值 映射 到 分 区 ， 这 就 形成 了 几 种 类 型 的 划分 : 范围 划分 、 散 列 划 分 、 列 表 划 分 以 及 复 
合 划 分 。 每 种 划分 都 有 不 同 的 特征 。 

28.3.9.1 范围 划分 

在 范围 划分 中 ， 划 分 标准 是 值 的 范围 。 此 划分 类 型 特别 适合 于 日 期 列 ， 其 中 在 同一 个 日 期 范围 内 
的 所 有 行 ， 比 如 一 天 或 者 一 个 月 ， 都 属于 同一 个 分 区 。 在 数据 仓库 中 ， 数 据 以 固定 间隔 从 事务 型 系统 
中 导入 ， 使 用 范围 分 区 可 有 效 实现 历史 数据 的 滚动 窗口 。 每 次 数据 加 载 都 有 其 自己 的 新 分 区 ， 这 使 得 
加 载 过 程 更 快 更 有 效 。 系 统 实际 上 把 数据 装载 到 和 被 划分 表 具 有 相同 列 定义 的 单独 表 中 。 然 后 它 可 以 
检查 数据 的 一 致 性 ， 清 理 数据 ， 并 为 数据 建立 索引 。 之 后 ， 系 统 只 要 简单 地 改动 数据 字典 中 的 元 数据 ， 
就 可 以 把 这 个 单独 的 表 作 为 被 划分 表 的 一 个 新 分 区 ， 此 操作 几乎 是 瞬时 的 。 

直到 元 数据 改变 之 前 ， 加 载 过 程 并 不 以 任何 方式 影响 被 划分 表 中 已 存在 的 数据 。 加 载 中 不 需要 对 
已 有 索引 进行 任何 维护 。 旧 数据 可 以 通过 简单 丢弃 其 分 区 而 从 表 中 删除 ;此 操作 并 不 影响 其 他 分 区 。 

此 外 ,数据 仓库 环境 中 的 查询 通常 包含 将 查询 限定 在 特定 时 间 段 内 的 条 件 ， 比 如 一 个 季度 或 者 一 
个 月 。 如 果 使 用 数据 范围 划分 ， 查 询 优化 器 可 以 把 数据 访问 限定 到 和 查询 相关 的 那些 分 区 中 ， 从 而 避 
免 全 表 扫 描 。 

划分 既 可 以 通过 显 式 地 设置 一 个 结束 点 来 创建 ， 也 可 以 基于 一 个 固定 范围 来 定义 ， 如 一 天 或 一 个 
月 。 后 一 种 情况 称 为 区 间 划 分 (interval partitioning) ， 当 试图 插入 一 个 行 ， 且 它 的 值 没有 落 在 之 前 存在 
的 区 间 内 时 ， 包 含 该 值 的 分 区 会 自动 创建 。 

28.3.9.2 散 列 划分 

在 散 列 划 分 中 ， 散 列 函数 根据 划分 列 中 的 值 把 行 映射 到 分 区 中 。 这 种 划分 类 型 主要 用 在 当 把 行 均 
匀 分 布 到 各 分 区 中 很 重要 时 ， 或 者 当 按 分 区 的 连接 对 查询 性 能 而 言 很 重要 时 。 

28.3.9.3 列表 划分 

在 列表 划分 中 ， 与 特定 分 区 相关 的 值 在 一 个 列表 中 声明 。 如 果 在 划分 列 上 的 数据 具有 相对 较 小 的 
离散 值 的 集合 ， 则 这 种 划分 类 型 是 有 用 的 。 例 如 ， 如 果 每 个 分 区 列表 具有 属于 相同 区 域内 的 州 ， 一 个 
带 有 州 的 列 的 表 无 疑 可 以 按照 地 理 区 域 进行 划 分 。 

28.3.9.4 复合 划分 

在 复合 划分 中 ， 被 范围 、 区 间或 列表 划分 的 表 可 以 进行 范围 、 列 表 或 者 散 列 子 划分 。 例 如 ， 一 个 
表 可 以 在 日 期 列 上 进行 范围 划分 ， 并 在 频繁 用 于 连接 的 列 上 进行 散 列 子 划 分 。 这 样 的 子 划 分 允许 在 表 
连接 时 采用 按 分 区 的 连接 。 

28. 3.9.5 参照 划分 

在 参照 划分 中 ， 划 分 关键 字 是 基于 另 一 个 表 的 外 键 约束 来 定 的 。 这 种 表 之 间 的 依赖 允许 自动 、 级 
联 地 进行 维护 操作 。 
28.3.10 物化 视图 

物化 视图 特性 ( 见 4. 2. 3 节 ) 允许 SQL 查询 结果 存储 在 一 个 表 中 ， 并 用 于 以 后 的 查询 处 理 。 此 外 ， 
Oracle 维护 这 种 物化 结果 ， 在 查询 涉及 的 表 更 新 时 对 物化 结果 进行 更 新 。 在 数据 仓库 中 使 用 物化 视图 
来 加 快 查询 处 理 ， 但 这 种 技术 还 用 于 分 布 式 或 移动 环境 中 的 复制 。 
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在 数据 仓库 中 ， 物 化 视图 的 一 个 通常 用 途 是 汇总 数据 。 例 如 ， 一 种 常用 的 查询 类 型 是 询问 " 过 去 两 
年 中 每 个 季度 的 销售 总 额 ” 。 预 先 计 算 这 种 查询 的 结果 或 者 部 分 结果 ， 与 从 头 开 始 从 详细 的 销售 记录 中 
层 层 聚 集 得 到 结果 相 比 ， 可 以 极 大 地 加 快 查询 处 理 。 

Oracle 在 处 理 查 询 时 ， 可 以 利用 任何 有 用 的 物化 视图 来 支持 自动 查询 重 写 。 这 种 重 写 包括 改变 查 
询 ， 以 利用 物化 视图 来 代替 查询 中 原来 的 表 。 此 外 ， 这 种 重 写 可 能 会 添加 额外 的 连接 或 者 聚集 处 理 ， 
然而 为 了 得 到 正确 结果 而 可 能 需要 它们 。 例 如 ， 如 果 查 询 需 要 季度 的 销售 信息 ， 查 询 重 写 可 以 利用 物 
化 的 月 销售 视图 ， 增 加 额外 的 聚集 完成 从 月 到 季度 的 上 卷 。Oracle 具有 一 类 叫做 维 ( dimension ) 的 元 数 
据 对 象 ， 它 允许 定义 表 中 的 层次 关系 。 例 如 ， 对 于 星 型 模式 中 的 时 间 维 表 ，Oracle 能 够 定义 一 个 维 元 
数据 对 象 来 指定 如 何 从 日 上 卷 到 月 ， 从 月 上 卷 到 季度 ， 从 季度 上 卷 到 年 ， 诸 如 此 类 。 同 样 地 ， 可 以 指 
定 与 地 理 相关 的 层次 属性 一 一 例如 ， 销 售 区 域 如 何 上 卷 到 销售 地 域 。 查 询 重 写 逻 辑 之 所 以 关注 这 些 关 
系 ， 是 因为 它们 允许 在 更 广泛 的 查询 类 别 中 使 用 物化 视图 。 

物化 视图 的 容器 对 象 是 表 ， 这 意味 着 可 以 对 物化 视图 进行 索引 、 划 分 或 者 其 他 控制 ， 以 提高 查询 
性 能 。 

当 定 义 物化 视图 的 查询 所 涉及 表 中 的 数据 发 生变 化 时 ， 必 须 刷新 物化 视图 以 反映 这 些 变化 。Oracle 
支持 物化 视图 的 完全 刷新 ， 也 支持 快速 的 增 量 刷新 。 在 完全 刷新 中 ，Oracle 从 头 开始 重新 计算 物化 视 
图 ， 如 果 底 层 表 发 生 重 大 变化 这 可 能 是 最 佳 选择 ， 如 因 批 量 加 载 导 致 的 变化 。 在 快速 刷新 中 ，Oracle 
使 用 底层 表 中 发 生变 化 的 记录 来 更 新 视图 。 对 视图 的 刷新 可 以 按 提交 (on commit) 作为 改变 底层 表 的 事 


务 的 一 部 分 来 执行 ， 也 可 以 按 需要 (on demand ) 在 之 后 的 某 个 时 间 点 执行 。 如 果 表 中 发 生 改 变 的 行 数量 
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较 少 ， 快 速 刷新 可 能 是 更 好 的 。 关 于 物化 视图 能 否 被 增 量 刷新 ， 在 查询 类 别 上 是 有 一 些 限制 的 ( 男 有 其 
他 关于 物化 视图 何 时 才能 创建 的 限制 ) 。 

物化 视图 与 索引 的 相似 之 处 在 于 能 够 提高 查询 性 能 ， 但 它 占 用 空间 ， 其 创建 和 维护 要 消耗 资源 。 
为 了 帮助 处 理 这 种 权衡 ，Oracle 提供 了 一 个 向 导 ， 在 给 定 特定 的 查询 工作 负载 作为 输入 的 条 件 下 ， 它 
可 以 帮助 用 户 创建 一 个 最 划算 的 物化 视图 。 


28.4 查询 处 理 和 优化 


Oracle 在 其 查询 处 理 引 苟 中 支持 大 量 的 处 理 技 术 。 在 这 里 对 一 些 更 重要 的 技术 进行 简要 描述 。 
28.4.1 执行 方法 
数据 可 以 通过 多 种 访问 方法 来 访问 : 
。 SRA (full table scan) 。 查 询 处 理 器 扫描 全 表 : 它 根据 区 块 映射 获取 关于 构成 表 的 块 的 信息 ， 
并 扫描 这 些 块 。 
© 索引 扫描 (index scan) 。 处 理 器 根据 查询 中 的 条 件 创建 起 始 键 和 /或 终止 键 ， 并 使 用 它 扫 描 索 引 
中 的 相关 部 分 。 如 果 有 需要 检索 出 的 列 ， 而 这 些 列 不 是 索引 的 一 部 分 ， 则 在 索引 扫描 之 后 再 通 
过 索引 行 标识 进行 表 访 问 。 如 果 没有 起 始 键 或 停止 键 可 用 ， 扫 描 就 成 为 全 索引 扫描 。 
。 索引 快速 全 扫描 (index fast full scan) 。 处 理 器 扫描 区 块 的 方式 与 全 表 扫 描 中 扫描 表 的 区 块 相同 ， 
如 果 索 引 包含 了 表 中 所 需要 的 所 有 表 列 ， 并 且 没 有 好 的 起 始 / 终 止 键 可 以 显著 地 减少 常规 索引 
扫描 中 所 需 扫描 的 索引 部 分 ， 这 种 方法 可 能 是 访问 数据 最 快 的 途径 . 这 是 因为 快速 全 扫描 能 充 
分 利用 多 个 块 的 磁盘 IO。 然 而 ， 不 像 常 规 全 扫描 那样 顺序 遍历 索引 叶 块 ， 快 速 全 扫描 并 不 保 
证 其 输出 保持 索引 排序 的 顺序 。 
e 索引 连接 (index join ) 。 如 果 查 询 只 需要 宽 表 ( wide table) 的 一 个 小 的 列 的 子 集 ， 但 没有 单个 索引 
包含 所 有 这 些 列 ， 处 理 器 能 够 使 用 索引 连接 来 产生 相关 信息 ， 而 不 用 访问 表 ， 方 法 是 把 几 个 共 
同 包含 所 需 列 的 索引 连接 起 来 。 它 执行 连接 的 方式 是 在 不 同 索 引 的 行 标识 上 进行 散 列 连接 
© AR (cluster and hash cluster access)。 处 理 器 使 用 簇 码 来 访问 数据 。 
Oracle 有 几 种 方法 把 来 自 多 个 索引 的 信息 合并 在 单个 访问 路 径 里 。 这 种 能 力 允 许多 个 where 子 句 
条 件 一 起 使 用 来 尽 可 能 有 效 地 计算 出 结果 集 。 此 功能 包括 在 位 图 表示 的 行 标识 上 执行 布尔 运算 and, 
or 和 minus 的 能 力 。 还 有 操作 符 可 以 把 行 标识 列表 映射 到 位 图 ,或 者 反之 ， 它 允许 常规 的 B 树 索引 和 
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位 图 索引 在 同一 个 访问 路 径 中 一 起 使 用 。 此 外 ， 对 于 许多 对 表 的 选择 中 用 到 count(“ ) 的 查询 ， 通 过 应 
用 where 子 句 条 件 产生 位 图 ， 查 询 结果 可 以 直接 通过 对 位 图 中 所 置 的 位 进行 计数 来 计算 出 来 ， 不 用 访 
问 表 。 

Oracle 在 执行 引擎 中 支持 几 种 类 型 的 连接 : 内 连接 、 外 连接 、 半 连接 ( semijoin) Al RHE 
(antijoin) 。( Oracle 中 的 反 连 接 返 回 左边 输入 关系 中 的 行 ， 这 些 行 与 右边 输入 关系 的 任何 行 都 不 匹配 ; 
在 其 他 文献 中 此 操作 也 叫做 反 半 连接 ( anti-semijoin ) 。) 它 用 下 述 三 种 方法 之 一 来 计算 每 种 类 型 的 连接 : 
散 列 连接 、 排 序 归并 连接 或 者 艇 套 循 环 连接 。 

28.4.2 优化 

第 13 章 讨 论 了 查询 优化 的 一 般 问题 。 这 里 ， 我 们 讨论 Oracle 系统 中 的 优化 。 

28.4.2.1 查询 转换 

Oracle 在 几 个 阶段 上 进行 查询 优化 。 一 个 这 样 的 阶段 是 执行 各 种 查询 转换 和 重 写 ， 从 根本 上 改变 
查询 结构 。 男 一 个 阶段 是 执行 访问 路 径 选 择 以 确定 访问 路 径 、 连 接 方法 和 连接 次 序 。 因 为 某 些 转换 未 
必 总 是 有 益 的 ，Oracle 使 用 基于 代价 的 查询 转换 ， 其 中 转换 和 路 径 选择 是 交叉 进行 的 。 对 于 每 个 所 尝 
试 的 转换 ， 通 过 执行 路 径 选择 以 生成 代价 估计 ， 并 基于 结果 执行 计划 的 代价 决定 接受 还 是 拒绝 此 转换 ， 

Oracle 支持 的 转换 和 重 写 的 一 些 主要 类 型 如 下 : 

。 视图 合并 ( view merging ) 。 查 询 中 的 视图 引用 由 视图 定义 替代 。 这 种 转换 并 非 对 所 有 视图 都 

适用 。 

。 复杂 视图 合并 ( complex view merging). Oracle 为 特定 类 型 的 视图 提供 此 特性 ， 它 们 不 能 进行 常 

规 的 视图 合并 ， 因 为 它们 在 视图 定义 中 有 group by 或 select distinct。 如 果 这 种 视图 与 其 他 表 连 
接 ，Oracle 能 够 替换 用 于 group by 或 distinct 的 连接 和 排序 或 散 列 操作 。 

。 子 查询 整 平 (subquery flattening), Oracle 有 各 种 转换 可 以 把 不 同 种 类 的 子 查询 转变 为 连接 、 半 

连接 ， 或 者 反 连 接 。 这 样 的 转换 也 称 为 去 除 相 关 ， 在 13. 4. 4 节 中 进行 过 简要 描述 。 

。 物化 视图 重 写 ( materialized view rewrite), Oracle 具有 自动 重 写 查 询 的 能 力 以 利用 物化 视图 。 如 

果 查 询 中 的 某 部 分 可 以 与 一 个 已 存在 的 物化 视图 匹配 ，Oracle 能 够 用 对 存储 该 物化 视图 的 表 的 
引用 来 替换 这 部 分 。 如 果 需 要 ，Oracle 添加 连接 条 件 或 group by 操作 来 保持 查询 的 语义 。 如 果 
有 多 个 物化 视图 可 以 利用 ，Oracle 选取 在 减少 所 需 处 理 的 数据 量 方面 最 有 利 的 一 个 。 此 外 ， 
Oracle 将 重 写 后 的 查询 和 原始 查询 都 提交 给 整个 优化 过 程 ， 为 它们 分 别 生成 执行 计划 以 及 相关 
的 代价 估计 ， 然 后 Oracle 根据 代价 估计 决定 是 执行 重 写 的 查询 还 是 原始 查询 。 

。 星 型 转换 ( star transformation), Oracle 支持 一 种 技术 来 估算 星 型 模式 上 的 查询 ， 称 为 星 型 转换 
(star transformation ) 。 当 查询 包含 事实 表 和 维 表 的 连接 ， 并 且 对 维 表 的 属性 进行 选择 时 ， 查 询 
按 如 下 方式 转换 : 删除 事实 表 和 维 表 之 间 的 连接 条 件 ， 并 把 每 个 维 表 的 选择 条 件 蔡 换 为 如 下 形 
式 的 子 查询 : 

fact_table. fk, in 

(select pk from dimension_table, 

where < conditions on dimension_table, > ) 
对 于 每 个 具有 一 些 限 定 谓 词 的 维 都 产生 一 个 这 样 的 子 查询 。 如 果 维 具有 雪花 模式 ( 见 20.2 节 )， 
子 查询 将 包含 对 构成 此 维 的 适用 表 的 一 个 连接 。 

Oracle 使 用 每 个 子 查询 返回 的 值 来 探查 相应 事实 表 列 上 的 索引 ， 得 到 一 个 位 图 作为 结果 。 

从 不 同 子 查询 产生 出 的 位 图 通过 位 图 与 运算 进行 合并 。 结 果 位 图 可 以 用 于 访问 匹配 的 事实 表 
行 。 所 以 ， 只 有 那些 在 事实 表 中 ， 同 时 匹配 约束 维 上 条 件 的 行 才 会 被 访问 。 不 管 确 定 为 特定 的 
维 使 用 子 查询 是 否 划算 ， 还 是 确定 重 写 的 查询 是 否 比 原始 查询 更 好 ， 都 取决 于 优化 器 的 代价 
估计 。 

28.4.2.2 访问 路 径 选 择 

Oracle 有 一 个 基于 代价 的 优化 器 来 决定 连接 顺序 、 连 接 方法 以 及 访问 路 径 。 优 化 器 所 考虑 的 每 个 
操作 都 有 一 个 相应 的 代价 函数 ， 优 化 器 试图 产生 总 体 代 价 最 小 的 操作 组 合 。 
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在 估计 操作 的 代价 时 ， 优 化 器 依据 模式 对 象 (如 表 、 索 引 ) 上 已 计算 出 来 的 统计 数据 。 这 些 统计 数 
据 包 括 关于 对 象 大 小 、 基 数 、 表 列 的 数据 分 布 情况 等 信息 。 对 于 数据 分 布 ，Oracle 支持 高 度 平衡 
(height-balanced) 直方 图 和 频率 直方 图 。 高 度 平衡 直方 图 也 称 为 等 深 直方 图 ， 在 13. 3. 1 节 进 行 过 描述 。 

为 了 方便 收集 优化 器 统计 数据 ，Oracle 能 够 监视 表 上 的 修改 活动 ， 跟 踪 那 些 已 经 做 了 足够 多 修改 
的 表 ， 它 们 可 能 适合 于 重新 计算 统计 数据 。Oracle 还 跟踪 在 查询 的 where 子 句 中 用 到 哪些 列 ， 把 它们 
作为 创建 直方 图 的 潜在 候选 者 。 用 户 可 以 通过 一 条 命令 ， 通 知 Oracle 为 那些 已 经 标记 为 做 了 足够 多 修 
改 的 表 刷 新 统计 数据 。Oracle 用 采样 来 加 速 收集 新 统计 信息 的 过 程 ， 并 自动 选择 最 小 的 、 足 够 的 样本 
百分比 。 它 还 决定 标记 列 的 分 布 是 否 有 利于 建立 直方 图 ; 如 果 数 据 的 分 布 趋 于 均衡 ， 则 Oracle 用 更 简 
单 的 方法 来 表示 列 的 统计 数据 。 

在 某 些 情况 下 ， 优 化 器 不 太 可 能 仅仅 依靠 简单 的 列 统计 数据 来 精确 估计 查询 的 where 子 句 中 的 条 
件 的 选择 率 。 例 如 ,条 件 可 能 是 一 个 包含 列 的 表达 式 ， 如 f( col +3) >5。 男 一 类 存在 问题 的 查询 是 那 
些 在 列 上 有 多 个 谓词 ， 并 且 这 些 列 存在 某 种 形式 的 相关 性 的 查询 。 估 计 这 些 谓词 的 联合 选择 率 可 能 比 
较 困难 。Oracle 为 此 允许 为 表达 式 和 分 组 的 列 创建 统计 数据 。 另 外 ，Oracle 通过 动态 采样 来 处 理 这 些 
问题 。 优 化 器 可 以 随机 采样 表 的 一 小 部 分 ， 将 所 有 相关 的 谓词 应 用 到 样本 上 ， 从 而 得 出 匹配 的 行 的 百 
分 比 。 这 个 特性 也 用 于 处 理 那些 数据 生命 周期 和 可 见 性 可 能 阻碍 常规 统计 数据 收集 的 临时 表 。 

在 优化 器 代价 模型 中 ，Oracle 既 使 用 CPU 代价 ， 也 使 用 磁盘 IO。 为 了 平衡 这 两 个 部 分 ， 它 保存 
了 关于 CPU 速度 和 磁盘 VO 性 能 的 度量 ， 作 为 优化 器 统计 数据 的 一 部 分 。Oracle 用 于 收集 优化 器 统计 
数据 的 软件 包 负责 计算 这 些 度 量 。 

对 于 有 比较 多 连接 操作 的 查询 ， 优 化 器 的 搜索 空间 是 一 个 问题 。Oracle 有 几 种 方法 处 理 这 个 问题 。 
优化 器 产生 一 个 初始 连接 顺序 ， 然 后 按 该 连接 顺序 选择 最 好 的 连接 方法 和 访问 路 径 。 接 着 改变 表 的 顺 
序 ， 并 为 新 的 连接 顺序 选择 最 好 的 连接 方法 和 访问 路 径 ， 以 此 类 推 . 同时 保存 目前 为 止 最 好 的 计划 。 
如 果 要 考虑 的 不 同 连接 顺序 的 数量 太 大 ， 以 至 于 优化 器 所 花费 的 时 间 与 它 执 行当 前 已 找到 的 最 优 计划 
所 花 的 时 间 比 起 来 可 能 较 显 著 ，Oracle 会 中 断 优化 。 由 于 这 种 中 断 依赖 于 当前 已 找到 的 最 好 计划 的 代 


1175) 价 估计 ， 所 以 尽早 找到 一 个 好 的 计划 很 重要 ， 这 样 优化 器 在 更 少量 的 连接 顺序 之 后 就 可 以 停止 ,导致 


响应 时 间 更 短 。Oracle 采用 几 种 初始 排序 启发 式 法 则 来 增加 第 一 次 连接 顺序 就 是 好 策略 的 可 能 性 。 

对 于 所 考虑 的 每 种 连接 顺序 ， 优 化 器 可 能 执行 额外 的 对 表 的 扫描 来 决定 连接 方法 和 访问 路 径 。 这 
种 额外 扫描 的 目标 是 确定 访问 路 径 选择 的 全 局 副 效 应 。 比 如 一 个 特定 的 连接 方法 和 访问 路 径 的 组 合 可 
以 省 略 执行 order by 排序 的 需要 。 由 于 在 局 部 考虑 不 同 连接 方法 和 访问 路 径 的 代价 时 ， 这 种 全 局 副 效 
应 可 能 并 不 明显 ， 可 用 定位 特定 副 效应 的 单独 的 扫描 来 发 现 可 能 的 、 整 体 代价 更 好 的 执行 计划 。 

28.4.2.3 分 区 裁剪 

对 于 划分 的 表 ， 优 化 器 试 着 把 查询 where 子 句 中 的 条 件 和 表 划 分 的 标准 进行 匹配 ， 为 的 是 避免 访 
问 结果 所 不 需要 的 分 区 。 例如， 如 果 表 以 日 期 范围 来 划分 ， 并且 查询 被 限定 在 两 个 特定 日 期 之 间 的 数 
据 上 ， 优 化 器 判定 哪些 分 区 包含 了 这 两 个 特定 日 期 之 间 的 数据 ， 并 确保 只 访问 这 样 的 分 区 。 这 样 的 情 
形 非常 普遍 ， 如 果 只 需要 分 区 的 一 个 小 的 子 集 ， 加 速 比 是 显著 的 。 

28.4.2.4 SQL 调 优 顾问 

除了 常规 的 优化 流程 ，Oralce 优化 器 还 能 作为 SQL Tuning Advisor( SQL 调 优 顾问 ) 的 一 部 分 而 用 于 
调 优 模式 中 ， 为 的 是 生成 比 平时 更 为 高 效 的 执行 计划 。 这 个 特性 对 于 反复 生成 相同 SQL 语句 集合 的 打 
包 应 用 特别 有 用 ， 这 样 为 了 性 能 而 调 优 这 些 语 句 的 努力 在 将 来 是 有 益 的 。 

Oralce 监控 数据 库 活 动 ， 并 自动 将 关于 负载 重 的 SQL 语句 的 信息 存放 在 工作 负载 存储 器 中 ， 参 见 
28. 8. 2 节 。 负 载重 的 SQL 语句 是 那些 用 尽 绝 大 部 分 资源 的 语句 ， 因 为 它们 执行 了 太 多 次 或 者 每 次 执行 
代价 就 很 大 。 这 样 的 语句 是 调 优 的 合理 的 候选 者 ， 因 为 它们 对 系统 的 影响 最 大 。SQL 调 优 顾 问 可 用 于 
提供 各 种 建议 ， 从 而 提高 这 些 语句 的 性 能 ， 这 些 建议 可 分 为 如 下 不 同 种 类 : 

© 统计 分 析 ( statistics analysis), Oracle 检查 优化 器 所 需要 的 统计 数据 是 否 缺 失 或 者 陈旧 ， 并 且 提 

供 收 集 这 些 数据 的 建议 。 
© SQL 轮廓 记录 (SQL profiling), SQL 语句 的 轮廓 记录 是 为 了 帮助 优化 器 下 次 优化 此 语句 时 能 做 
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出 更 好 决策 的 一 组 信息 。 如 果 优 化 器 不 能 精确 估计 基数 和 选择 率 ， 它 有 时 可 能 会 生成 低 效 的 执 


行 计划 ， 由 于 数据 的 相关 性 或 者 使 用 了 特定 的 构造 类 型 会 发 生 这 样 的 事情 。 当 在 调 优 模式 下 运 | 


行 优化 器 以 创建 轮廓 记录 时 ， 优 化 器 会 使 用 动态 采样 和 SQL 语句 的 部 分 评估 来 验证 其 假设 是 否 
正确 。 如 果 它 发 现在 优化 过 程 的 某 些 步 又 中 优化 器 的 假设 是 错误 的 ， 它 将 为 该 步骤 生成 一 个 校 
正 因子 ， 使 其 成 为 轮廓 记录 的 一 部 分 。 调 优 模 式 下 的 优化 非常 耗 时 ， 不 过 若 轮廓 记录 的 使 用 能 
显著 提高 语句 性 能 ， 就 是 值得 的 。 轮 廓 记录 在 创建 之 后 会 持久 地 存储 ， 并 在 今后 优化 该 语句 的 
任何 时 候 使 用 。 轮 廓 记录 能 用 于 SQL 语句 调 优 ， 而 无 需 改 变 语句 内 容 ， 这 一 点 很 重要 ， 因 为 数 
据 库 管理 员 通 常 不 可 能 修改 应 用 所 产生 的 语句 。 
访问 路 径 分 析 ( access-path analysis) 。 基 于 优化 器 的 分 析 ，Oracle 建议 创建 额外 的 索引 来 加 速 语 
句 的 执行 。 

e SQL 结构 分 析 (SQL structure analysis), Oracle 建议 改变 SQL 语句 的 结构 ， 以 便于 更 高 效 的 

执行 。 

28.4.2.5 SQL 计划 管理 

打包 的 应 用 程序 经 常生 成 大 量 重复 执行 的 SQL 语句 。 如 果 应 用 程序 表现 得 足够 好 ， 数 据 库 管理 员 
通常 不 愿意 修改 数据 库 行 为 。 如 果 修 改 导 致 性 能 更 好 ， 由 于 性 能 已 经 够 好 了 ， 能 提升 的 空间 是 有 限 的 ， 
另 一 方面 ， 如 果 修 改 导 致 性 能 下 降 ， 如 果 一 个 关键 查询 的 响应 时 间 下 降 到 不 可 接受 ， 它 可 能 破坏 了 应 
用 程序 。 

改变 行为 的 一 个 例子 是 改变 查询 的 执行 计划 。 这 样 的 改变 可 能 完全 合理 地 反映 了 数据 性 质 的 变化 ， 
例如 一 个 表 增 长 得 非常 大 。 但 是 这 样 的 改变 也 可 能 是 许多 其 他 动作 的 无 意 的 结果 ， 如 收集 优化 器 统计 
数据 例 程 的 改变 或 升级 到 具有 新 的 优化 器 行为 的 RDBMS 的 新 版 本 。 

Oracle 的 SQL 计划 管理 特性 是 处 理 与 执行 计划 变化 有 关 的 风险 ， 方 法 是 为 工作 负荷 维护 一 个 可 信 
的 执行 计划 集合 ， 并 仅 在 验证 这 些 改变 不 会 引起 任何 性 能 下 降 之 后 ， 才 分 阶段 地 进行 查询 优化 器 对 计 
划 的 改变 。 此 特性 有 三 个 组 件 : 

1. SQL 计划 基线 捕获 (SQL plan baseline capture), Oracle 可 以 捕获 工作 负载 的 执行 计划 并 为 每 条 
SQL 语句 存储 历史 计划 。 计 划 基 线 是 工作 负载 的 计划 集合 ， 具 有 可 靠 的 性 能 特性 并 且 是 未 来 计划 变动 
可 以 比较 的 基准 。 一 条 语句 可 以 拥有 不 止 一 个 基线 计划 。 

2. SQL 计划 基线 选择 (SQL plan baseline selection) 。 在 优化 器 为 SQL 语句 生成 计划 之 后 ， 它 检查 是 


否 存在 该 语句 的 基线 计划 。 如 果 语 句 在 基线 中 存在 但 新 的 计划 不 同 于 任何 已 有 计划 ， 则 使 用 优化 器 认 | 


为 是 最 好 的 基线 计划 。 新 生成 的 计划 将 添加 到 该 语句 的 计划 历史 中 ， 并 可 能 成 为 一 个 未 来 基线 的 一 
部 分 。 

3. SQL 计划 基线 演化 (SQL plan baseline evolution) 。 周 期 性 地 试 着 让 新 生成 的 执行 计划 成 为 在 基线 
中 可 信 计 划 的 一 部 分 是 有 意义 的 。Oracle 支持 带 验证 或 不 带 验证 地 将 新 的 计划 添加 到 基线 中 。 如 果 选 
择 验证 方式 ，Oracle 将 执行 新 生成 的 计划 ， 并 将 其 性 能 与 基线 比较 ， 以 确保 它 不 会 导致 性 能 衰退 . 
28.4.3 并行 执行 

通过 将 工作 分 配 到 一 台 多 处 理 器 计算 机 的 多 个 进程 中 ，Oracle 允许 并 行 地 执行 单条 SQL 语句 。 这 
个 特性 对 于 计算 密集 型 操作 尤其 有 用 ， 否 则 这 样 的 计算 将 花费 不 可 接受 的 长 时 间 来 执行 。 典 型 的 例子 
是 : 需要 处 理 大 量 数据 的 决策 支持 查询 、 数 据 仓库 中 的 数据 加 载 、 索 引 的 创建 以 及 重建 

为 了 通过 并 行 得 到 高 的 加 速 比 ， 将 语句 执行 中 所 涉及 的 工作 分 割 成 能 够 由 不 同 的 并 行 处 理 器 独立 
处 理 的 粒度 是 很 重要 的 。 根 据 操 作 类 型 的 不 同 ，Oracle 有 几 种 不 同 的 方法 来 对 工作 进行 分 割 |。 

对 于 访问 基本 对 象 ( 表 和 索引 ) 的 操作 ，Oracle 能 够 通过 数据 的 水 平 切 片 来 分 割 工 作 。 对 于 一 些 操 
作 ， 比 如 全 表 扫 描 ， 每 个 这 样 的 切片 可 以 是 一 个 范围 内 的 块 ， 每 个 并 行 的 查询 进程 从 范围 的 第 一 个 块 
开始 扫描 表 ， 到 最 后 一 个 块 结束 。 对 于 划分 表 上 的 某 些 操作 ,例如 索引 范围 扫描 ， 切 片 就 是 一 个 分 区 
基于 块 范围 的 并 行 更 灵活 ， 因 为 这 可 以 基于 各 种 标准 来 动态 决定 ， 而 不 受制 于 表 的 定义 

连接 可 以 通过 几 种 不 同 的 方式 来 并 行 化 。 一 种 方式 是 ， 把 连接 的 一 个 输入 划分 到 并 行进 程 中 ， 让 
每 个 进程 将 其 切片 与 连接 的 另 一 个 输入 做 连接 ， 这 就 是 18. 5. 2. 2 节 的 非 对 称 分 片 -复制 方法 。 例 如 ， 
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如 果 一 个 大 表 和 一 个 小 表 做 散 列 连 接 ，Oracle 把 大 表 划 分 到 进程 中 ， 并 将 小 表 的 副本 广播 给 每 个 进程 ， 
然后 每 个 进程 将 其 切片 与 小 表 进 行 连接 。 如 果 两 个 表 都 大 ， 把 它们 中 的 一 个 广播 给 所 有 进程 的 代价 将 
大 得 难以 承受 。 在 这 种 情况 下 ，Oracle 通过 下 述 方法 实现 并 行 化 : 通过 对 连接 列 取 值 的 散 列 把 数据 划 
分 到 进程 中 (18. 5. 2. 1 节 的 基于 划分 的 散 列 连接 方法 ) 。 每 个 表 被 一 组 进程 并 行 扫描 ， 输 出 的 每 一 行 送 
到 一 组 执行 连接 的 一 个 进程 中 。 这 些 进 程 中 的 哪 一 个 得 到 该 行 数据 ， 由 连接 列 值 上 的 散 列 函数 决定 。 
因此 ， 每 个 连接 进程 只 会 得 到 可 能 匹配 的 行 ， 并且 任何 可 能 匹配 的 行 不 会 在 不 同 的 进程 中 结束 。 

Oracle 按 执行 排序 的 列 上 的 取 值 范围 进行 并 行 排序 操作 ( 也 就 是 使 用 18. 5. 1 节 的 范围 划分 排序 ) 。 
每 个 参与 排序 的 进程 都 得 到 取 值 在 其 范围 内 的 行 ， 并 在 其 范围 内 将 这 些 行 排序 。 为 了 最 大 化 并 行 的 优 
势 ， 需 要 在 并 行进 程 中 尽 可 能 平均 地 划分 这 些 行 ， 这 就 出 现 了 确定 范围 边界 以 产生 好 的 数据 分 布 的 问 
题 。Oracle 通过 在 确定 范围 边界 之 前 对 排序 输入 中 的 行动 态 采样 出 一 个 子 集 来 解决 这 个 问题 。 

28.4.3.1 进程 结构 

SQL 语句 并 行 执行 中 的 进程 包括 一 个 协调 进程 和 许多 并 行 服务 器 进程 。 pride i 
务 器 分 配 任务 并 且 为 发 出 该 语句 的 用 户 进程 收集 和 返回 数据 。 并 行 度 是 并 行 的 服务 器 进程 的 数量 ， 这 
tee SORRERA, BAREA 
增加 ， 并 行 度 会 动态 下 降 。 

并 行 服务 器 按照 生产 者 /消费 者 模型 操作 。 当 处 理 某 条 语句 需要 一 系列 操作 时 ， 服 务 器 的 生产 者 集 
合 执行 第 一 个 操作 ， 并 把 结果 数据 送 给 消费 者 集合 。 比 如 ， 一 个 全 表 扫 描 后 接 排序 ， 且 并 行 度 为 32， 
那么 有 32 个 生产 者 服务 器 执行 表 的 扫描 ， 并 把 结果 送 给 32 个 消费 者 服务 器 ， 由 它们 执行 排序 。 如 果 
还 需要 后 继 操 作 ， 比 如 男 一 个 排序 ， 那么 两 组 服务 的 角色 互 换 。 原 先 执 行 表 扫描 的 服务 器 扮演 消费 者 
的 角色 ， 并 使 用 第 一 次 排序 产生 的 输出 来 执行 第 二 次 排序 。 这 样 ， 通 过 在 两 组 服务 器 之 间 来 回 传递 数 
据 ， 将 这 两 组 服务 器 的 角色 替换 为 生产 者 和 消费 者 ， 就 可 以 进行 一 系列 的 操作 。 服 务 器 之 间 的 通信 通 
过 共享 内 存 硬件 上 的 内 存 缓冲 区 进行 ， 或 者 通过 MPP( 无 共享) 配置 和 集群 (共享 磁盘 ) 系统 上 的 高 速 网 
络 连 接 进 行 。 

对 于 无 共享 的 系统 ， 进 程 之 间 访问 磁盘 数据 的 代价 并 不 相同 。 在 一 个 结 点 上 运行 的 可 以 直接 访问 
设备 的 进程 比 需要 通过 网 络 检索 数据 的 进程 能 更 快 地 处 理 在 该 设备 上 的 数据 。 在 给 并 行 执行 的 服务 器 
分 配 工作 时 ，Oracle 利用 了 有 关 设备 - 结 点 、 设 备 - 进程 邻近 关系 的 知识 ， 即 直接 访问 设备 的 能 力 。 
28.4.4 ”结果 高 速 缓存 

Oracle 的 结果 高 速 缓存 特性 允许 查询 或 查询 块 ( 如 : 查询 中 引用 的 视图 ) 的 结果 被 高 速 缓存 在 内 存 
中 ， 如 果 相同 查询 被 重新 执行 就 可 以 重用 。 在 底层 表 上 的 数据 更 新 会 使 高 速 缓存 的 结果 失效 ， 所 以 这 
个 特性 对 于 相对 静止 表 上 的 查询 且 查 询 结果 集 相 对 小 的 情况 最 合适 。 考 虑 一 个 使 用 的 例子 ，Web 页 面 
的 某 些 部 分 存放 在 数据 库 中 ， 相 对 于 它 的 访问 频率 是 不 经 常 改 变 的 。 对 于 这 样 一 个 应 用 ， 结 果 高 速 组 
存 是 比 使 用 物化 视图 更 轻 量 级 的 选择 ， 后 者 可 能 需要 显 式 地 创建 和 管理 新 的 持久 数据 库 对 象 。 


28.5 并 发 控制 与 恢复 

Oracle 支持 的 并 发 控制 和 恢复 技术 提供 了 许多 有 用 的 特性 。 
28. 5.1 并 发 控制 

Oracle 的 多 版 本 并 发 控制 机 制 是 基于 15.7 节 中 描述 的 快照 隔离 协议 。 只 读 查 询 被 赋 子 一 个 读 一 致 
性 数据 快照 ， 它 是 存在 于 特定 时 刻 的 数据 库 的 视图 ， 包含 所 有 在 那个 时 刻 提交 的 更 新 ， 不 包括 任何 在 
那个 时 刻 还 没有 提交 的 更 新 。 这 样 就 不 使 用 读 锁 ， 只 读 查 询 在 锁 的 方面 不 妨碍 其 他 数据 库 的 活动 。 

Oracle 同时 支持 语句 级 和 事务 级 的 读 一 致 性 : 在 开始 执行 一 条 语句 或 者 一 个 事务 (这 要 看 采用 何 种 
一 致 性 级 别 ) 时 ，Oracle 确定 当前 的 系统 改变 号 (System Change Number, SCN), SCN 实质 上 充当 一 个 时 
间 惟 ， 只 是 其 中 的 时 间 是 以 事务 提交 来 计算 的 ， 而 不 是 真实 时 间 。 

如 果 在 查询 的 过 程 中 发 现 一 个 数据 块 的 SCN 比 查 询 相关 的 SCN 更 高 ， 很 明显 在 原来 查询 的 SCN 的 
时 间 之 后 ， 该 数据 块 被 其 他 一 些 事务 修改 过 ， 这 些 事务 可 能 已 经 提交 ， 也 可 能 没有 提交 。 因 此 ， 这 个 
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块 中 的 数据 就 不 能 出 现在 存在 于 该 查询 的 SCN 时 刻 的 数据 库 的 一 致 性 视图 中 。 反 之 ， 必 须 使 用 这 个 块 
中 的 一 个 更 老 的 数据 版 本 ; 特别 是 具有 不 超过 该 查询 的 SCN 且 最 高 的 SCN 的 版 本 。Oracle 从 撤销 段 中 
找 回 数据 的 那个 版 本 (撤销 段 在 28. 5. 2 中 讲述 ) 。 因 此 ， 只 要 撤销 空间 足够 大 ， 即 使 在 自 查 询 开 始 执行 
以 来 数据 项 已 修改 了 好 几 次 ，Oracle 仍 能 返回 该 查询 的 一 致 性 结果 。 如 果 具 有 所 需 SCN 的 块 已 不 在 撤 
销 段 中 存在 ， 查 询 将 返回 一 个 错误 。 它 指明 在 给 定 系 统 上 的 活动 的 情况 下 ， 撤 销 表 空 间 的 大 小 设置 不 
合理 。 

在 Oracle 并 发 模型 中 ， 读 操作 并 不 阻碍 写 操作 ， 同 时 写 操作 也 不 阻碍 读 操作 ， 该 性 质 支持 高 并 发 
度 。 特 别 地 ， 这 种 方案 允许 在 有 大 量 事务 性 活动 的 系统 上 执行 长 时 间 运 行 的 查询 (例如 报表 查询 ) 。 在 
对 查询 使 用 读 锁 的 数据 库 系统 中 ， 这 种 情形 通常 会 出 问题 ， 因 为 查询 可 能 要 么 得 不 到 锁 ， 要 么 长 时 间 
封锁 大 量 数据 ， 从 而 阻碍 了 这 些 数 据 上 的 事务 性 活动 ， 并 降低 了 并 发 性 。( 有 些 系统 中 使 用 的 一 种 替代 
方法 是 采用 较 低 级 别 的 一 致 性 ， 比 如 二 级 一 致 性 ， 但 是 这 样 可 能 造成 不 一 致 的 查询 结果 。) 

Oracle 的 并 发 模型 用 作 闪 回 (flashback ) 特性 的 基础 。 这 种 特性 允许 用 户 在 其 会 话 中 设置 特定 的 
SCN 号 或 真实 时 间 ， 然 后 对 那个 时 刻 的 数据 执行 操作 (假定 那 时 候 的 数据 还 在 撤销 段 中 存在 ) 。 通 常 在 
一 个 数据 库 系统 中 ， 修 改 操作 一 旦 提交 ， 那 就 无 法 回 到 数据 原来 的 状态 ， 除 非 从 备份 中 执行 时 间 点 恢 
复 。 然 而 ,恢复 一 个 很 大 的 数据 库 的 开销 极 大 ， 尤 其 如 果 目 的 仅仅 是 为 了 找 回 被 用 户 不 小 心 删 掉 的 数 
据 项 。 闪 回 特性 提供 了 一 种 简单 得 多 的 机 制 来 处 理 用 户 错误 。 闪 回 特性 具有 将 一 个 表 或 一 个 完整 数据 
库 恢复 到 某 个 更 早 时 间 点 而 无 需 从 备份 中 恢复 的 能 力 、 当 数据 在 更 时 时间 点 上 存在 时 对 它们 执行 查询 
的 能 力 、 追 踪 一 行 或 多 行 随时 间 如 何 变化 的 能 力 、 在 事务 级 别 检查 数据 库 变化 的 能 力 。 

除了 通过 常规 的 撤销 (undo) 滞留 能 够 做 到 的 之 外 ,我们 可 能 希望 能 够 追踪 表 的 变化 。( 例如 ， 公 
司 管理 章程 可 能 需要 在 特定 年 限 内 可 以 追踪 这 样 的 变化 。) 为 了 这 个 目的 ， 可 以 通过 闪 回 归档 (flashback 
archive) 特性 来 追踪 一 个 表 ， 它 创建 一 个 表 内 部 的 历史 版 本 。 一 个 后 台 进 程 将 撤销 信息 转换 为 历史 表 中 
的 项 ， 这 可 用 于 提供 任意 长 时 期 内 的 内 回 功能 。 

Oracle 支持 两 种 ANSI/ISO 隔离 性 级 别 ， 读 已 提交 (read committed ) 和 可 串 行 化 (serializable) 。 它 不 
支持 读 脏 数 据 ， 因 为 这 也 不 需要 。 语 句 级 的 读 一 致 性 对 应 于 读 已 提交 隔离 性 级 别 ， 而 事务 级 的 读 一 致 
性 对 应 于 可 串 行 化 的 隔离 性 级 别 。 可 以 在 会 话 中 或 者 在 单独 的 事务 中 设置 隔离 性 级 别 。 默 认 的 是 语句 
级 别 的 读 一 致 性 ( 即 读 已 提交 ) 。 

Oracle 采用 行 级 别 封锁 ， 更 新 不 同 的 行 并 不 冲突 。 如 果 两 个 写 操作 试图 修改 同一 行 ， 那 么 一 个 必 
须 等 男 一 个 要 么 提交 ， 要么 回 深 ， 然 后 它 才 能 要 么 返回 一 个 写 冲突 错误 ， 要 么 开始 修改 该 行 ， 写 冲突 
错误 的 检测 基于 15.7 节 介 绍 的 最 先 更 新 者 胜 版 本 的 快照 隔离 (15. 7 节 还 描述 了 会 与 快照 隔离 同时 发 生 
的 非 可 串 行 化 执行 的 特定 情况 ， 并 概述 了 防止 这 种 问题 的 技术 ) 。 在 整个 事务 阶段 ， 封 锁 都 不 释放 。 

除了 用 行 级 别 封锁 来 防止 DML 活动 引起 的 不 一 致 性 之 外 ，Oracle 还 使 用 表 的 封锁 来 防止 DDL 活动 
引起 的 不 一 致 性 。 这 种 锁 防 止 了 当 一 个 用 户 有 一 个 未 提交 的 事务 正在 访问 某 个 表 时 ， 另 外 一 个 用 户 来 
删除 该 表 。Oracle 在 其 常规 的 并 发 控制 中 ， 并 不 使 用 锁 升级 来 把 行 锁 升级 为 表 锁 。 

Oracle 自动 检测 死 锁 ， 解 除 死 锁 的 方式 是 回 滚 陷 人 死 锁 中 的 一 个 事务 。 

Oracle 支持 自治 事务 ， 这 是 在 其 他 一 些 事务 之 内 产生 的 独立 事务 。 当 Oracle 调用 自治 事务 时 ， 它 
在 一 个 隔离 的 环境 中 产生 一 个 新 事务 。 在 控制 回 到 调用 事务 之 前 ， 该 新 事务 要 么 提交 ， 要 么 回 滚 。 
Oracle 支持 自治 事务 的 多 级 峙 套 。 

28.5.2 恢复 的 基本 结构 

在 28.5.1 节 描 述 的 Oracle 闪 回 技术 可 以 用 作 一 种 恢复 机 制 ， 但 Oracle 同样 支持 文件 物理 备份 媒介 
的 恢复 。 这 里 我 们 描述 这 种 更 传统 的 备份 和 恢复 形式 。 

要 了 解 Oracle 怎样 从 故障 (如 磁盘 前 溃 ) 中 恢复 ， 了 解 所 涉及 的 基本 结构 是 很 重要 的 。 除 了 包括 表 
和 索引 的 数据 文件 ， 还 有 控制 文件 、redo HE, JIRÉ redo 日 志 以 及 撤销 段 。 

控制 文件 包含 操作 数据 库 所 需 的 各 种 元 数据 ， 包 括 关于 备份 的 信息 。 

Oracle 在 redo 日 志 中 记录 了 数据 库 缓冲 区 中 所 有 的 事务 性 修改 ， 它 包括 两 个 或 者 更 多 的 文件 。 不 
管事 务 最 终 是 否 提交 ， 它 把 修改 作为 引发 该 修改 的 操作 的 一 部 分 记录 下 来 。 它 不 仅 记 录 表 中 数据 的 改 
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25, 还 记录 对 索引 和 撤销 段 的 改变 。 当 redo 日 志 填 完 后 ， 由 一 个 或 者 几 个 后 台 进 程 来 进行 归档 ( 如果 
数据 库 在 日 志 归 档 ( archivelog ) 模 式 下 运行 ) 。 

撤销 段 包 括 关于 数据 旧版 本 的 信息 ( 即 撤销 信息 ) 。 除 了 在 Oracle 的 一 致 性 模型 中 扮演 的 角色 之 
外 ， 这 些 信息 还 用 于 当 修 改 数据 项 的 事务 回 滚 时 ， 恢 复 这 些 数据 项 的 旧版 本 。 

为 了 能 够 从 存储 器 故障 中 恢复 ， 数 据 文件 和 控制 文件 应 该 定期 备份 。 备 份 频率 决定 了 在 最 坏 情况 
下 的 恢复 时 间 ， 因 为 如 果 备 份 是 旧 的 ， 就 要 花 更 长 的 时 间 来 恢复 。Oracle 支持 热 备份 ， 即 在 有 事务 性 
活动 的 联机 数据 库 上 执行 备份 。 

在 从 备份 中 恢复 的 期 间 ，Oracle 执行 两 个 步骤 来 达到 正好 在 故障 前 一 刻 存在 的 数据 库 的 一 致 性 状 
态 。 首 先 ，Oracle 通过 将 (已 存档 的 )redo 日 志 应 用 到 备份 上 向 前 滚 。 此 动作 将 数据 库 恢 复 到 故障 时 存 
在 的 状态 ， 但 是 由 于 redo 日 志 中 包含 未 提交 数据 ， 因 此 还 不 一 定 是 一 致 性 状态 。 第 二 步 ，Oracle 通过 
使 用 撤销 段 数 据 来 回 滚 未 提交 事务 。 这 样 数据 库 就 达到 一 致 的 状态 了 。 

自 最 后 一 次 备份 以 来 有 大 量 事务 性 活动 的 数据 库 上 进行 恢复 会 很 耗 时 。Oracle 支持 并 行 恢复 ， 利 


[182] 用 几 个 进程 同时 应 用 redo 信息 。Oracle 提供 了 一 个 图 形 化 用 户 界面 工具 一 一 恢复 管理 器 ( recovery 
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manager) ， 可 自动 执行 与 备份 和 恢复 相关 的 大 多 数 任务 . 
28.5.3 Oracle 数据 卫士 


为 了 保证 高 可 用 性 ，Oracle 提供 了 备用 数据 库 特性 一 一 数据 卫士 ( data guard)。( 该 特性 和 16.9 节 
中 讲述 的 远程 备份 相同 。) 备 用 数据 库 是 常规 数据 库 的 拷贝 ， 安 装 在 男 一 个 单独 的 系统 中 。 如 果 主 系统 
发 生 灾 难 性 故障 ， 那 么 备用 系统 被 激活 并 接管 控制 ， 从 而 减少 了 故障 对 可 用 性 的 影响 。Oracle 通过 不 
断 应 用 从 主 数据 库 传 来 的 归档 的 redo 日 志 ， 来 保持 备用 数据 库 是 最 新 的 。 备 用 数据 库 可 以 只 读 方 式 上 
线 ， 并 用 于 报表 和 决策 支持 查询 。 


28.6 系统 体系 结构 


每 当 数据 库 应 用 执行 SQL 语句 时 ， 就 有 一 个 操作 系统 进程 执行 数据 库 服务 器 中 的 代码 。 可 以 通过 
ACE Oracle 来 决定 该 操作 系统 进程 是 被 它 正 处 理 的 语句 所 独占 专用 ， 还 是 可 以 在 多 条 语句 间 共 享 。 后 
一 种 配置 称 为 共享 服务 器 (shared server) ， 在 进程 和 内 存 体系 结构 上 有 一 些 不 同 的 特性 。 我 们 将 先 讨论 
专用 服务 器 ( dedicated server) 体系 结构 ， 稍 后 讨论 多 线程 服务 器 体系 结构 。 

28.6.1 专用 服务 器 : 内 存 结构 

Oracle 所 用 的 内 存 主要 分 为 三 类 : 软件 代码 区 ( 它 是 Oracle 服务 器 代码 驻 留 的 内 存 的 部 分 ) 、 系 统 
全 局 区 (System Global Area, SGA) 和 程序 全 局 区 (Program Global Area, PGA) 。 

系统 给 每 个 进程 分 配 一 个 PGA 来 保存 其 局 部 数据 和 控制 信息 。 这 个 区 域 包含 各 种 会 话 数 据 的 堆栈 
空间 以 及 正在 执行 的 SQL 语句 所 用 的 私有 内 存 。 它 还 包括 执行 语句 时 可 能 进行 的 排序 和 散 列 操作 所 需 
的 内 存 。 这 类 操作 的 性 能 对 于 可 用 内 存 的 大 小 是 敏感 的 。 例 如 ， 与 必须 将 溢出 数据 存放 在 磁盘 上 的 散 
列 连 接 相 比 ， 可 以 在 内 存 中 执行 的 散 列 连接 要 比 需要 利用 磁盘 的 情况 更 快 。 由 于 可 能 有 大 量 活跃 的 排 
序 和 散 列 操作 同时 存在 (因为 存在 多 个 查询 ， 同 时 每 个 查询 内 存在 多 个 操作 ) ， 确 定 为 每 个 操作 分 配 多 
少 内 存 是 主要 的 ， 特 别 是 当 系 统 负载 可 能 波动 时 。 如 果 一 个 操作 不 必要 地 溢出 到 磁盘 ， 内 存 分 配 不 足 
会 导致 额外 的 磁盘 YO; 而 内 存 分 配 过 多 会 引起 系统 颠 敏 。Oracle 让 数据 库 管 理 员 为 可 用 于 这 些 操作 的 
内 存 总 量 指定 目标 参数 。 此 目标 的 大 小 通常 可 基于 系统 可 用 的 内 存 总 量 和 关于 这 些 内 存 应 该 如 何在 各 
种 Oracle 和 非 Oracle 活动 之 间 进 行 划分 的 一 些 计算 。Oracle 会 动态 决定 将 目标 内 可 用 内 存在 活跃 操作 
之 间 分 配 的 最 优 方 法 ， 以 最 大 化 吞吐 量 。 内 存 分 配 算法 知道 不 同 操作 的 内 存 与 性 能 之 间 的 关系 ， 试 图 
确保 尽 可 能 高 效 地 利用 可 用 内 存 。 

SGA 是 存放 用 户 间 共享 结构 的 内 存 区 域 。 它 由 几 种 主要 结构 组 成 ， 包 括 : 

。 缓冲 区 高 速 缓存 (buffer cache) 。 这 种 高 速 缓存 将 频繁 访问 的 数据 块 (来 自 表 或 索引 ) 保存 在 内 存 

中 ， 以 减少 执行 物理 磁盘 IO 的 需求 。 除 在 全 表 扫 描 时 的 块 访 问 之 外 ， 使 用 最 近 最 少 使 用 替换 
策略 。 但 是 ，Oracle 人 允许 建立 多 个 具有 不 同 数据 替换 策略 的 缓冲 池 。 有 些 Oracle 操作 绕 过 缓冲 
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区 高 速 缓存 ， 直 接 从 磁盘 读 取 数 据 。 
redo 日 志 缓冲 区 (redo log buffer) 。 这 种 缓冲 区 用 来 保存 还 没有 写 到 磁盘 上 的 redo 日 志 部 分 。 
共享 池 ( shared pool), Oracle 通过 最 小 化 每 个 用 户 所 需 的 内 存量 ， 来 寻求 最 大 化 的 、 可 以 并 发 
使 用 数据 库 的 用 户 数量 。 这 其 中 一 个 很 重要 的 概念 是 对 SQL 语句 和 用 PL/SQL 书写 的 过 程 化 代 
码 的 内 部 表示 的 共享 能 力 。 当 多 个 用 户 执行 相同 的 SQL 语句 时 ， 他 们 能 共享 表示 该 语句 执行 计 
划 的 大 多 数 数 据 结构 。 只 有 每 个 语句 调用 的 局 部 数据 才 需 要 放 在 私有 内 存 中 。 

表示 SQL 语句 的 数据 结构 中 的 可 共享 部 分 (包括 语句 文本 ) 存 放 在 共享 池 中 。 在 共享 池 中 
高 速 缓存 SQL 语句 也 节约 编译 时 间 ， 因 为 对 已 被 高 速 缓存 的 语句 的 新 调用 不 必 进 行 完整 的 编译 
过 程 。 判 断 SQL 语句 是 否 与 共享 池 中 所 存放 的 SQL 语句 相同 ， 是 基于 精确 的 文本 匹配 和 设置 特 
定 的 会 话 参数 来 进行 的 。Oracle 能 够 用 绑 定 变 量 来 自动 替换 SQL 语句 的 常量 ; 若 以 后 的 查询 除 
了 常量 值 外 都 与 共享 池 中 以 前 的 查询 是 一 样 的 ， 则 它们 匹配 。 

共享 池 还 高 速 缓存 了 字典 信息 和 各 种 控制 结构 。 高 速 缓存 字典 元 数据 对 缩短 SQL 语句 的 编 
译 时 间 很 重要 。 另 外 ， 共 享 池 用 于 Oracle 的 结果 高 速 缓存 特性 。 
28.6.2 专用 服务 器 : 进程 结构 

执行 Oracle 服务 器 代码 的 进程 有 两 种 : 执行 SQL 语句 的 服务 器 进程 ， 执 行 各 种 管理 以 及 与 性 能 相 
关 任 务 的 后 台 进 程 。 这 些 进程 中 有 些 是 可 选 的 ， 在 某 些 情况 下 ， 相 同类 型 的 多 个 进程 可 用 于 性 能 因素 。 
Oracle 能 够 生成 大 约 24 个 不 同类 型 的 后 台 进程 。 一 些 最 重要 的 后 台 进 程 有 : 

。 SEES (database writer) 进程 。 当 一 个 缓冲 区 从 缓冲 区 高 速 缓存 中 移出 时 ， 如 果 自 从 它 进 入 高 
速 缓 存 以 来 已 经 改动 过 ， 那 么 它 必须 写 回 到 磁盘 中 。 这 个 任务 就 由 数据 库 写 进程 来 执行 。 通 过 
释放 缓冲 区 高 速 缓存 中 的 空间 ， 有 利于 提高 系统 性 能 。 

e AAS (log writer) 进 程 。 日 志 写 进程 把 redo 日 志 缓冲 区 中 的 项 写 到 磁盘 上 的 redo 日 志文 件 中 
每 当 一 个 事务 提交 时 ， 它 还 把 一 条 提交 记录 写 到 磁盘 上 。 

e BA (checkpoint) 进程 。 当 出 现 检查 点 时 ， 检 查 点 进程 更 新 数据 文件 头 。 

© 系统 监控 (system monitor) 进程 。 该 进程 在 必要 时 执行 崩溃 恢复 。 它 还 执行 一 些 空间 管理 ， 回 收 
临时 段 中 未 使 用 的 空间 。 

© 进程 监控 (process monitor) 进程 。 该 进程 为 失败 的 服务 器 进程 执行 进程 恢复 ,释放 资源 并 执行 各 
种 清理 操作 。 

© RE (recoverer) 进程。 恢复 进程 处 理 失 效 ， 并 为 分 布 式 事务 执行 清理 。 

e 归档 (archiver) 进 程 。 每 当 在 线 日 志文 件 写 满 后 ， 归 档 进 程 把 在 线 redo 日 志文 件 复制 为 归档 redo 
日 志 。 

28.6.3 共享 服务 器 

通过 在 语句 之 间 共 享 服务 器 进程 ， 共 享 服务 器 配置 增加 了 给 定数 量 的 服务 器 进程 能 够 支持 的 用 户 

数量 。 它 与 专用 服务 器 体系 结构 主要 在 以 下 这 些 方 面 有 所 不 同 : 

。 一 个 后 台 分 派 进程 把 用 户 请 求 路 由 给 下 一 个 可 用 服务 器 进程 。 在 这 么 做 时 ， 它 使 用 了 SGA 中 的 
一 个 请 求 队列 和 一 个 响应 队列 。 分 派 进程 把 新 的 请 求 放 到 请 求 队列 中 ， 服 务 器 进程 可 以 从 中 选 
取 请 求 。 当 一 个 服务 进程 完成 某 个 请 求 时 ， 它 把 结果 放 到 响应 队列 中 ， 分 派 进程 可 从 中 选取 结 
果 并 返回 给 用 户 。 

© 由 于 一 个 服务 器 进程 在 多 条 SQL 语句 间 共 享 Oracle 并 不 在 PCA 中 保留 私有 数据 。 相 反 ， 它 把 
会 话 相关 的 数据 存放 在 SGA 中 。 

28.6.4 Oracle Real Application Clusters 


Oracle Real Application Clusters( RAC, Oracle 真实 应 用 集群 ) 特 性 允许 在 同一 个 数据 库 上 运行 多 个 
Oracle 实例 (回想 一 下 ， 在 Oracle 术语 中 ， 实例 是 后 台 进 程 和 内 存 区 域 的 结合 ) 。 这 个 特性 使 得 Oracle 
能 够 在 集群 和 MPP( 共享 磁盘 和 无 共享 ) 的 硬件 体系 结构 上 运行 。 将 多 个 结 点 集群 起 来 的 能 力 大 大 提高 
了 可 扩展 性 和 可 用 性 ， 这 在 联机 事务 处 理 和 数据 仓库 环境 中 都 很 有 用 。 


[1184] 





670 BARD 实例 研究 


这 个 特性 的 可 扩展 性 优点 是 很 明显 的 ， 因 为 越 多 的 结 点 意味 着 越 强 的 处 理 能 力 。 在 无 共享 体系 结 
构 中 ， 向 一 个 集群 添加 结 点 通常 需要 在 结 点 间 重 新 分 配 数据 。Oracle 使 用 了 共享 磁盘 体系 结构 ， 其 中 
所 有 结 点 都 能 访问 所 有 数据 ， 因 此 可 以 添加 更 多 结 点 到 RAC 集群 中 ， 而 无 需 担 心 怎样 在 结 点 间 划 分 数 
据 。Oracle 通过 诸如 邻近 关系 和 按 划 分 连接 这 样 的 特性 进一步 优化 了 对 硬件 的 使 用 。 

RAC 也 用 来 获得 高 可 用 性 。 如 果 一 个 结 点 失效 ， 应 用 程序 仍 可 利用 剩余 结 点 来 访问 数据 库 。 剩 余 
实例 将 自动 回 滚 在 失效 结 点 上 正 被 处 理 的 未 提交 事务 ， 以 防 它 们 阻碍 剩余 结 点 上 的 活动 。RAC 还 允许 
滚动 地 打 补 丁 ， 所 以 每 次 可 以 将 软件 补丁 应 用 到 一 个 结 点 上 而 无 需 数据 库 停机 。 

Oracle 的 共享 磁盘 体系 结构 避免 了 无 共享 体系 结构 在 关于 磁盘 上 的 数据 要 么 对 结 点 是 本 地 的 ， 要 
么 不 是 这 个 方面 所 存在 的 许多 问题 。 在 同一 个 数据 库 上 运行 多 个 实例 还 带 来 了 一 些 在 单 实例 情况 下 所 
不 存在 的 技术 问题 。 虽 然 有 时 可 能 将 一 个 应 用 在 多 个 结 点 间 进 行 划 分 ， 以 使 各 结 点 很 少 访问 同一 数据 ， 
但 总 有 重合 的 可 能 性 ， 这 会 影响 高 速 缓存 管理 。 为 了 实现 在 多 个 结 点 上 有 效 的 高 速 缓 存 管理 ，Oracle 
的 高 速 缓存 融合 (cache fusion) 特 性 允许 数据 块 使 用 内 部 连接 直接 在 不 同 实例 的 高 速 缓存 之 间 流 动 ， 而 
不 用 写 到 磁盘 上 。 

28.6.5 自动 存储 管理 器 

自动 存储 管理 器 ( Automatic Storage Manager, ASM) 是 Oracle 开发 的 一 个 容量 管理 器 和 文件 系统 。 
虽然 Oracle 可 以 与 其 他 容量 管理 器 和 文件 系统 以 及 原始 设备 一 起 使 用 ， 然 而 ASM 在 优化 性 能 的 同时 是 
为 Oracle 数据 库 特 别 设 计 的 用 于 简化 存储 管理 的 。 

ASM 管理 磁盘 的 集合 ， 称 为 磁盘 组 ( disk group) ， 并 对 数据 库 开 放 了 一 个 文件 系统 接口 。( 记 住 
Oracle 的 表 空 间 是 用 数据 文件 定义 的 。) 组 成 ASM 磁盘 的 实例 包括 磁盘 或 磁盘 阵列 的 分 区 e 
络 附属 文件 。ASM 将 数据 自动 拆 分 到 一 个 磁盘 组 中 的 磁盘 上 ， 并 为 不 同 层次 的 镜像 提供 若干 选择 . 

如 果 磁 盘 配 置 改变 了 ， 比 如 ， 为 增加 存储 容量 而 加 入 更 多 磁盘 时 ， 磁 盘 组 可 能 需要 重新 平衡 以 使 


(1186) 数据 均匀 分 布 在 所 有 磁盘 上 。 重 新 平衡 操作 可 以 在 数据 库 保 持 完全 操作 的 同时 在 后 台 完 成 ， 并 且 对 数 
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据 库 性 能 的 影响 最 小 。 
28.6.6 Oracle Exadata 
Exadata 是 一 组 可 以 运行 在 特定 类 型 存储 硬件 上 的 存储 器 阵列 CPU 上 的 Oracle 的 库 。 虽 然 Oracle 根 
本 上 基于 共享 磁盘 体系 结构 ，Exadata 在 如 下 方面 具有 无 共享 的 风格 : 某 些 通常 在 数据 库 服 务 器 上 执行 
的 操作 被 移 到 那些 只 能 访问 自己 本 地 数据 的 存储 单元 上 。( 每 个 存储 单元 由 多 个 磁盘 和 一 些 多 核 CPU 
组 成 。) 
将 特定 类 型 的 处 理 过 程 卸 载 到 存储 器 CPU 的 主要 好 处 包括 : 
o 它 允 许 对 可 用 的 处 理 能 力 的 量 进行 大 的 但 相对 经 济 的 扩展 。 
© 极 大 减少 了 需要 从 存储 单元 传送 到 数据 库 服 务 器 的 数据 量 ,， 这 是 非常 重要 的 ， 因 为 存储 单元 和 
数据 库 服务 器 之 间 的 带宽 通常 是 昂贵 的 ， 并 常常 是 一 个 瓶颈 。 
当 在 Exadata 存储 器 上 执行 查询 时 ， 需 要 检索 的 数据 量 减少 了 ， 这 得 益 于 若干 可 以 推送 到 存储 单元 
并 在 其 本 地 执行 的 技术 : 
© 投影 (projection) 。 一 个 表 可 以 有 几 百 个 列 ， 但 一 个 给 定 查询 可 能 只 需要 访问 它们 的 一 个 很 小 的 
子 集 。 存 储 单元 可 以 投影 掉 不 需要 的 列 且 只 将 相关 的 列 发 送 回 数据 库 服务 器 。 
© 表 过 滤 (table filtering) 。 数 据 库 服务 器 可 以 给 存储 单元 发 送 一 个 针对 表 的 谓词 列表 ， 且 只 将 匹 
配 这 些 谓词 的 行 回 传 给 服务 器 。 
© 连接 过 滤 (join filtering) 。 过 滤 机 制 允 许 使 用 布 隆 过 滤器 (Bloom filter) 形 式 的 谓词 ， 它 还 可 以 基 
于 连接 条 件 将 行 过 滤 掉 。 
总 地 来 说 ， 将 这 些 技术 秃 载 到 存储 单元 可 以 在 数量 级 上 加 速 查询 处 理 。 它 需要 存储 单元 除了 可 以 
将 常规 的 、 未 修改 的 数据 块 传 回 给 服务 器 ， 还 可 以 传 回 特 定 行 和 列 被 移 除 的 压缩 版 本 。 这 种 能 力 反 过 
来 要 求 存储 软件 能 够 理解 Oracle 的 块 格式 和 数据 类 型 ， 并 包含 Oracle 的 表达 式 和 谓词 计算 例 程 。 
除了 给 查询 处 理 提供 好 处 之 外 ，Exadata 也 可 以 通过 执行 块 级 别 的 修改 追踪 并 只 返回 修改 过 的 块 来 
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加 速 增 量 备份 。 当 创建 一 个 新 的 表 空间 时 ， 盘 区 的 格式 化 工作 也 被 和 印 载 给 了 Exadata 存储 器 。 
Exadata 存储 器 支持 所 有 的 Oracle 常规 特性 ， 一 个 数据 库 可 以 同时 包含 Exadata 和 非 Exadata 存 
储 器 。 


28.7 复制 、 分 布 以 及 外 部 数据 


Oracle 提供 对 具有 两 阶段 提交 的 事务 的 复制 和 分 布 的 支持 。 
28.7.1 复制 

Oracle 支持 几 种 类 型 的 复制 。( 参阅 19. 2. 1 节 关 于 复制 的 介绍 。) 其 中 的 一 种 是 ， 主 站 点 的 数据 以 
物化 视图 的 形式 复制 给 其 他 站 点 。 物 化 视图 并 不 需要 包含 主 站 点 上 的 所 有 数据 ， 例 如 ， 它 会 由 于 安全 
因素 而 排除 表 中 的 特定 列 。Oracle 支持 两 种 类 型 的 物化 视图 用 于 复制 : 只 读 的 和 可 更 新 的 。 可 更 新 的 
物化 视图 可 以 修改 ， 并 将 修改 传播 到 主 站 点 上 的 表 。 但 只 读 的 物化 视图 允许 的 视图 定义 范围 更 广 。 比 
如 只 读物 化 视图 能 用 主 站 点 表 上 的 集合 操作 来 定义 。 对 主 站 点 数据 的 修改 通过 物化 视图 刷新 机 制 传播 
到 副本 。 

Oracle 还 支持 同一 数据 有 多 个 主 站 点 ， 其 中 所 有 主 站 点 处 于 同等 地 位 。 被 复制 的 表 能 够 在 任何 一 
个 主 站 点 上 更 新 ， 并 将 此 更 新 传播 到 其 他 站 点 。 更 新 的 传播 可 以 是 同步 的 ， 也 可 以 是 异步 的 。 

对 于 异步 复制 ， 更 新 信息 成 批发 送 给 其 他 主 站 点 并 被 采用 。 由 于 相同 数据 可 以 被 不 同 站 点 修改 ， 
这 些 修改 可 能 相互 冲突 ， 这 就 可 能 需要 基于 某 些 商务 规则 的 冲突 解决 策略 。Oracle 提供 了 许多 内 置 的 
冲突 解决 方法 ， 如 果 需 要 它 也 允许 用 户 书写 他 们 自己 的 方法 。 

在 同步 复制 中 ， 一 个 主 站 点 上 的 更 新 操作 马上 被 传播 到 所 有 的 其 他 站 点 。 
28.7.2 分布 式 数 据 库 

Oracle 支持 跨越 多 个 在 不 同系 统 上 的 数据 库 的 查询 和 事务 。 通 过 网 关 的 使 用 ， 远 端 系统 可 以 包括 
JẸ Oracle 数据 库 。Oracle 具有 内 置 的 功能 来 优化 包含 了 不 同 站 点 上 的 表 的 查询 、 检 索 相 关 数据 并 返回 
结果 ， 就 好 像 这 是 个 标准 的 本 地 查询 一 样 。Oracle 还 通过 内 置 的 两 阶段 提交 协议 来 透明 地 支持 跨越 多 
个 站 点 的 事务 。 
28.7.3 外 部 数据 源 

Oracle 有 几 种 支持 外 部 数据 源 的 机 制 。 最 常见 的 用 途 是 在 数据 仓库 中 ， 从 事务 性 系统 定期 加 载 大 
量 数据 。 

28.7.3.1 SQL* Loader 

Oracle 有 一 个 直接 加 载 工具 SQL* 加 载 器 (SQL" Loader) ， 它 支持 从 外 部 文件 中 快速 并 行 加 载 大 量 数 
据 。 它 支持 很 多 种 数据 格式 ， 并 可 以 在 加 载 的 数据 上 进行 各 种 过 滤 操作 。 

28.7.3.2 外 部 表 

Oracle 允许 外 部 数据 源 ( 如 平面 文件 ) 像 普通 表 一 样 ， 在 查询 的 from 子 句 中 引用 。Oracle 通过 描述 
Oracle 列 类 型 以 及 从 外 部 数据 到 这 些 列 的 映射 的 元 数据 来 定义 外 部 表 ， 还 需要 访问 外 部 数据 的 访问 驱 
动 程序 。Oracle 为 平面 文件 提供 了 默认 的 驱动 程序 。 

外 部 表 特 性 主要 是 为 了 在 数据 仓库 环境 中 进行 抽取 、 转 换 和 加 载 (ETL) 操作 : 使 用 下 述 语 句 可 以 
将 数据 从 平面 文件 加 载 到 数据 仓库 中 : 


create table table as 
select... from < external table > 
where... 


通过 在 select 列表 或 where 子 句 中 添加 对 数据 的 操作 ,转换 和 过 滤 操 作 能 够 作为 同一 条 SQL 语句 
的 一 部 分 来 执行 。 由 于 这 些 操作 既 能 用 本 地 的 SQL 来 表达 ， 也 能 用 PL/SQL 或 Java 书写 的 了 清 数 来 表达 ， 
外 部 表 特性 提供 了 非常 强大 的 机 制 来 表达 各 种 数据 转换 和 过 滤 操 作 。 至 于 可 扩展 性 ， 可 以 通过 Oracle 
的 并 发 执行 特性 来 将 外 部 表 的 访问 并 发 化 。 

28.7.3.3 数据 抽取 导出 和 导入 

Oracle 提供 了 一 个 导出 工具 来 把 数据 和 元 数据 秃 载 到 转 储 文件 。 这 些 文件 是 使 用 一 种 专 有 格式 的 
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普通 文件 ， 可 以 移动 到 另 一 个 系统 并 使 用 相应 的 导 人 工具 加 载 到 男 一 个 Oracle 数据 库 。 


28.8 数据 库 管 理工 具 


Oracle 为 用 户 提供 了 一 系列 用 于 系统 管理 和 应 用 开发 的 工具 和 特性 。 在 最 近 发 布 的 Oracle P, Æ 
重 强调 了 可 管理 性 的 概念 ， 也 就 是 说 ， 减 少 创建 和 管理 Oracle 数据 库 的 各 个 方面 的 复杂 度 。 这 覆盖 许 
多 方面 的 努力 ， 包 括 数据 库 创建 、 调 优 、 空 间 管理 、 存 储 管理 、 备 份 与 恢复 、 内 存 管理 、 性 能 诊断 和 
工作 负载 管理 。 

28.8.1 Oracle 企业 管理 器 

Oracle 企业 管理 器 ( Oracle Enterprise Manager, OEM) 是 Oracle 用 于 数据 库 系统 管理 的 主要 工具 。 它 
提供 了 易于 使 用 的 图 形 化 用 户 界面 ， 支 持 与 管理 Oracle 数据 库 相 关 的 大 部 分 任务 ,包括 配置 、 性 能 监 
测 、 资 源 管理 、 安 全 管理 以 及 访问 各 种 向 导 。 除 了 数据 库 管理 ，OEM 还 提供 对 Oracle 应 用 和 中 间 件 软 
件 栈 的 集成 管理 。 

28.8.2 自动 工作 负载 存储 

自动 工作 负载 存储 (Automatic Workload Repository, AWR) 是 Oracle 实现 可 管理 性 的 基础 设施 的 核 
心 部 分 之 一 。Oracle 监控 数据 库 系统 上 的 活动 并 记录 与 工作 负载 和 资源 消耗 相关 的 各 种 信息 ， 并 按 定 
期 的 间隔 在 AWR 中 记录 它们 。 通 过 追踪 工作 负载 随时 间 变 化 的 特点 ，Oracle 可 以 检测 和 帮助 诊断 从 正 
常 行为 发 生 的 偏离 ， 如 一 个 查询 严重 的 性 能 退化 、 封 锁 竞 争 和 CPU 瓶颈 。 

在 AWR 中 记录 的 信息 为 各 种 向 导 提 供 了 基础 ， 这 些 向 导 提 供 对 系统 性 能 各 个 方面 的 分 析 以 及 如 
何 提高 性 能 的 建议 。Oracle 具有 SQL 调 优 的 向 导 、 创 建 访问 结构 (如 索引 和 物化 视图 ) 的 向 导 ， 以 及 内 
存 大 小 的 向 导 。Oracle 还 提供 段 碎 片 整理 和 undo 大 小 的 向 导 。 

28.8.3 ”数据 库 资 源 管理 

数据 库 管 理 员 需 要 能 够 控制 如 何在 各 个 用 户 或 用 户 组 之 间 分 配 硬 件 的 处 理 能 力 。 某 些 组 可 能 执行 
交互 式 查询 ， 则 响应 时 间 很 关键 ; 另 一 些 组 可 能 执行 长 程 (long-running) 报表， 它 可 以 在 系统 负载 低 
时 ， 作 为 后 台中 的 批 处 理工 作 运行 。 还 有 一 个 重要 方面 是 能 够 防止 用 户 不 小 心 提交 代价 特别 昂贵 的 即 
席 查 询 ， 这 样 的 查询 将 过 度 地 耽误 其 他 用 户 。 

Oracle 的 数据 库 资 源 管理 特性 允许 数据 库 管理 员 把 用 户 划 分 成 资源 消费 者 组 ， 每 组 有 不 同 的 优先 
级 和 性 质 。 比 如 ， 高 优先 级 的 交互 式 用 户 组 可 以 保证 至 少 60% 的 CPU。 剩 下 的 CPU， 加 上 高 优先 级 组 
的 60% 中 没有 使 用 的 任何 部 分 ， 可 以 在 优先 级 较 低 的 资源 消费 者 组 之 间 进 行 分 配 。 真 正 很 低 优先 级 的 
组 可 以 只 分 配 0% 的 CPU， 这 就 意味 着 这 个 组 提交 的 查询 ， 只 能 在 有 空闲 的 CPU 周期 可 用 时 才能 运行 。 
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可 以 为 各 个 组 设 定 并 行 执行 的 并 行 度 限制 。 数 据 库 管理 员 还 能 为 每 个 组 的 一 条 SQL 语句 运行 多 长 时 间 
设 定时 间 限 制 。 当 用 户 提交 语句 时 ， 资 源 管 理 器 估计 执行 这 条 查询 所 花费 的 时 间 ， 并 且 如 果 语 句 违反 
限制 就 返回 一 个 错误 。 资 源 管理 器 还 能 为 每 个 资源 消费 者 组 限制 同时 活路 的 用 户 会 话 数量 。 资 源 管理 
器 可 以 控制 的 其 他 资源 包括 undo 空间 。 


28.9 数据 挖掘 


Oracle 数据 挖掘 ( Oracle data mining) 提供 了 一 系列 将 数据 挖掘 过 程 艇 在 数据 库 内 部 的 算法 ， 既 可 以 
在 训练 数据 集 上 构建 模型 ， 也 可 以 将 该 模型 运用 到 对 实际 生产 数据 的 评分 中 。 与 使 用 其 他 数据 挖掘 引 
擎 相 比 ， 数 据 不 需要 离开 数据 库 是 一 个 重要 优势 。 将 潜在 很 大 的 数据 集 提 取出 来 并 插 人 到 一 个 单独 的 
引擎 中 ， 不 仅 很 麻烦 且 代 价 昂贵 ,还 可 能 阻碍 当 新 数据 进入 数据 库 时 就 即时 对 它们 进行 评分 。Oracle 
提供 用 于 有 指导 的 学 习 和 无 监督 指导 的 算法 ， 包 括 : 

© 分 类 一 一 朴素 贝 叶 斯 、 广 义 线性 模型 、 支 持 向 量 机 和 决策 树 。 

© 回归 一 一 支持 向 量 机 和 广义 线性 模型 。 

。 属性 重要 性 分 析 一 一 最 小 描述 长 度 。 

。 异常 检测 一 一 一 类 支持 向 量 机 。 
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o 聚 类 一 一 增强 的 k 均值 聚 类 和 正 交 的 划分 聚 类 。 

。 关联 规则 一 一 Apriori。 

。 特征 提取 一 一 非 负 的 矩阵 分 解 。 

Fab, Oracle 在 数据 库 内 部 提供 了 一 系列 的 统计 函数 ， 涵 盖 的 领域 包括 线性 回归 、 关 联 、 交 叉 表 、 
假设 检验 、 分 布 拟 合 和 Pareto 分 析 。 

Oracle 为 数据 挖掘 功能 提供 两 个 界面 ， 一 个 基于 Java， 另 一 个 基于 Oracle 的 过 程 性 语言 PL/SQL, 
一 旦 在 Oracle 数据 库 上 创建 了 一 个 模型 ， 它 可 以 转移 部 署 到 其 他 Oracle 数据 库 上 


文献 注解 
AX Oracle 产品 的 最 新 产品 信息 ,包括 相关 文档 ， 都 可 以 在 以 下 Web 站 点 找到 : http: // 


www. oracle. com 和 http; //technet. oracle. com, [1191] 
Oracle 用 于 为 操作 (如 散 列 和 排序 ) 分 配 可 用 内 存 的 智能 算法 在 Dageville 和 Zait [2002 | 中 讨论 。Murthy 

和 Banerjee[ 2003 ] 讨论 了 XML 模式 。Pass 和 Potapov[ 2003 ] 描 述 了 Oralce 中 的 表 压 缩 。Dageville 等 | 2004 ] 讲 

述 了 自动 的 SQL 调 优 。 优 化 器 的 基于 代价 的 查询 转换 框架 在 Ahmed 等 [2006 ] 中 介绍 。Ziauddin 等 [2008] 讨 

HOT SQL 计划 管理 特性 。Antoshenkov[ 1995 ] 描述 了 Oracle 中 使 用 的 字 节 对 齐 位 图 压缩 技术 ， 也 可 以 查阅 

Johnson[ 1999 ] 。 [1192] 
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IBM 公司 的 DB2 Universal Database 产品 家 族 包括 旗舰 数据 库 服 务 器 和 成 套 的 用 于 商务 智能 、 信 息 
集成 和 内 容 管 理 的 相关 产品 。DB2 Universal Database Server 可 用 于 多 种 硬件 和 操作 系统 平台 上 。 它 支持 
的 服务 器 平台 包括 诸如 大 型 主机 、 大 规模 并 行 处 理 器 (MPP) 和 大 型 对 称 多 处 理 器 (SMP ) 服务 器 这 样 的 
高 端 系统 ; 诸如 四 路 和 八路 SMP 这 样 的 中 等 规模 系统 ; 工作 站 ; 甚至 小 型 手持 设备 。 它 支持 的 操作 系 
统 包括 UNIX 变 体 ， 如 Linux, IBM AIX, Solaris 和 HP-UX， 以 及 Microsoft Windows, IBM MVS. IBM 
VM, IBM OS/400 和 许多 其 他 操作 系统 。DB2 Everyplace 版 本 支持 诸如 PalmOS 和 Windows CE 这 样 的 操 
作 系 统 。 甚 至 有 一 个 免费 的 DB2 版 本 ， 称 为 DB2 Express-C。 因 为 DB2 接口 和 服务 具有 可 移植 性 ， 应 用 
程序 可 以 从 低 端 平台 无 缝 移植 到 高 端 服务 器 。 除 了 核心 数据 库 引 擎 外 ，DB2 家 族 还 包括 一 些 其 他 产品 ， 
提供 工具 、 管 理 、 复 制 、 分 布 式 数据 访问 、 普 适 数据 访问 、OLAP 和 许多 其 他 特性 。 图 29-1 描述 了 这 
个 家 族 的 不 同 产品 。 





。 数 据 库 服务 器 。 内 容 管 理 
-DB2 UDB for Linux, Unix, Windows -DB2 Content Manager 
-DB2 UDB for z/OS -IBM Enterprise Content Manager 
-DB2 UDB for OS/400 。 应 用 开发 
“DRA UDB ORVNEVSE -IBM Rational Application 
* 商 务 智能 Developer Studio 
-DB2 Data Warehouse Edition -DB2 Forms for z/OS 
-DB2 OLAP Server -QMF 
-DB2 Alphablox 。 数 据 库 管理 工具 
-DB2 CubeViews l -DB2 Control Center 
-Dha telligent Minier -DB2 Admin Tool for z/OS 
机 -DB2 Performance Expert 
。 数 据 集成 -DB2 Query Patroller 
-DB2 Information Integrator -DB2 Visual Explain 
-DB2 Connect -DB2e (Everyplace) 
-Omnifind (For Enterprise Search) 











图 29-1 DB2 产品 家 族 


29.1 概述 


DB2 的 起 源 可 以 追溯 到 IBM 的 Almaden 研究 中 心 ( 当时 称 作 IBM San Jose 研究 实验 室 ) 的 System R 
项 目 。 第 一 个 DB2 产品 是 1984 EF IBM 大 型 主机 平台 上 发 布 的 ， 随 后 运行 于 其 他 平台 的 版 本 陆续 发 
布 。IBM 研究 成 果 在 下 述 领域 不 断 改进 DB2 产品 : 事务 处 理 ( 先 写 日 志和 ARIES 恢复 算法 ) 、 查 询 处 理 
和 优化 (Starburst) 、 并 行 处 理 (DB2 并 行 版 本 ) 、 主 动 数据 库 支 持 ( 约 束 和 触发 器 ) 、 高 级 查询 和 数据 仓 
库 技术 ， 例 如 物化 视图 、 多 维 聚 类 、“ 自 主 " 特性 和 对 象 - 关系 支持 (ADT、UDF ) 。 

因为 IBM 支持 很 多 服务 器 和 操作 系统 平台 ，DB2 数据 库 引擎 由 四 种 代码 基本 类 型 组 成 : (1) Linux, 
UNIX 和 Windows，(2)z/0S，(3)VM，(4)0S/400。 它 们 都 支持 一 个 共同 的 数据 定义 语言 SQL 和 管理 
接口 的 子 集 。 然 而 ， 由 于 这 些 引擎 的 平台 起 源 不 同 ， 它 们 多 少 存在 一 些 不 同 的 特征 。 本 章 重 点 集中 在 
支持 Linux, UNIX 和 Windows 的 DB2 Universal Database(UDB ) 引 擎 。 在 其 他 DB2 系统 中 有 意思 的 特定 
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特性 在 合适 的 章节 中 强调 。 

到 2009 年 为 止 ， 支 持 Linux, UNIX 和 Windows 的 DB2 UDB 的 最 新 版 本 是 版 本 9.7。DB2 9.7 版 本 
包括 若干 新 的 特性 ， 如 将 XML 的 原生 支持 扩展 到 无 共享 环境 、 对 表 和 索引 的 本 机 压缩 、 自 动 存储 管理 
和 对 过 程 化 语言 (如 SQL PL 和 Oracle 的 PL/SQL) 改进 的 支持 。 


29.2 ”数据库 设计 工具 


大 多 数 工业 数据 库 设 计 和 计算 机 辅助 软件 工程 (CASE) 工 具 都 可 以 用 来 设计 DB2 数据 库 。 特别 地 ， 
诸如 ERWin 和 Rational Rose 这 样 的 数据 建 模 工具 允许 设计 者 生成 DB2 特有 的 DDL 语法 。 比 如 ， 
Rational Rose 的 UML Data Modeler 工具 可 以 为 用 户 定义 类 型 生成 DB2 特有 的 create distinct type DDL if 
句 ， 并 可 以 在 随后 的 列 定义 里 使 用 。 大 部 分 设计 工具 还 支持 逆向 工程 特性 ， 读 取 DB2 的 目录 表 并 为 附 
加 操作 建立 逻辑 设计 。 这 些 工具 支持 约束 和 索引 的 生成 。 

DB2 使 用 SQL 提供 了 对 许多 逻辑 的 和 物理 的 数据 库 特 性 的 支持 。 这 些 特 性 包括 使 用 约束 、 触 
发 器 和 SQL 构造 的 递归 。 类 似 地 ， 通 过 使 用 SQL 语句 还 支持 一 些 物理 数据 库 特 性 ， 比 如 表 空 间 、 
缓冲 池 以 及 分 区 。 DB2 的 控制 中 心 的 图 形 化 用 户 界面 (The Control Center GUI) 工具 允许 设计 者 或 
管理 员 为 这 些 特性 发 布 恰当 的 DDL。 另 一 个 工具 叫 db2look， 人 允许 管理 员 获 得 一 整套 数据 库 DDL 
语句 ， 包 括 表 空间 、 表 、 索 引 、 约 束 、 和 触发 器 以 及 为 测试 或 复制 而 创建 精确 的 数据 库 模式 副本 而 
使 用 的 函数 。 

DB2 控制 中 心包 括 多 种 与 设计 和 管理 相关 的 工具 。 对 于 设计 ， 控 制 中 心 提供 了 服务 器 及 其 数据 库 、 
表 、 视 图 和 所 有 其 他 对 象 的 树 状 视图 。 它 还 允许 用 户 定义 新 的 对 象 ， 创 建 即 席 的 SQL 查询 并 查看 查询 
结果 。ETL、OLAP、 复 制 和 联邦 的 设计 工具 也 整合 在 控制 中 心中 。 整 个 DB2 家 族 都 支持 用 于 数据 库 定 
义 和 相 关 工 具 的 控制 中 心 。DB2 还 为 使 用 IBM Rational Application Developer 产品 和 Microsoft Visual 
Studio 产品 开发 的 应 用 提供 插件 模块 。 


29.3 SQL 的 变化 和 扩展 


DB2 为 数据 库 处 理 的 各 个 方面 提供 丰富 的 SQL 特性 集 。 许 多 DB2 特性 和 语法 为 SQL-92 或 
SQL-1999 标 准 提供 了 基础 。 在 本 节 中 ， 我 们 强调 在 DB2 的 UDB 版 本 8 中 的 XML 对 象 -关系 和 应 用 集 
成 特性 ， 还 有 一 些 来 自 版 本 9 的 新 特性 。 

29.3.1 XML 特性 


DB2 中 已 包含 了 丰富 的 XML 函数 集 。 下 面 列 出 了 几 个 可 以 用 在 SQL 中 的 重要 的 XML 函数 ， 作 为 
对 SQL 扩展 的 SQLZXML( 在 前 面 23. 6. 3 节 中 介绍 过 的 ) 的 一 部 分 ， 

e xmlelement。 用 给 定名 称 构建 元 素 标 记 。 例 如 酚 数 调用 xmlelement( book) 创建 了 book 元 素 

e xmlattributes。 给 元 素 构建 属性 集合 。 

e xmlforest。 通 过 变 元 构建 一 个 XML 元 素 序列 。 

© xmlconcat。 返 回 可 变数 量 的 XML 变 元 的 串 接 。 

e xmlserialize。 提 供 变 元 的 面向 字符 的 序列 化 版 本 。 

e xmlagg。 返 回 一 组 XML 值 的 串 接 。 

e xml2clob。 构 建 XML 的 字符 大 对 象 (clob ) 表示 。 然 后 这 个 cob 可 以 被 SQL 应 用 检索 

XML 函数 可 以 高 效 地 合并 在 SQL 中 ， 以 提供 扩展 的 XML 操纵 能 力 。 例 如 ， 假 设 有 人 需要 从 关系 
K orders , lineitem 和 product 为 第 349 号 订单 创建 购买 - 订单 的 XML 文档 。 在 图 29-2 中 我 们 给 出 了 用 来 
创建 这 样 一 份 购买 订单 的 带 XML 扩展 的 SQL 查询 。 结 果 输 出 如 图 29-3 所 示 。 
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| select xmlemement(name ‘PO’, 


xmlattributes(poid, orderdate), 
| (select xmlagg(xmlelement(name ‘item’, 
| xmlattributes(itemid, qty, shipdate), 
(select xmlelement(name ‘itemdesc’, 
xmlattributes(name, price)) 
from product 
where product.itemid = lineitem.itemid))) 
from lineiteni 
| where lineitem.poid = orders.poid)) 
from orders 
| where orders.poid= 349; 





29-2 DB2 SQL XML 查询 
<PO poid = "349" orderdate = "2004-10-01"> 
<item itemid="1", qty="10", shipdate="2004-10-03"~ 
<itemdesc name = "IBM ThinkPad T41", Price = “1000.00 USD"/> 
</item> 
</PO> 











图 29-3 id =349 的 XML 形式 的 购买 订单 


DB2 的 版 本 9 以 xml 类 型 的 形式 支持 XML 数据 的 本 地 存储 以 及 对 XQuery 语言 的 原生 支持 ， 引 入 
了 专门 的 存储 、 索 引 、 查 询 处 理 和 优化 技术 来 有 效 地 处 理 XML 数据 和 用 XQuery 语言 书写 的 查询 ， 并 
扩展 列 API 以 处 理 XML 数据 和 XQuery。 
29.3.2 数据 类 型 的 支持 

DB2 提供 对 用 户 自 定义 数据 类 型 (UDT) 的 支持 。 用 户 可 以 定义 distinct 或 structured 数据 类 型 ， 
distinct 数据 类 型 是 基于 DB2 内 置 数据 类 型 的 。 但 是 ， 用 户 可 以 为 这 些 新 的 类 型 定义 附加 的 或 替代 的 语 
义 。 比 如 ,用户 可 以 使 用 下 述 语句 定义 一 个 名 为 us_dollar 的 distinct 数据 类 型 ; 

create distinct type us_dollar as decimal(9, 2) ; 

接 下 来 ， 此 用 户 可 以 在 一 个 表 中 用 us_dollar 类 型 来 创建 一 个 字段 (比如 price) 。 查 询 现在 可 以 在 谓词 中 
使 用 这 个 类 型 的 字段 ， 如 下 所 示 : 


select product from us_sales 
where price > us_dollar (1000) ; 


structured 数据 类 型 是 通常 由 两 个 或 多 个 属性 组 成 的 复杂 对 象 。 例 如 ， 可 以 用 下 面 的 DDL 来 创建 名 
为 department_t 的 structured 类 型 : 


create type department_t as 
( deptname varchar (32) , 
depthead varchar (32) , 
faculty_count integer ) 
mode db2/sql ; 


create type point_i as 
(x_coord float, 
y_coord float) 
mode db2/sql; 


structured 类 型 可 用 于 定义 有 类 型 (typed ) 的 表 : 
create table dept of department_t; 
可 以 创建 一 个 类 型 层次 和 层次 中 继承 特定 方法 和 权限 的 表 。structured 类 型 还 可 用 于 在 表 的 列 中 定 
义 骨 套 属性 。 尽 管 这 样 的 定义 会 破坏 规范 化 准则 ,但 是 它 可 能 适合 于 面向 对 象 的 应 用 ， 这些 应 用 依赖 
于 对 象 上 的 封装 和 定义 良好 的 方法 。 
29.3.3 ”用户 自 定义 函数 和 方法 
另 一 个 重要 特性 是 用 户 可 以 定义 他 们 自己 的 函数 和 方法 的 能 力 。 随 后 这 些 函 数 可 以 用 在 SQL 语 
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句 和 查询 中 。 函 数 可 以 生成 标量 ( 单 属 性 ) 或 表 ( 多 属性 行 ) 作 为 它们 的 结果 。 用 户 可 以 用 create 
function 语句 注册 函数 (标量 的 或 是 表 的 )。 可 以 用 普通 的 程序 设计 语言 ，( 比如 C 或 Java) 或 是 诸如 
REXX 或 PERL 那样 的 脚本 来 书写 函数 。 用 户 自 定义 函数 (UDF) 可 以 在 保护 (fenced) 或 非 保 护 
(unfenced) 模式 下 操作 。 在 保护 模式 下 ， 函 数 由 一 个 单独 线程 在 它 自 己 的 地 址 空间 中 执行 。 EIER [1196 
护 模 式 下 ， 数 据 库 处 理 代理 允许 在 服务 器 地 址 空间 执行 函数 。UDF 可 以 定义 一 个 便签 本 (工作 ) 区 ， pa 
用 以 维护 跨越 不 同调 用 的 局 部 和 静态 变量 。 这 样 ，UDF 可 以 对 作为 其 输入 的 中 间 行 进行 有 效 的 操作 

在 图 29-4 中 ,我 们 展示 了 DB2 中 的 一 个 名 为 db2gse. CsegeFilterDist 的 UDF 定义 ， 它 指向 一 个 特定 的 
执行 实际 功能 的 外 部 方法 。 





create function db2gse.GsegeFilterDist ( 

operation integer, g1XMin double, ¢1XMax double, 
gl1YMin double, g1YMax double, dist double, 
g2XMin double, ¢2XMax double, g2YMin double, 
g2YMax double ) 

returns integer 

specific db2gse.GsegeFilterDist 

external name ‘db2gsefn!gsegeFilterDist’ 

language C 

parameter style db2 sql 

deterministic 

not fenced 

threadsafe 

called on null input 

no sql 

no external action 

no scratchpad 

no final call 

allow parallel 

no dbinfo; 


图 29-4 一 个 UDF 的 定义 


方法 是 定义 对 象 行为 的 另 一 种 特性 。 与 UDF 不 同 ， 它 们 用 特定 结构 的 数据 类 型 紧密 封装 。 通 过 使 
用 create method 语句 来 注册 方法 。 

DB2 同样 支持 对 SQL 的 过 程 化 扩展 ， 使 用 的 是 DB2 的 SQL PL 扩展 ， 包 括 过 程 、 函 数 和 控制 流 。 
(SQL 标准 的 过 程 化 特性 在 5. 2 节 中 介绍 过 。) 另 外 ， 到 版 本 9.7 为 止 ， 为 了 兼容 在 Oracle 上 开发 的 应 
FA, DB2 还 支持 很 多 Oracle 的 PL/SQL 语言 。 

29.3.4 KHR 

新 的 数据 库 应 用 需要 操纵 文本 、 图 像 、 视 频 以 及 其 他 类 型 数据 的 能 力 ， 这 些 数据 通常 是 相当 大 的 
数据 。DB2 通过 提供 三 种 不 同 的 大 对 象 (LOB ) 类 型 来 满足 这 些 需求 。 每 个 LOB 可 以 有 2GB 的 大 小 。 
DB2 中 的 大 对 象 是 : (1) Dit MARR (blob), (2) 单字 节 字符 大 对 象 (clob) ，(3 ) 双 字 节 字符 大 对 象 
(dbclob) 。DB2 将 这 些 LOB 作为 单独 的 对 象 来 组 织 ， 在 表 的 每 行 维护 指向 其 对 应 LOB 的 指针 。 根 据 应 [1198] 
用 需求 ， 用 户 可 以 注册 操纵 这 些 LOB 的 UDF, 

29. 3.5 索引 扩展 和 约束 

DB2 新 近 的 一 个 特性 允许 用 户 使 用 create index extension 语句 将 创建 索引 扩展 到 从 structured 数据 
类 型 生成 的 码 上 。 比 如 ,使 用 部 门 名 称 ， 通 过 生成 码 ， 用 户 可 以 在 基于 先前 定义 的 department_1 数据 类 
型 的 属性 上 创建 索引 。DB2 的 空间 扩展 器 使 用 索引 扩展 方法 来 创建 如 图 29-5 所 示 的 索引 。 

最 后 ， 用 户 可 以 利用 DB2 中 丰富 的 约束 检查 特性 集 来 增强 对 象 语义 ， 如 唯一 性 、 有 效 性 和 继承 。 
29.3.6 Web 服务 

DB2 可 以 将 Web 服务 集成 为 生产 者 或 消费 者 。 利 用 SQL 语句 ， 可 以 定义 一 个 Web 服务 来 调用 
DB2。DB2 中 内 置 的 Web 服务 引擎 可 处 理 作为 结果 的 Web 服务 调用 ， 并 生成 适当 的 SOAP 响应 。 例 如 ， 
如 果 一 个 叫做 GetRecentActivity ( cust_id) 的 Web 服务 调用 了 下 述 SQL， 结 果 应 该 是 该 用 户 最 后 的 事务 。 
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create index extension db2gse.spatial_index( 
gS1 double, gS2 double, 53 double) 
from source key(geometry db2gse.ST_Geometry) 
generate key using 
db2gse.GseGridldxKeyGen(geometry..srid, 
geometry..xMin, geometry..xMax, 
geometry..yMin, geometry..yMax, 
g51, 852, gS3) | 


| with target key(srsId integer, | 
lvl integer, gX integer, gY integer, xMin double, 
xMax double, yMin double, yMax double) - | 
search methods <conditions> <actions> 








图 29-5 DB2 中 的 空间 索引 扩展 


select irn_id, amount, date 
from transactions 

where cust_id = < input > 
order by date 

fetch first 1 row only; 


下 面 的 SQL 显示 了 DB2 作为 Web 服务 的 消费 者 的 情况 。 在 这 个 例子 中 ， 用 户 自 定义 函数 GetQuote( ) 
是 一 个 Web 服务 。DB2 使 用 内 置 的 Web 服务 引擎 来 生成 Web 服务 调用 。 在 这 个 例子 中 ，GetQuote 对 
portfolio 表 中 每 个 ticker_id 返回 一 个 数值 型 的 报价 值 。 
select ticker_id, Get(Quote( ticker_id) 
from portfolio; 
29.3.7 其 他 特性 
通过 定义 合适 的 UDF，DB2 还 支持 IBM 的 Websphere MQ 产品 。 读 和 写 接口 都 可 用 UDF 来 定义 
这 些 UDF 可 以 并 入 SQL 中 ， 以 对 消息 队列 执行 读 或 者 写 。 
从 版 本 9 开始 ，DB2 支持 通过 基于 标记 的 访问 控制 特性 进行 细 粒 度 的 授权 ， 其 作用 类 似 于 Oracle 
的 虚拟 私有 数据 库 ( 在 前 面 9.7.5 节 讲 述 过 ) 。 


29.4 ”存储 和 索引 


DB2 中 的 存储 和 索引 体系 结构 包括 文件 系统 或 磁盘 管理 层 、 管 理 缓冲 池 的 服务 、 数 据 对 象 ( 比如 
R), 、LOB 、 索 引 对 象 以 及 并 发 和 恢复 管理 器 。 在 这 一 节 中 我 们 概览 通用 的 存储 体系 结构 。 另 外 ， 在 下 
一 节 中 我 们 描述 DB2 版 本 8 的 一 个 新 的 特点 ， 叫 做 多 维 聚 集 。 

29.4.1 存储 体系 结构 

DB2 为 管理 逻辑 数据 库 表 提 供 的 存储 抽象 在 多 结 点 和 多 磁盘 环境 中 很 有 用 。 在 多 结 点 系统 中 可 以 
定义 结 点 组 来 支持 在 特定 结 点 集 上 的 表 划 分 。 这 使 得 在 将 表 分 区 分 配给 系统 中 不 同 结 点 时 具有 完全 的 
灵活 性 。 比 如 ， 大 表 可 能 划分 到 系统 中 的 所 有 结 点 上 ， 而 小 表 可 能 只 驻 留 在 单个 结 点 上 。 

在 一 个 结 点 内 ，DB2 使 用 表 空 间 来 组 织 表 。 一 个 表 空 间 包 括 一 个 或 多 个 容器 ， 容 器 是 对 目录 、 设 
备 或 文件 的 引用 。 一 个 表 空 间 可 以 包含 零 个 或 多 个 数据 库 对 象 ， 如 表 、 索 引 或 LOB。 图 29-6 说 明了 这 
些 概念 。 在 该 图 中 ， 为 一 个 结 点 组 定义 了 两 个 表 空 间 。humanres 表 空 间 分 配 了 四 个 容器 ， 而 sched 表 空 
间 只 有 一 个 容器 。employee 和 department 表 分 配给 了 humenres 表 空 间 ， 而 project RE sched 表 空 间 中 。 
采用 拆 分 (striping ) 将 employee 和 department 表 的 段 ( 盘 区 ) 分 配给 humenres 表 空间 的 容器 。DB2 允许 管 
理 员 创 建 系 统管 理 的 或 是 DBMS 管理 的 表 空 间 。 系 统管 理 空间 (SMS) 是 由 底层 操作 系统 维护 的 目录 或 
文件 系统 。 在 SMS 中 ，DB2 在 目录 中 创建 文件 对 象 ， 并 将 数据 分 配给 每 个 文件 。 数 据 管 理 空间 ( DMS) 
是 DB2 控制 的 原始 设备 或 预 分 配 的 文件 。 这 些 容 器 的 大 小 既 不 能 增长 也 不 能 缩小 。DB2 自己 创建 分 配 
映射 并 管理 DMS 表 空 间 。 在 这 两 种 情况 下 ， 页 的 一 个 盘 区 是 空间 管理 的 单位 。 管 理 员 可 以 为 表 空 间 选 
择 盘 区 大 小 。 
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结 点 组 MyDepts 


表 空 间 humanres 


department employee project 





图 29-6 DB2 中 的 表 空 间 与 容器 


作为 一 种 默认 行为 ，DB2 支持 跨 不 同 容 器 的 拆 分 。 例 如 ， 当 数据 插入 到 一 个 新 建 的 表 中 时 ， 分 配 
第 一 块 盘 区 给 容器 。 一 旦 这 块 盘 区 满 了 ， 下 一 个 数据 项 以 轮转 方式 分 配给 下 一 个 容器 。 拆 分 提供 了 两 
个 重要 的 好 处 : 并 行 WO 和 负载 均衡 。 
29.4.2 缓冲 池 
每 个 表 空间 可 以 与 一 个 或 者 多 个 缓冲 池 相关 联 ， 以 管理 像 数据 和 索引 这 样 的 不 同 对 象 。 缓 冲 池 是 
维护 对 象 在 内 存 中 副本 的 通用 共享 的 数据 区 域 。 这 些 对 象 在 缓冲 池 中 通常 组 织 成 页 进行 管理 。DB2 允 
许 用 SQL 语句 来 定义 缓冲 池 。 通 过 将 缓冲 池 的 配置 参数 选 为 自动 设置 ，DB2 版 本 8 具备 在 线 地 并 且 自 
动 增长 或 者 缩减 缓冲 池 的 能 力 。 管 理 员 能 够 给 缓冲 池 增 加 更 多 页 面 或 者 缩减 它 的 大 小 ， 而 不 停止 数据 
库 的 活动 。 
create bufferpool < buffer-pool > … [1201] 
alter bufferpool < buffer-pool > size <n > 


DB2 还 支持 预 取 ( prefetching) 和 使 用 单独 线程 的 异步 写 ( asynchronous write) 。 数 据 管理 器 部 件 基 于 
查询 访问 模式 触发 对 数据 和 索引 页 的 预 取 。 例 如 ， 表 扫描 总 会 触发 预 取 数 据 页。 索引 扫描 能 触发 索引 
页 的 预 取 ， 如 果 它 们 以 聚集 模式 访问 ， 还 会 触发 数据 页 的 预 取 。 预 取 的 数量 和 预 取 的 大 小 是 需要 根据 
磁盘 数 和 表 空 间 中 的 容器 数 来 初始 化 的 可 配置 参数 。 

29.4.3 表 、 记 录 和 索引 

DB2 把 关系 数据 作为 页 中 的 记录 来 组 织 。 图 29-7 展示 了 一 个 表 的 逻辑 视图 及 其 相关 索引 。 这 个 表 
包含 了 一 组 页 。 每 页 包含 一 组 记录 ， 它 们 要 么 是 用 户 数据 记录 ， 要 么 是 特殊 的 系统 记录 。 表 的 零 页 包 
含 了 关于 表 及 其 状态 的 特殊 系统 记录 。DB2 使 用 一 条 称 为 空闲 空间 控制 记录 (Free Space Control Record, 
FSCR ) 的 空间 映射 记录 来 寻找 表 中 的 空闲 空间 。FSCR 记录 通常 包含 一 个 500 页 的 空间 映射 。FSCR 项 
是 一 个 位 掩 码 ， 提 供 页 中 剩余 空间 可 能 性 的 大 致 指示 。 插 和 人 或 更 新 算法 必须 通过 执行 页 中 可 用 空间 的 
物理 检查 来 验证 FSCR 项 。 

索引 也 使 用 页 来 组 织 ， 这 些 页 中 包含 了 索引 记录 和 指向 子 页 面 和 兄弟 页 面 的 指针 。DB2 内 部 提供 
对 B+* 树 索引 机 制 的 支持 。B 树 索引 包含 内 部 页 和 叶 结 点 页 。 索 引 在 叶 结 点 级 有 双向 指针 来 支持 正 向 
和 反 向 扫描 。 叶 结 点 页 包含 指向 表 中 记录 的 索引 项 。 表 中 每 条 记录 都 能 用 其 页 面 和 槽 的 信息 来 唯一 地 
标识 ， 称 为 记录 标识 符 或 RID。 

DB2 在 索引 定义 中 支持 “包括 列 ”(include column) 。 例 如 : 


create unique index I1 on TI(C1) include (C2) ; 


包括 进去 的 索引 列 使 得 DB2 在 任何 可 能 的 时 候 可 以 扩展 对 “index-only" 查询 处 理 技术 的 使 用 。 附 加 
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指令 如 minpctused 和 pctfree 可 用 于 控制 索引 页 的 合并 及 初始 空间 分 配 。 


逻辑 索引 视图 








] 每 一 个 第 500 页 包含 
另 一 个 FSCR 


更 多 用 户 记 录 





RID ( 记录 ID) =#3, #2 


图 29-7 DB2 中 的 表 和 索引 的 逻辑 视图 


图 29-8 展示 了 DB2 中 典型 的 数据 页 格式 。 每 个 数据 页 包括 一 个 页 头 和 一 个 权 目 录 。 覃 目录 是 一 个 
有 255 个 项 的 数组 ， 它 指向 页 中 记录 的 偏 移 量 。 图 中 展示 了 473 号 页 在 偏 移 量 为 3800 处 包含 记录 0 
偏 移 号 为 3400 处 包含 记录 2。 页 1056 在 偏 移 号 为 3700 处 包含 记录 1， 这 是 一 个 指向 记录 <473, 2> 的 
前 向 指针 。 因 此 ， 记 录 <473，2 > 是 条 溢出 记录 ， 作 为 对 原始 记录 <1056, 1> 的 更 新 操作 的 结果 而 创 
建 。DB2 支持 不 同 的 页 规模 ， 如 4KB 、8KB 、16KB 和 32KB。 但 是 ， 每 页 中 仅 能 包含 255 个 用 户 记录 。 
较 大 的 页 规模 在 诸如 表 中 包含 许多 列 的 数据 仓库 那样 的 应 用 中 是 有 用 的 。 较 小 的 页 规模 对 具有 频繁 更 
新 的 操作 型 数据 是 有 用 的 。 


、、3 个 字 节 1 个 字 节 





自由 空间 (无 需 
页 重组 即 可 用 * ) 








内 符 的 自由 空间 
(在 线 页 重组 后 
可 用 * ) 














* 例 外 : 未 提交 删除 


所 保留 的 任何 空间 。 表 空间 创建 时 设置 
都 不 可 用 


图 29-8 DB2 中 数据 页 和 记录 的 布局 


29.5 SHERIK 


本 节 对 MDC 的 主要 特性 提供 简要 的 概述 。 有 了 这 个 特性 ， 可 以 通过 指定 一 个 或 多 个 码 作为 维 

1202| 来 构建 DB2 的 表 ， 沿 着 这 些 维 来 聚 徐 表 的 数据 。 为 此 DB2 包括 了 一 个 称 作 organize by dimensions 

1203| 的 子 句 。 例 如 ， 下 面 的 DDL 描述 了 一 张 销售 表 ， 通 过 storeld, year( orderDate) 和 itemld 属性 作为 维 
来 组 织 。 
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create table sales( store/d int, 

orderDate date , 

shipDate date , 

receiptDate date, 

region int, 

itemld int, 

price float 

yearOd int generated always as year( orderDate) ) 
organized by dimensions( region, yearOd, itemld) ; 


每 个 这 样 的 维 都 可 以 由 一 个 或 多 个 列 组 成 ， 类 似 于 索引 码 。 事 实 上 ,“ 维 块 索引 ”( 在 后 面 描述 ) 为 
每 个 指定 的 维 自动 生成 并 用 于 快速 有 效 地 访问 数据 。 如 果 需 要 的 话 ， 会 自动 生成 一 个 包含 所 有 维 码 列 
的 复合 块 索引 ， 并 用 来 在 插入 和 更 新 活动 中 维护 数据 的 聚 簇 。 

维 值 的 每 个 唯一 组 合 构成 了 一 个 逻辑 "单元 ” ， 它 在 物理 上 组 织 成 页 的 块 ， 其 中 块 是 磁盘 上 一 组 连 
续 的 页 。 包 含 在 其 中 一 个 维 块 索引 上 具有 特定 码 值 的 数据 所 在 的 那些 页 的 块 集 合 称 为 "切片 ” 。 表 的 每 
一 页 正好 是 某 个 块 的 一 部 分 ， 并且 表 的 所 有 块 都 包含 相同 数目 的 页 ， 也 就 是 块 的 大 小 。DB2 将 块 大 小 
与 表 空 间 的 盘 区 大 小 相关 联 ， 因 此 块 边界 可 以 联合 盘 区 边界 。 

图 29-9 表明 了 这 些 概 念 。 这 个 MDC 表 是 沿 着 维 year( orderDate) ©, region 和 itemld HRN. 1X 
个 图 表示 了 一 个 在 每 个 维 属性 上 只 有 两 个 值 的 简单 逻辑 立方 体 。 事 实 上 ， 维 属性 可 以 容易 地 扩展 到 大 
量 的 值 而 无 需 任何 管理 。 图 中 子 立 方 体 代 表 逻 辑 单 元 。 表 中 的 记录 存储 在 块 中 ， 块 包含 磁盘 上 相当 于 
一 个 盘 区 的 连续 页 。 在 图 中 ， 块 用 带 阴 影 的 椭圆 来 代表 ， 并 且 根 据 在 表 中 分 配 的 盘 区 的 逻辑 顺序 来 编 
号 。 我 们 只 显示 了 用 维 值 <197，Canada，2 > 标识 的 单元 的 几 个 数据 块 。 格 中 的 一 列 或 一 行 代表 某 个 
特定 维 的 切片 。 例 如 ,在 region f LER IE“ Canada” 的 所 有 记录 都 位 于 立方 体 中 由 “Canada” 列 定义 的 
切片 所 包含 的 块 中 。 事 实 上 ， 该 切片 的 每 个 块 只 包含 region 字段 为 “Canada” 的 记录 。 


region 





图 29-9 一 个 MDC 表 的 物理 分 布 的 逻辑 视图 


29.5.1 块 索引 

在 我 们 的 例子 中 ， 维 块 索引 创建 在 每 个 year( orderDate) 、region 和 itemld 属性 之 上 。 每 个 维 块 案 引 
和 传统 B 树 索引 的 构造 方式 相同 ， 不 同 的 是 在 叶 结 点 层次 ， 码 指向 块 标 识 符 (BID ) 而 不 是 记录 标识 符 
(RID) 。 因 为 每 个 块 潜在 地 包含 许多 记录 页 ， 这 些 块 索引 比 RD 索引 要 小 得 多 ， 而 且 只 有 当 向 一 个 单 
元 中 加 入 一 个 新 块 时 ,或 者 已 存在 块 为 空 且 从 一 个 单元 中 移 除 时 ， 才 需要 更 新 这 些 块 案 引 。 一 个 切片 ， 
或 者 包含 页 面 的 块 集合 (这 些 页 面 的 所 有 记录 具有 一 个 维 中 的 特定 码 值 ) ， 在 相关 联 的 维 块 索引 中 由 一 
个 该 码 值 的 BID 列表 来 表示 。 图 29-10 分 别 以 region 和 itemld 维 的 特定 值 为 例 说 明了 块 的 切片 。 





o ”通过 使 用 一 个 生成 函数 来 创建 维 。 
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a) region “Canada” 的 维 块 索 引 项 


BID List 
Key ae 
fos fade fm fe fm] | me | oe | 








b) itemld = 1 的 维 块 索引 项 
图 29-10 HRI 
在 上 面 的 例子 中 ， 要 找到 包含 了 在 region 维 上 取 值 为 "Canada” 的 所 有 记录 的 切片 ， 我 们 要 在 region 
维 块 索引 中 查找 这 个 码 值 ， 找 到 如 图 29-10a 所 示 的 一 个 码 。 这 个 码 正好 指向 对 于 特定 值 的 BID 集合 . 
29.5.2 HS} 
块 映 射 也 是 和 表 相 关联 的 。 块 映射 记录 了 属于 表 的 每 个 块 的 状态 。 一 个 块 可 能 处 于 多 个 状态 中 ， 
例如 使 用 中 (in use) 、 空 闲 (free) 、 加 载 (loaded) 、 需 要 执行 约束 (requiring constraint enforcement ) 。 数 
据 管理 层 使 用 块 的 状态 来 确定 多 种 处 理 选择 。 图 29-11 展示 了 表 的 块 映射 的 例子 。 


[of [als lse fre] ss] 12] 9] ]ss]s6] 7] 20] 9] 





elele [ [elele [el [vle] [elel |-|- 
E 29-11 块 映射 项 

块 映射 中 的 元 素 0 表示 MDC 图 表 中 的 块 0。 它 的 可 用 性 状态 为 “U”， 表 明 它 正 在 使 用 中 。 然 而 ， 
它 是 一 个 特殊 块 并 且 不 包含 任何 用 户 记录 。 块 2、3、9、10、13、14 和 17 没有 在 表 中 使 用 ， 在 块 映射 
中 被 认为 是 “F" 或 者 空闲 。 块 7 和 18 刚刚 加 载 进 表 中 。 块 12 先前 被 加 载 并且 需 要 在 其 上 执行 约束 
检查 。 
29. 5.3 设计 考虑 

MDC 的 一 个 至 关 重 要 的 方面 是 选择 合适 的 维 集合 来 聚 簇 一 个 表 ， 以 及 合适 的 块 尺寸 参数 来 使 空间 
使 用 最 小 化 。 如 果 维 和 块 尺寸 选择 得 当 ， 那 么 聚 徐 的 好 处 表现 为 高 性 能 和 易于 维护 。 另 一 方面 ， 如 果 
选择 得 不 正确 ， 性 能 会 下 降 而 且 空间 的 使 用 可 能 会 很 糟 。 可 以 开发 许多 的 调谐 钮 器 来 组 织 表 。 这 些 包 
括 变化 维 的 数目 、 变 化 一 个 或 多 个 维 的 粒度 、 变 化 块 的 尺寸 ( 盘 区 尺寸 ) 以 及 包含 表 的 表 空 间 的 页 面 大 
小 。 一 个 或 多 个 技术 这 样 的 技术 可 以 联合 使 用 以 确定 对 表 的 最 佳 组 织 方 式 。 
29.5.4 对 现 有 技术 的 影响 

人 们 很 自然 地 会 问 新 的 MDC 特性 是 否 对 普通 表 有 不 利 影响 或 失去 某 些 现 有 的 DB2 特性 。 所 有 现 
有 的 特性 ， 例 如 二 级 RID 索引 、 约 束 、 触 发 器 、 定 义 物化 视图 以 及 查询 处 理 选项 ， 对 MDC 表 都 是 可 用 
的 。 因此， 除了 它们 的 增强 的 聚 艇 和 处 理 能 力 ，MDC 表 就 像 普通 表 一 样 。 


29.6 查询 处 理 和 优化 


DB2 的 查询 编译 器 将 查询 转化 为 一 棵 操作 树 。 查 询 操作 树 在 执行 时 用 于 查询 处 理 。DB2 支持 一 套 
丰富 的 查询 操作 ， 这 使 它 可 以 考虑 最 佳 的 处 理 策 略 ， 并 对 执行 复杂 查询 任务 提供 灵活 性 。 

图 29-12 和 图 29-13 展示 了 DB2 中 的 一 个 查询 和 与 之 关联 的 查询 计划 。 这 是 一 个 来 自 TPC-H 基准 
测试 的 有 代表 性 的 复杂 查询 (查询 5)， 它 包含 了 几 次 连接 和 聚集 。 为 这 个 特定 例子 选取 的 查询 计划 相 
当 简 单 ， 因 为 没有 为 这 些 表 定义 索引 和 其 他 辅助 结构 ， 如 物化 视图 。DB2 提供 了 各 种 “解释 " 工具， 包 
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括 控制 中 心 的 一 个 强大 的 可 视 化 解释 特性 ， 能 帮助 用 户 理解 查询 执行 计划 的 细节 。 图 中 给 出 的 查询 计 
划 就 是 以 该 查询 的 可 视 化 解释 为 基础 的 。 可 视 化 解释 使 得 用 户 可 以 理解 查询 计划 的 不 同 操作 的 代价 和 
其 他 相关 性 质 。 





—— ‘TPCD Local Supplier Volume Query (Q5) | 
select n_nanmie, sum(l extendedprice*(1-l discount)) as revenue | 
from tpcd.customer, tpcd.orders, tpcd.lineitem, 
tpcd.supplier, tpcd.nation, tpcd.region 

where ccustkey = o_custkey and 

o_orderkey = Lorderkey and | 

Lsuppkey = ssuppkey and 

cnationkey = s_nationkey and 

s.nationkey = n_nationkey and 

nregionkey = r_regionkey and 

rname = MIDDLE EAST’ and 

oorderdate >= date(’1995-01-01’) and 

oorderdate < date(’1995-01-01’) + 1 year 
group by nname 
order by revenue desc; 











29-12 SQL 查询 
结果 


排序 
归并 连接 
索引 扫描 
排序 排序 j 
! 
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in 
29-13 DB2 的 查询 计划 (图 形 化 解释 ) 
所 有 SQL 查询 和 语句 都 转化 为 查询 树 ， 无 论 它们 有 多 人 么 复杂 。 查 询 树 的 基 操 作 或 者 叶 结 点 操作 对 
数据 库 表 中 的 记录 进行 操作 ， 这 些 操作 也 称 为 访问 方法 。 查 询 树 的 中 间 操 作 包 括 关系 代数 运算 ， 如 连 
接 、 集 合 运算 和 聚集 。 树 的 根 结 点 产生 查询 或 SQL 语句 的 结果 。 
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29.6.1 存 取 方 法 
DB2 支持 关系 表 上 的 一 个 全 面 的 存 取 方法 集 。 存 取 方 法 的 列表 包括 : 
。 表 扫 描 (table scan) 。 这 是 最 基本 的 方法 ， 逐 页 地 执行 对 表 中 所 有 记录 的 访问 。 
。 索引 扫描 (index scan) 。 用 索引 来 选 出 符合 查询 的 特定 记录 。 使 用 索引 中 的 RID 来 访问 符合 条 
件 的 记录 。 当 DB2 发 现 了 某 种 顺序 访问 模式 时 ， 就 检测 可 能 性 来 预 取 数 据 页 。 
© 块 索引 扫描 (block index scan) 。 这 是 用 于 MDC 表 的 新 的 访问 方法 。 使 用 其 中 一 个 块 索引 来 扫描 
MDC 数据 块 的 一 个 特定 集合 。 在 块 表 扫描 操作 中 访问 和 处 理 符合 要 求 的 块 。 
© 仅 用 索引 (index only) 。 在 这 种 情况 下 ， 索 引 包 含 查询 所 需 的 所 有 属性 。 因 此 ， 扫 描 索 引 项 就 足 
够 了 。 这 种 仅 用 索引 的 技术 通常 是 一 个 性 能 较 好 的 解决 方案 。 
© 列表 预 取 (list prefetch) 。 当 需要 对 有 大 量 RID 的 非 聚 簇 索 引进 行 扫 描 时 ， 这 种 访问 方法 是 很 好 
的 选择 。DB2 在 RID 上 有 一 个 排序 操作 ， 并 按 排 好 的 次 序 从 数据 页 中 取 记 录 。 排 序 访 问 将 IO 
模式 从 随机 变 为 顺序 ， 并 提供 了 预 取 机 会 。 列 表 预 取 已 被 扩展 到 也 能 够 处 理 块 索 引 。 
块 和 记录 索引 的 “与 ”(block and record index ANDing) 。 当 DB2 决定 可 用 多 于 一 个 索引 来 限制 基 
表 中 满足 条 件 的 记录 的 数目 时 ， 会 采用 这 种 办 法 。 最 有 选择 性 的 索引 会 被 处 理 用 来 生成 一 个 的 
BID 或 RID 列表 。 然 后 处 理 具 有 次 选择 性 的 索引 来 返回 满足 条 件 的 BID 或 RID。 只 有 出 现在 索 
引 扫 描 结果 的 交集 (AND 运算 ) 中 的 BID 或 RID 才 有 资格 进行 进一步 处 理 。 索 引 的 AND 运算 的 
结果 是 满足 条 件 的 BID 或 RID 的 一 个 很 小 的 列表 ， 用 来 从 基 表 中 获取 相应 记录 。 
块 和 记录 索引 排序 ( block and record index ordering) 。 如 果 能 够 用 两 个 或 多 个 块 或 记录 索引 来 满 
EH OR 运算 符 组 合成 的 查询 谓词 ， 就 可 以 使 用 这 种 策略 。DB2 通过 执行 排序 ， 然 后 获取 记录 
的 结果 集 来 消除 重复 的 BID 或 RID, OR 索引 已 经 扩展 来 考虑 块 和 RID 索引 的 结合 情况 
查询 的 所 有 选择 和 投影 谓词 通常 都 下 推 到 访问 方法 上 上。 另外， 为 了 减少 指令 路 径 ， 在 “下 推 " 模 式 
中 DB2 会 执行 特定 的 操作 ， 如 排序 和 聚集 。 
MDC 特性 利用 为 块 索引 扫描 、 块 索引 预 取 、 块 索引 的 “与 "以 及 块 索引 的 “或 ”而 改进 的 新 的 存 取 
方法 集合 来 处 理 数据 块 。 
29.6.2 连接、 聚集 和 集合 运算 
DB2 支持 许多 用 于 这 些 运 算 的 技术 。 对 于 连接 ，DB2 可 以 选择 垦 套 循环 、 排 序 合 并 和 散 列 连接 技 
术 。 为 了 描述 连接 和 集合 的 二 元 运算 ,我 们 使 用 “外 部 ” 表 和 “内 部 ” 表 的 概念 来 区 分 两 个 输入 流 。 当 内 
部 表 非 常 小 或 者 可 以 在 连接 谓词 上 使 用 一 个 索引 来 访问 时 ， 艇 套 循 环 技术 是 有 用 的 。 排 序 归并 连接 和 
散 列 连接 技术 用 于 涉及 大 的 外 部 表 和 内 部 表 的 连接 。 集 合 运算 是 用 排序 和 归并 技术 来 实现 的 。 归 并 技 
术 在 并 的 情况 下 消除 重复 ， 而 在 交 的 情况 下 转发 重复 。DB2 还 支持 所 有 类 型 的 外 连接 运算 。 
只 要 有 可 能 ，DB2 以 早期 的 或 “下 推 " 的 模式 处 理 聚 集运 算 。 比 如 ， 分 组 聚集 可 以 通过 将 聚集 合并 
到 分 类 阶段 来 执行 。 连 接 和 聚集 算法 可 以 利用 现代 CPU 中 使 用 面向 块 的 和 高 速 缓存 敏感 的 技术 的 超标 
量 处 理 。 
29.6.3 对 复杂 SQL 处 理 的 支持 
DB2 最 重要 的 一 个 方面 是 它 以 可 扩展 的 方式 使 用 查询 处 理 基 本 结构 来 支持 复杂 SQL 运算 。 这 些 复 
杂 SQL 技术 包括 对 深层 伦 套 和 关联 查询 以 及 约束 、 参 照 完整 性 和 触发 器 的 支持 。 因 为 大 多 数 这 样 的 动 
作 被 构建 到 查询 计划 中 ，DB2 能 够 进行 调节 并 对 更 大 数量 的 这 类 约束 和 动作 提供 支持 。 约 束 和 完整 性 
检查 作为 在 插入 、 删 除 或 更 新 的 SQL 语句 上 的 查询 树 操作 来 建立 。DB2 还 支持 用 内 置 触 发 器 来 维护 物 
化 视图 。 
29. 6.4 多 处 理 器 查询 处 理 特性 
为 了 支持 SMP( 即 共享 内 存 ) 、MPP( 即 无 共享 ) 和 SMP( 即 共享 磁盘 的 ) 集群 模式 的 查询 处 理 ，DB2 
用 控制 和 数据 交换 原 语 扩展 了 查询 操作 的 基本 集合 。DB2 将 “ 表 队 列 " 抽 和 象 用 于 在 不 同 结 点 或 在 相同 结 
点 上 的 线程 之 间 的 数据 交换 。 表 队列 被 当 作 缓冲 区 使 用 ， 它 使 用 广播 、 一 对 一 或 定向 多 播 方法 将 数据 
重 定向 到 合适 的 接收 端 。 控 制 操作 用 来 创建 线程 并 协调 不 同 进 程 和 线程 的 操作 
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在 所 有 这 些 模式 中 ，DB2 利用 一 个 协调 进程 来 控制 查询 操作 和 收集 最 终结 果 。 如 果 需 要 协调 进程 
还 可 以 执行 一 些 全 局 数据 库 处 理 动作 。 合 并 局 部 聚集 结果 的 全 局 聚集 操作 就 是 一 个 例子 。 子 代理 或 从 
属 线程 在 一 个 或 多 个 结 点 上 执行 基本 数据 库 操 作 。 在 SMP 模式 下 ， 当 共享 数据 时 子 代 理 使 用 共享 主 存 
在 这 些 操作 之 间 同 步 。 在 MPP 模式 下 ， 在 执行 期 间 表 队列 机 制 为 不 同 结 点 间 的 同步 提供 了 缓冲 区 和 流 
控制 。DB2 使 用 广泛 的 技术 来 进行 优化 并 高 效 处 理 在 MPP 或 SMP 环境 下 的 查询 。 图 29-14 展示 了 一 个 
在 4 结 点 MPP 系统 中 执行 的 简单 查询 。 在 这 个 例子 中 ，sales 表 被 划分 在 4 个 结 点 已 ，…，P, 上 。 这 个 
查询 通过 生产 代理 ( spawning agent) 来 执行 ， 该 代理 在 每 个 这 样 的 结 点 上 执行 ， 以 便 扫 描 和 过 滤 该 结 点 
上 sales 表 中 的 行 ( 叫 做 函数 转移 ) ， 结 果 行 发 送 到 协调 进程 结 点 。 


SQL query: select * from sales where quantity > 10 


。 分 布 子 段 
。 表 队列 (TQ ) 接收 
。 绑 定 


子 段 
。 RWI] (sales ) 
。 谓词 ( quantity>10 ) 
扫描 sales 扫描 sales 。TQ 发 送 到 协调 进程 
过 滤 gquantity>10 。 ”过滤 guantity>10 
发 送 到 协调 进程 ” 发 送 到 协调 进程 

图 29-14 使 用 函数 转移 的 DB2 MPP 查询 处 理 





29.6.5 查询 优化 

为 了 进行 转换 和 优化 ，DB2 的 查询 编译 器 使 用 查询 的 一 种 内 部 表示 ， 称 为 查询 图 模型 (QCM ) 。 解 
析 完 SQL 语句 之 后 ，DB2 在 QCM 上 执行 语义 转换 来 实施 约束 、 参 照 完整 性 和 触发 器 。 这 些 转 化 的 结 
果 是 增强 的 QGM。 下 一 步 ，DB2 试图 执行 查询 重 写 转换 ， 这 通常 被 认为 是 有 益 的 。 重 写 规则 在 适当 的 
时 候 激活 以 执行 所 需 转换 。 重 写 转换 的 例子 包括 (1) 相关 子 查询 的 去 除 相 关 ，(2) 使 用 提前 (early-out ) 
处 理 将 特定 子 查询 转换 为 连接 ，(3) 适 当 的 时 候 将 group by 操作 下 推 到 连接 以 下 ，(4) 对 于 原始 查询 的 
某 些 部 分 使 用 物化 视图 。 

查询 优化 器 部 件 使 用 这 种 改进 和 转换 后 的 QCM 作为 其 优化 的 输入 。 优 化 器 是 基于 代价 的 ， 并 使 用 
一 个 可 扩展 的 、 规 则 驱动 的 框架 。 优 化 器 可 以 配置 成 能 在 不 同 级 别 的 复杂 度 上 进行 操作 。 在 最 高 级 ， 
它 使 用 动态 规划 算法 来 考虑 所 有 查询 计划 的 选项 并 挑选 出 代价 最 优 的 计划 。 在 中 间 级 ， 优 化 器 不 考虑 
特定 的 计划 、 访 问 方 法 (比如 索引 ”或 ” ) 或 重 写 规则 。 在 复杂 度 的 最 低级 ， 优 化 器 使 用 简单 的 贪心 启发 
式 方 法 来 选择 一 个 好 的 但 不 一 定 最 佳 的 查询 计划 。 优 化 器 使 用 查询 处 理 操作 的 细节 模型 ， 包 括 内 存 大 
小 和 预 取 ， 来 得 到 对 WO 和 CPU 开销 的 准确 估计 。 它 依赖 数据 统计 来 佑 计 这 些 操作 的 基数 和 选择 率 。 
DB2 人 允许 用 户 得 到 列 级 分 布 的 细节 直方 图 并 用 runstats 工具 将 列 进行 组 合 。 细 节 直 方 图 包含 了 关于 最 


频繁 出 现 的 值 以 及 属性 的 基于 分 位 数 表示 的 频率 分 布 的 信息 。 优 化 器 生成 一 个 内 部 查询 计划 ， 被 看 作 [21 


是 对 于 特定 优化 层 的 最 佳 查询 计划 。 这 个 查询 计划 被 查询 处 理 引擎 转换 成 查询 算 子 和 相关 数据 结构 的 
线程 。 


29.7 物化 的 查询 表 


在 Linux, UNIX 和 Windows 中 以 及 在 z/OS 平台 上 ，DB2 支持 物化 视图 。 物 化 视图 可 以 是 任何 定义 
在 一 个 或 多 个 表 或 者 视图 上 的 一 般 视图 。 物 化 视图 是 有 用 的 ， 因 为 它 维护 视图 数据 的 持久 拷贝 使 得 查 
询 处 理 得 更 快 。 在 DB2 中 物化 视图 称 为 物化 的 查询 表 ( Materialized Query Table，MQT)。 如 图 29-15 中 
的 例子 所 示 ，MQT 是 通过 使 用 create table 语句 来 指定 的 。 

在 DB2 中 ，MQT 可 以 引用 其 他 MOT 来 建立 依赖 视图 的 树 或 者 森林 。 这 些 MOT 具有 很 高 的 可 扩展 
性 ， 它 们 可 以 在 MPP 环境 中 划分 并 且 可 以 有 MDC 聚 簇 码 。 如 果 数 据 库 引 擎 能 够 将 查询 无 缝 路 由 到 
MQT， 并 且 如 果 数 据 库 引擎 在 任何 可 能 的 情况 下 能 够 高 效 地 维护 它们 ，MQT 是 最 有 价值 的 。DB2 同时 
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提供 了 这 两 种 特性 。 





create table emp dept(dept id integer, entpid integer, 
emp_name varchar(100), mgr_id integer) as 
select dept_id, emp-id, emp_name, mgr-id 
from employee, department 
data initially deferred 
refresh immediate — — (or deferred) 
maintained by user —— (or system) 


图 29-15 DB2 物化 的 查询 表 








29.7.1 查询 路 由 到 MQT 


DB2 中 的 查询 编译 器 的 基本 结构 完美 地 适合 于 发 挥 a 
MOT 的 全 部 功能 。 内 部 的 QCM 模型 允许 编译 器 对 输入 ER 
查询 和 可 用 MQT 定义 进行 匹配 ， 并 选择 适当 的 MOT HE 
行 考虑 。 匹 配 之 后 ， 编 译 器 为 了 优化 考虑 几 种 选择 ， 包 (验证 重 路 由 的 可 能 性 ) 
括 基本 查询 以 及 合适 的 MOT 重 路 由 版 本 。 优 化 器 在 选 igi 


出 最 优 执行 版 本 之 前 对 这 些 选择 进行 循环 遍历 。 重 路 由 


和 优化 的 整个 流程 如 图 29-16 所 示 。 | MQT 候 选 匹配 阶段 m 


29.7.2 MQT 的 维护 


只 有 数据 库 引擎 提供 有 效 的 维护 技术 时 ，MQT 才 是 
有 用 的 。 有 两 方面 需要 维护 : 时 间 和 开销 。 在 时 间 方面 
有 丙种 选择 ， 立即 和 站 过 。DB2 对 这 丙种 选择 者 支持 。 EC S 


如 果 选 择 立 即 维护 ， 系 统 就 会 创建 内 部 触发 器 并 编译 到 


源 对 象 的 insert, update 或 delete 语句 中 以 处 理 对 依赖 | 优化 阶段 


的 MQT 的 更 新 。 在 延迟 维护 的 情况 下 ， 被 更 新 的 表 转 EL 


移 到 完整 性 模式 ， 必 须 给 出 一 条 显 式 的 refresh 语句 来 

执行 维护 。 在 开销 方面 的 选择 是 ， 增 重型 和 完全 型 。 增 

量 型 维护 是 指 只 有 最 近 更 新 的 行 才 会 用 于 维护 。 完 全 型 图 29-16 DB2 中 的 MQT 匹配 和 优化 
维护 是 指 整个 MQT 从 它 的 源 进行 更 新 。 图 29-17 “PAB 

阵 显示 了 这 两 个 方面 以 及 沿 着 这 些 方面 最 有 用 的 选择 。 例 如 ， 除 非 源 非常 小 ， 否 则 立即 维护 和 完全 维 
护 是 不 相 容 的 。DB2 还 允许 由 用 户 来 维护 MQT。 在 这 种 情况 下 ，MQT 的 更 新 通过 用 户 使 用 SQL 或 工具 
执行 显 式 的 处 理 来 确定 。 








图 29-17 DB2 中 的 MQT 维护 选项 


下 面 的 命令 提供 了 一 个 简单 的 例子 ， 在 对 物化 视图 emp_dept 的 一 个 源 执行 加 载 操作 后 ， 对 其 执行 
延迟 维护 。 


load from newdata. txt of type del 
insert into employee ; 


refresh table emp_dept 
29.8 DB2 中 的 自治 特性 
DB2 UDB 为 简化 数据 库 的 设计 和 管理 提供 了 许多 特性 。 自 治 计算 包括 一 系列 技术 ， 这 些 技术 允许 
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计算 环境 自治 管理 ， 且 在 面 对 安 全 性 、 系 统 负荷 或 其 他 因素 方面 发 生 外 部 和 内 部 变化 时 减少 外 部 依赖 
增强 自治 计算 有 益 于 许多 主题 领域 ,例如 配置 、 优 化 、 保 护 以 及 监控 。 下 面 几 节 简要 描述 了 配置 和 优 
29. 8.1 配置 

DB2 提供 对 自动 调整 各 种 内 存 和 系统 配置 参数 的 支持 。 例 如 ， 像 缓冲 池 大 小 和 排序 堆 大 小 这 样 的 
参数 可 以 自动 指定 。 在 这 种 情况 下 ，DB2 监控 系统 并 根据 工作 负载 特征 缓慢 地 增加 和 缩减 这 些 堆 存储 
空间 的 大 小 。 

29. 8.2 优化 

辅助 数据 结构 (索引 、MQT) 和 数据 组 织 特性 (划分 、 聚 徐 ) 是 提高 DB2 中 数据 库 处 理性 能 的 重要 方 
面 。 在 过 去 ， 数 据 库 管 理 员 (DBA) 必须 使 用 经 验 和 公认 的 指导 方针 来 选择 有 意义 的 索引 、MQT 、 分 区 
码 以 及 聚 簇 码 。 给 定 潜在 的 选择 数目 ， 即 使 最 好 的 专家 也 不 可 能 在 短 时 间 内 为 给 定 工 作 负载 找到 这 些 
特性 的 正确 组 合 。DB2 包含 了 一 个 设计 向 导 ， 对 所 有 这 些 特性 提供 基于 工作 负载 的 建议 。 设 计 向 导 顾 
问 工具 使 用 优化 技术 自动 分 析 工 作 负 载 以 给 出 一 组 建议 。 设 计 向 导 的 命令 语法 是 : 

db2advis -d <DB name> -i <workloadfile > -m MICP 
BR — m” 允许 用 户 指定 如 下 选项 : 

。 MM 一 一 物化 的 查询 表 。 

。 一 一 索引 。 

e C—— ik, BI MDC, 

© 了 一 一 划分 码 选择 。 

这 个 向 导 在 这 些 建 议 中 充分 利用 DB2 查询 优化 框架 的 能 力 。 它 使 用 输入 的 工作 负载 以 及 对 建议 的 
规模 和 时 间 上 的 约束 作为 其 参数 。 倘 若 它 利用 DB2 的 优化 框架 ， 它 对 底层 数据 的 模式 和 统计 信息 就 会 
有 全 面 的 了 解 。 该 向 导 使 用 若干 组 合 技术 来 识别 索引 、MQT、MDC 以 及 划分 码 以 提高 给 定 工作 负载 的 
性 能 。 

优化 的 另 一 方面 是 均衡 系统 的 处 理 负 载 。 尤 其 是 某 些 工 具 会 增加 系统 负载 并 导致 用 户 工作 负载 性 
能 的 极 大 降低 。 倘 若 在 线 工 具 是 主要 发 展 趋势 ， 就 需要 对 工具 的 负载 消耗 进行 均衡 。DB2 包含 一 个 工 
具 负 载 抑制 机 制 。 这 种 抑制 技术 基于 反馈 控制 理论 。 它 利用 特定 控制 参数 不 断 地 调整 和 抑制 备份 工具 
的 性 能 。 


29.9 工具 和 实用 程序 


DB2 为 易于 使 用 和 管理 提供 了 许多 工具 。 这 些 核 心 工 具 集 由 于 来 自 供应 商 的 大 量 工具 扩大 和 增 
强 了 。 

DB2 控制 中 心 ( DB2 Control Center) 是 使 用 和 管理 DB2 数据 库 的 主要 工具 。 控 制 中 心 在 许多 工作 站 
平台 上 运行 。 它 由 诸如 服务 器 、 数 据 库 、 表 和 索引 这 样 的 数据 对 象 组 织 而 成 。 它 包含 面向 任务 的 接口 
来 执行 命令 并 允许 用 户 生 成 SQL 脚本 。 图 29-18 显示 了 控制 中 心 主 面板 的 屏幕 截图 。 这 个 屏幕 截图 展 
示 了 结 点 Crankarm 上 DB2 实例 中 的 Sample 数据 库 的 一 系列 表 。 管 理 员 可 以 使 用 菜单 来 调用 一 套 部 件 
工具 。 控 制 中 心 的 主要 部 件 包 括 命令 中 心 、 脚 本 中 心 、 日 志 、 许 可 证 管理 、 报 警 中 心 、 性 能 监控 器 、 
可 视 化 解释 、 远 程 数据 库 管理 、 存 储 管理 和 复制 支持 。 命 令 中 心 允 许 用 户 和 管理 员 发 出 数据 库 命令 和 
SQL。 脚 本 中 心 允 许 用 户 运行 交互 式 构成 的 或 来 自 文 件 的 SQL 脚本 。 性 能 监控 器 允许 用 户 监视 数据 库 
系统 中 的 各 种 事件 并 获得 性 能 快照 “敏捷 指南 ”(SmartCuides ) 提供 配置 参数 和 安装 DB2 系统 的 帮助 。 
存储 过 程 构建 器 帮助 用 户 开 发 并 安装 存储 过 程 。 可 视 化 解释 允许 用 户 获得 查询 执行 计划 的 图 形 化 视图 。 
索引 向 导 为 管理 员 提 供出 于 性 能 因素 的 索引 建议 。 
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其 他 工具 的 图 标 
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图 29-18 DB2 控制 中 心 








内 容 
面板 


虽然 控制 中 心 是 许多 任务 的 综合 界面 ，DB2 也 提供 对 大 多 数 工具 的 直接 访问 。 诸 如 解释 工具 、 解 
释 表 和 图 形 化 解释 那样 的 工具 为 用 户 提供 了 查询 计划 的 详细 分 解 。 用 户 还 允许 修改 统计 数据 (如 果 人 多 


许 的 话 ) 来 产生 最 佳 查询 计划 。 


有 许多 工具 提供 给 管理 员 。DB2 为 加 载 、 导 入 、 导 出 、 重 组 、 重 分 布 和 其 他 数据 相关 的 实用 程序 
提供 全 面 支持 。 它 们 大 部 分 都 支持 增 量 和 在 线 的 处 理 能 力 。 例 如 ， 人 们 可 以 在 在 线 模式 下 发 布 一 条 加 


载 命 令 ， 以 允许 应 用 程序 并 发 地 访问 表 的 原始 内 容 。DB2 的 实用 程序 完全 能 够 运行 在 并 行 模式 下 。 


此 外 ，DB2 支持 许多 工具 ， 例 如 : 

© 用 于 维护 数据 库 活动 的 审计 追踪 的 审计 设施 。 

。 用 来 控制 不 同 应 用 优先 级 和 执行 时 间 的 主管 设施 。 
© 用 来 管理 系统 中 查询 作业 的 查询 巡视 器 设施 。 

。 用 于 调试 的 跟踪 和 诊断 设施 。 

© 用 于 在 系统 执行 时 跟踪 资源 和 事件 的 事件 监视 设施 。 


1215 面向 OS/390 的 DB2 有 着 一 个 非常 丰富 的 工具 集 。QMF 是 一 款 广泛 使 用 的 工具 ， 用 于 生成 即席 查 


1216| 询 并 将 其 整合 到 应 用 中 。 


29. 10 ”并 发 控制 和 恢复 


DB2 支持 全 面 的 并 发 控制 、 隔 离 和 恢复 技术 。 
29. 10. 1 并 发 与 隔离 


对 于 隔离 ，DB2 支持 可 重复 读 (RR) 、 读 稳定 性 (RS) 、 游 标 稳定 性 (CS) 和 未 提交 读 (UR ) 模式 。 
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行 。 在 随后 的 扫描 中 ,保证 应 用 程序 看 到 所 有 这 些 行 (如同 RR) ， 但 可 能 还 会 看 见 新 的 满足 条 件 的 行 。 
然而 ， 对 于 一 些 遵循 严格 的 RR 隔离 性 的 应 用 程序 来 说 ， 这 可 能 是 种 可 接受 的 权衡 。 典 型 地 ， 默 认 的 
隔离 性 级 别 是 CS， 应 用 程序 在 绑 定 阶段 可 以 选择 它们 的 隔离 性 级 别 。 大 多 数 商 业 化 可 用 的 应 用 程序 人 允 
许 使 用 大 多 数 隔离 性 级 别 ， 使 用 户 可 以 针对 他 们 的 需求 选择 正确 的 应 用 程序 版 本 。 

各 种 隔离 模式 是 用 封锁 来 实现 的 。DB2 支持 记录 级 和 表 级 的 封锁 。 它 维护 一 个 单独 的 具有 封锁 信 
息 的 锁 表 数 据 结 构 。 如 果 锁 表 中 的 空间 变 得 紧张 ，DB2 就 将 记录 级 锁 升 级 为 表 级 锁 。DB2 为 所 有 更 新 
事务 实现 严格 的 两 阶段 封锁 。 事 务 持 有 写 锁 或 更 新 锁 直 到 提交 或 回 滚 时 为 止 。 图 29-19 展示 了 不 同 封 
锁 模 式 和 对 它们 的 描述 。 这 些 封锁 模式 中 包括 一 种 支持 最 大 化 并 发 性 的 表 级 意向 锁 。 而 且 ， 为 了 消除 
Halloween 和 幻象 读 问 题 ，DB2 为 影响 索引 扫描 的 更 新 实现 了 下 一 个 关键 字 封 锁 和 不 同 模式 。 


封包 模式 





IN (无 意向 ) 表 空间 、 表 不 带 行 锁 的 读 | 

IS ( 意向 共享 ) 表 空间 、 表 带 行 锁 的 读 

NS (下 一 关键 字 共 享 ) 行 RS 或 CS 隔离 性 级 别 的 读 锁 

S (共享 ) 行 、 表 读 锁 

IX ( 意向 排他 ) 表 空间 、 表 意向 更 新 行 

SIX (共享 意向 排他 ) 表 行 上 无 读 锁 ， 但 更 新 行 上 有 X 锁 

U (更 新 ) 有 有、 R 更 新 锁 但 允许 他 人 读 

NX ( 下 一 关键 字 排 他 ) 行 在 RR 索引 扫描 中 ， 为 防止 幻象 读 对 
插入 /删除 的 下 一 关键 字 封 锁 

X (排他 ) 17. R 只 人 允许 未 提交 的 读者 访问 

Z (超级 排他 ) 表 空 间 、 表 完全 的 排他 访问 














图 29-19 DB2 封锁 模式 


通过 使 用 lock table 语句 ， 事 务 可 以 将 封锁 粒度 设置 在 表 级 。 当 应 用 程序 知道 所 需要 的 隔离 性 级 
别 是 表 级 时 ， 这 是 很 有 用 的 。 而 且 ，DB2 会 为 诸如 重组 和 加 载 这 样 的 工具 选择 合适 的 封锁 粒度 。 这 
些 工具 的 脱 机 版 本 通常 以 排他 模式 封锁 表 。 这 些 工 具 的 联机 版 本 允许 其 他 事务 通过 获得 行 锁 来 并 发 
进行 。 

每 个 数据 库 上 都 运行 一 个 死 锁 检测 代理 并 周期 性 地 检测 事务 间 的 死 锁 。 死 锁 检 测 的 时 间 间 隔 参 数 
是 可 配置 的 。 在 发 生死 锁 的 情况 下 ， 代 理 就 选择 一 个 牺牲 者 并 用 一 个 SQL 死 锁 错误 代码 来 中 止 它 。 
29. 10.2 提交 与 回 滚 

应 用 程序 可 以 通过 使 用 显 式 的 commit 或 rollback 语句 来 提交 或 回 深 。 应 用 程序 还 可 以 发 出 begin 
transaction 和 end transaction 语句 来 控制 事务 的 范围 ， 但 不 支持 散 套 事务 。 通 常 ， 当 一 个 事务 提交 或 
回 滚 时 ，DB2 代表 它 释 放 这 个 事务 所 持 有 的 所 有 锁 。 然 而 ， 如 果 用 with hold 子 句 声明 了 一 条 游标 语 
hte Mg BTR PA PK. 
29. 10. 3 日 志 与 恢复 

DB2 实现 严格 的 ARIES 日 志和 恢复 方案 。 在 写 数据 页 之 前 或 在 事务 提交 时 ,使 用 先 写 (write- 
ahead) 日 志 将 日 志 记录 刷新 到 持久 日 志文 件 中 。DB2 支持 两 种 类 型 的 日 志 模 式 : 循环 日 志和 归档 日 志 。 
在 循环 日 志 中 ， 使 用 一 套 预 先 定义 的 主 日 志和 辅助 日 志文 件 。 循 环 日 志 在 前 溃 恢 复 或 应 用 程序 故障 恢 
复 中 是 有 用 的 。 在 归档 日 志 中 ，DB2 创建 新 的 日 志文 件 而 旧 的 日 志文 件 必 须 归档 以 释放 文件 系统 的 空 
间 。 归 档 日 志 用 于 执行 前 滚 恢 复 。 在 这 两 种 情况 下 ，DB2 允许 用 户 来 配置 日 志文 件 的 数量 和 日 志文 件 
的 大 小 。 

在 频繁 更 新 的 环境 中 ， 可 以 对 DB2 进行 配置 ， 以 寻求 成 组 提交 ， 为 的 是 把 多 个 日 志 写 操作 捆绑 在 
一 起 。 

DB2 支持 事务 回 滚 和 前 溃 恢复 以 及 时 间 点 或 前 滚 恢复 。 在 骨 溃 恢复 的 情况 下 ，DB2 执行 标准 的 
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undo 处 理 阶段 直到 最 后 一 个 检查 点 并 从 该 检查 点 起 执行 标准 的 redo 处 理 阶 段 ， 以 恢复 到 适当 的 数据 库 
提交 状态 。 对 于 时 间 点 恢复 ， 可 以 从 备份 中 恢复 数据 库 ， 并 利用 归档 日 志 将 它 前 深 到 一 个 特定 的 时 间 
点 。 前 滚 恢复 命令 既 支 持 数据 库 级 也 支持 表 空 间 级 。 它 还 可 以 在 多 结 点 系统 中 的 特定 结 点 上 发 布 。 

个 并 行 恢复 方案 通过 使 用 许多 CPU 改进 了 SMP 系统 中 的 性 能 。DB2 通过 实现 全 局 检查 点 方案 来 执行 跨 
越 MPP 结 点 的 协同 恢复 。 


29.11 系统 体系 结构 


图 29-20 展示 了 DB2 服务 器 中 的 一 些 不 同 的 进程 或 线程 。 远 程 客户 应 用 程序 通过 使 用 诸如 
db2tepem 这 样 的 通信 代理 来 与 数据 库 服 务 器 连接 。 每 个 应 用 程序 都 分 配 一 个 称 为 db2agent 线程 的 代理 
(在 MPP 或 SMP 环境 中 的 协调 代理 ) 。 这 个 代理 以 及 它 的 下 级 代理 执行 与 应 用 程序 相关 的 任务 。 每 个 
数据 库 有 一 组 进程 和 线程 执行 如 预 取 、 从 缓冲 池 中 清空 页 、 日 志 以 及 死 锁 检 测 这 样 的 任务 。 最 后 ， 还 
有 一 组 在 服务 器 级 的 代理 来 执行 如 崩溃 检测 、 许 可 证 服务 器 、 进 程 创建 和 系统 资源 控制 这 样 的 任务 
DB2 提供 配置 参数 来 控制 在 一 个 服务 器 中 线程 和 进程 的 数目 。 几 乎 所 有 不 同类 型 的 代理 都 可 以 通过 使 
用 配置 参数 来 控制 。 

处 理 模型 : 单 分 区 
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图 29-21 展示 了 DB2 中 不 同类 型 的 内 存 段 。 代 理 或 线程 中 的 私有 内 存 主要 用 于 只 与 当前 活动 有 关 
的 局 部 变量 和 数据 结构 。 例 如 ， 私 有 排序 可 以 从 代理 的 私有 堆 中 分 配 内 存 。 共 享 内 存 划分 成 服务 器 共 
享 内 存 、 数 据 库 共 享 内 存 和 应 用 程序 共享 内 存 。 数 据 库 级 共享 内 存 包含 有 用 的 数据 结构 ， 如 缓冲 池 、 
封锁 列表 、 应 用 程序 包 高 速 缓存 和 共享 排序 区 。 服 务 器 和 应 用 程序 共享 内 存 区 域 主要 用 于 通用 数据 结 
构 和 通信 缓冲 区 。 

DB2 支持 一 个 数据 库 有 多 个 缓冲 池 。 缓 冲 池 可 以 用 create bufferpool 语句 来 创建 ， 并 且 可 以 与 表 
空间 关联 。 出 于 多 种 理由 ， 多 个 缓冲 池 是 有 用 的 ， 但 应 该 对 工作 负载 需求 仔细 分 析 后 青 定义 多 个 缓冲 
池 。DB2 支持 全 面 的 内 存 配 置 和 调整 参数 的 列表 。 这 些 包 括 所 有 大 数据 结构 的 堆 区 域 (如 默认 的 缓冲 
池 、 排 序 堆 、 程 序 包 高 速 缓存 、 应 用 程序 控制 的 堆 和 封锁 列表 区 域 ) 的 参数 。 
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实例 共享 内 存 
* 包括 FCM ( 快速 通信 管理 器 ) 















数据 库 共享 内 存 
- 缓存 池 ( buffpage 或 ALTERBUF.. ) 
“ 封锁 列表 (locklist ) 
+ 包 高 速 缓存 ( pckcachesz ) 
- 共享 排序 ( sortheap, sheapthresh ) 
* 数据 库 堆 ( dbheap ) 

“日 志 缓 冲 区 ( logbufsz ) 

+ 目录 高 速 缓 存 ( catalogcache_sz ) 
+ TAHE (util_heap_sz ) 


数据 库 共享 内 存 










应 用 程序 共享 内 存 
- 内 部 结构 ( appl_ctl_heap_sz ) 
代理 私有 内 存 
“私有 排序 ( sortheap, sheapthresh ) 


+ 应 用 堆 (applheapsz ) 
ees 

- 查询 堆 ( query_heap_sz ) 
< 1...maxagents_ 一 语句 堆 (stmtheap) 


* 统计 堆 ( stat_heap_sz ) 
图 29-21 DB2 内 存 模型 


29.12 ” 复制、 分布 和 外 部 数据 


DB2 Replication 是 DB2 家 族 的 一 个 产品 ， 它 提供 了 不 同 于 DB2 的 关系 数据 源 ( 如 Oracle, Microsoft 
SQL Server, Sybase Adaptive Server Enterprise 和 Informix) 以 及 非 关 系数 据 源 (如 IBM 的 IMS) 之 间 的 复制 
能 力 。 它 由 capture 和 apply 部 件 组 成 ， 它 们 由 管理 界面 来 控制 。 变 更 捕获 机 制 可 以 是 “基于 日 志 ” 的 ( 针 
对 DB2 表 ) 或 “基于 触发 器 的 ”在 其 他 数据 源 的 情况 下 ) 。 捕 获 到 的 变更 保存 在 DB2 Replication 控制 下 
的 临时 阶段 性 表 区 域 中 。 然 后 用 普通 SQL 语句 insert, update 和 delete 来 将 这 些 有 改动 的 分 阶段 中 间 表 
应 用 到 目标 表 中 。 通 过 使 用 过 滤 条 件 和 聚集 ， 可 以 在 中 间 分 阶段 的 表 上 执行 基于 SQL 的 转换 。 结 果 行 
可 以 应 用 到 一 个 或 多 个 目标 表 。 所 有 这 些 动 作 都 由 管理 工具 控制 。 

DB2 支持 一 种 叫做 队列 复制 的 特性 。 队 列 (Q) 复 制 使 用 IBM 的 消息 队列 产品 建立 一 个 队列 传送 机 
制 来 将 捕获 到 的 日 志 记 录 作 为 消息 传递 。 这 些 消息 在 接收 端 从 队列 中 提取 出 来 并 应 用 到 目标 上 。 应 用 
过 程 可 以 是 并 行 的 ， 并 允许 用 户 指 定 冲突 解决 规则 。 

DB2 家 族 的 另 一 个 成 员 是 DB2 信息 整合 产品 ， 它 提供 联邦 、 复 制 (使 用 上 面 描述 的 复制 引擎 ) 和 搜 
索 能 力 。 联 邦 版 本 可 以 将 远程 DB2 或 其 他 关系 数据 库 中 的 表 整 合成 单个 分 布 式 数据 库 。 用 户 和 开发 人 
员 能 够 使 用 包装 器 技术 以 表格 的 形式 访问 各 种 非 关 系数 据 源 。 联 邦 引 警 为 跨越 不 同 数据 站 点 的 查询 优 
化 提供 一 种 基于 代价 的 方法 。 

DB2 支持 用 户 自 定义 的 表 函 数 ， 可 以 访问 非 关系 的 和 外 部 的 数据 源 。 通 过 使 用 带 returns table 子 
句 的 create function 语句 来 创建 用 户 自 定义 表 函 数 。 使 用 这 些 特性 ，DB2 就 可 以 参与 到 OLE DB H 
议 中 。 

最 后 ，DB2 提供 对 采用 两 阶段 提交 协议 的 分 布 式 事务 处 理 的 完全 支持 。DB2 可 以 作为 协调 者 或 代 
理 来 支持 分 布 式 的 XA。 作为 协调 者 ，DB2 可 以 执行 两 阶段 提交 协议 的 所 有 阶段 。 作 为 参与 者 ，DB2 可 
以 与 任何 商用 分 布 式 事务 管理 者 交互 。 


29. 13 ”商务 智能 特性 


DB2 数据 仓库 版 本 是 DB2 家 族 中 的 贡献 ， 它 结合 了 商务 智能 特性 。 数 据 仓库 版 本 以 DB2 引 警 为 基 
础 ， 并 用 ETL、OLAP、 挖 据 和 在 线 报表 特性 来 对 其 增强 。DB2 引擎 利用 其 MPP 特性 提供 了 可 扩展 性 。 
在 MPP 模式 中 ，DB2 所 支持 的 配置 能 为 大 型 数据 库 (TB) 扩 展 到 数 百 个 结 点 。 此 外 ，, BR MDC 和 MQT 这 
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样 的 特性 为 商务 智能 的 复杂 查询 处 理 需 求 提供 了 支持 。 

商务 智能 的 另 一 方面 是 联机 分 析 处 理 或 OLAP。DB2 家 族 包括 一 个 叫做 立方 体 视图 的 特性 ， 它 提供 
了 一 种 在 DB2 内 部 构造 适当 的 数据 结构 和 MQT 的 机 制 ， 可 用 于 关系 型 OLAP 处 理 。 立 方 体 视 图 为 多 维 
立方 体 提 供 了 建 模 支 持 ， 并 提供 到 关系 型 星 型 模式 的 映射 机 制 。 然 后 这 个 模型 用 于 推荐 适当 的 MQT、 
索引 和 MDC 定义 来 提高 数据 库 上 OLAP 查询 的 性 能 。 此 外 ,立方体 视图 可 以 利用 DB2 为 产生 聚集 立方 

体 的 cube by 和 rollup 操作 的 原生 支持 。 立 方 体 视 图 是 一 个 可 用 来 将 DB2 与 诸如 Business Objects, 

Microstrategy 和 Cognos 这 样 的 OLAP 供应 商 紧 密 结合 在 一 起 的 工具 。 

此 外 ，DB2 使 用 DB2 OLAP 服务 器 对 多 维 OLAP 提供 支持 。DB2 OLAP 服务 器 可 以 通过 OLAP 技术 
从 低层 的 DB2 数据 库 建立 起 多 维 数据 集 市 用 于 分 析 。 来 自 Essbase 产品 的 OLAP 引擎 被 用 在 DB2 OLAP 
服务 器 中 。 

DB2 Alphablox 是 一 个 提供 联机 的 、 交 互 的 、 报 表 和 分 析 能 力 的 新 特性 。Alphablox 特性 的 一 个 非常 
有 吸引 力 的 特点 是 ， 用 一 个 称 为 blox 的 构建 块 方法 来 迅速 地 建立 新 的 基于 Web 的 分 析 表 格 。 

为 了 深入 分 析 ，DB2 智能 挖掘 器 为 建 模 、 打 分 和 数据 可 视 化 提供 了 多 个 部 件 。 控 掘 使 用 户 能 够 在 
大 数据 集 上 执行 分 类 、 预 测 、 聚 类 、 分 段 和 关联 。 


文献 注解 


DB2 的 起 源 可 以 追溯 到 System R 项 目 ( Chamberlin 等 [1981 ] ) 。IBM 的 研究 贡献 包括 许多 领域 ， 如 事务 
处 理 ( 先 写 日 志和 ARIES 恢复 算法 ) ( Mohan 等 [1992 ] ) 、 查 询 处 理 和 优化 ( Starburst) (Haas 等 [ 1990 ] ) 、 并 行 
处 理 (DB2 并 行 版 本 ) ( Baru 等 [1995 ] ) 、 主 动 数据 库 支 持 ( 约束 和 触发 器 ) ( Cochrane 等 [1996 |) 、 像 物化 视 
图 这 样 的 高 级 查询 和 仓库 技术 (Zaharioudakis 等 [ 2000] Lehner 等 [ 2000]), £ 4 R fk ( Padmanabhan 等 
[2003 ] Bhattacharjee 等 [2003] ) 、 自 治 特性 (Zilio 等 [2004] ) 和 对 象 - 关系 支持 (ADT、UDF ) (Carey 等 
[1999 ] ) 。 多 处 理 器 查询 处 理 细 节 可 以 在 Baru 等 [1995 ] 中 找到 。Don Chamberlin 的 书 提供 了 对 DB2 早期 版 
本 的 SQL 和 编程 特性 的 很 好 回顾 ( Chamberlin[ 1996 ] , Chamberlin[ 1998 ] ) C. J Date 和 其 他 人 的 早期 书籍 提 
供 了 对 DB2 Universal Database for OS/390 的 特性 的 很 好 回顾 (Date [1989] 、Martin 等 [1989 ] ) 。 

DB2 用 户 手册 提供 了 DB2 各 种 版 本 的 权威 见解 。 大 多 数 手 册 可 以 在 线 获 得 (http: // 
www. software. ibm. com/db2 ) 。 用 于 开发 者 和 管理 员 的 DB2 的 书籍 包括 Cunning [ 2008 ] Zikopoulos 等 

[2004] 、Zikopoulos 等 [2007] 和 Zikopoulos 等 [2009 ] 。 
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Microsoft SQL Server 是 一 个 关系 型 数据 库 管 理 系统 ， 其 范围 涵盖 膝 上 型 计算 机 和 台式 机 直至 企业 服 
Fiko SQL Server 有 一 个 兼容 版 本 ， 基 于 Windows Mobile 操作 系统 ， 用 于 手持 设备 ， 如 袖珍 PC、 智 能 
手机 和 便携 式 媒体 中 心 。SQL Server 最 初 是 在 20 世纪 80 年 代 由 Sybase 为 UNIX 系统 开发 的 ， 后 来 被 微 
软 移植 到 了 Windows NT 系统 。 从 1994 年 开始 ， 微 软 发 布 独立 于 Sybase 开发 的 SQL Server 版 本 ， 而 
Sybase 在 20 世纪 90 年 代 后 期 停止 使 用 SQL Server 名 称 。 最 新 的 版 本 是 SQL Server 2008 ， 有 简易 版 、 标 
准 版 和 企业 版 ,还 有 世界 上 多 种 语言 的 本 地 化 版 本 。 在 本 章 ， 术 语 SQL Server 是 指 SQL Server 2008 的 
所 有 这 些 版 本 。 

SQL Server 提供 SQL Server 多 个 拷贝 之 间 以 及 与 其 他 数据 库 系统 的 复制 服务 。 它 的 分 析 服 务 ， 是 系 
统 的 一 个 完整 部 分 ， 包括 联机 分 析 处 理 (OLAP) 和 数据 挖掘 工具 。SQL Server 提供 了 一 个 大 的 图 形 化 工 
具 集 和 向 导 ， 引 导数 据 库 管理 员 执行 各 种 任务 ， 例 如 建立 定期 备份 、 在 服务 器 之 间 复 制 数据 ， 以 及 调 
整数 据 库 性 能 。 有 很 多 开发 环境 支持 SQL Server， 包 括 微软 的 Visual Studio 和 相关 产品 ， 尤 其 是 . NET 
的 产品 和 服务 。 


30.1 管理 、 设 计 和 查询 工具 


SQL Server 提供 了 一 套 工 具 ， 用 来 管理 SQL Server 的 开发 、 查 询 、 调 优 、 测 试 和 管理 等 各 个 方面 . 
大 部 分 这 些 工具 是 以 SQL Server Management Studio 为 中 心 的 。SQL Server Management Studio 为 管理 所 有 
与 SQL Server 相关 的 服务 提供 通用 的 界面 ， 包 括 数 据 库 引擎 、 分 析 服 务 、 报 表 服 务 、SQL ServerMobile [1223] 
和 集成 服务 。 
30.1.1 数据 库 开 发 和 可 视 化 数据 库 工 具 

在 设计 数据 库 时 ， 数 据 库 管 理 员 创建 数据 库 对 象 ， 如 表 、 列 、 关 键 字 、 索 引 、 联 系 、 约 束 和 视图 ， 
为 了 帮助 创建 这 些 对 象 ，SQL Server Management Studio 提供 对 可 视 化 数据 库 工 具 的 访问 。 这 些 工具 提供 
了 三 种 机 制 来 帮助 数据 库 设计 : 数据 库 设 计 器 、 表 设计 匿 和 视图 设计 器 。 

数据 库 设 计 器 是 一 个 允许 数据 库 所 有 者 或 所 有 者 的 代理 来 创建 表 、 列 、 关 键 字 、 索 引 、 联 系 和 约 
束 的 可 视 化 工具 。 在 这 个 工具 中 ,用 户 可 以 通过 数据 库 图 表 和 数据 库 对 象 进 行 交互 。 数 据 库 图 表 图 形 
化 地 显示 了 数据 库 的 结构 。 视 图 设计 器 提供 了 可 视 化 查询 工具 ， 人 允许 用 户 通过 使 用 Windows 的 拖 放 功 
能 创建 或 修改 SQL 视图 。 图 30-1 显示 了 一 个 从 Management Studio 中 打开 的 视图 。 
30.1.2 数据 库 查询 和 调 优 工具 

SQL Server Management Studio 提供 了 若干 工具 来 帮助 应 用 开发 过 程 。 可 以 使 用 集成 的 查询 编辑 器 来 
进行 查询 和 存储 过 程 的 开发 和 测试 。 查 询 编 辑 器 支持 为 各 种 环境 创建 和 编辑 脚本 ， 包 括 Transact-SQL, 
SQL Server 脚本 语言 SQLCMD 、 用 于 数据 分 析 的 多 维 表示 语言 MDX, SQL Server 数据 挖 所 语言 DMX, 
XML 分 析 语 言 XMLA 和 SQL Server Mobile。 进 一 步 的 分 析 可 以 通过 使 用 SQL Server 跟踪 需 (profiler ) X 
进行 。 数 据 库 调 优 建议 由 数据 库 调 优 向 导 提 供 。 

30. 1.2.1 查询 编辑 器 

集成 的 查询 编辑 器 提供 了 一 个 简单 的 图 形 化 用 户 界面 来 运行 SQL 查询 和 显示 结果 。 查 询 编 辑 器 还 
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提供 显示 计划 (showplan ) (优化 器 为 查询 执行 所 选择 的 步 又) 的 图 形 化 表示 。 查 询 编辑 融 集 成 了 
Management Studio 的 对 象 浏览 器 ， 人 允许 用 户 拖 放 对 象 或 表 名 到 一 个 查询 窗口 ， 并 帮助 在 任何 表 上 建立 


select, insert, update 或 delete 语句 。 





Microsoft Si Se 
Se on Ja Query Designer Tools Window lii 
New Query ~ | Q) 27 la F Ta Bh) > 


apaja 3 = oa, 


£ View - HumanRes: vEmployee* ， | Summary | 

















1* (All Columns) 


| ContactID 
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cMiddleName, c.LastName, c.Suffix, ee S ofk, € “Phone, c.Emaläddress, c.EmaiPror a] 
sline2, a „CRY, si Nana AS StateProvinc catia alCode, cr.Name AS ¢ CountryRegonName, A 
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Ready 


图 30-1 为 HumanResources. vEmployee 视图 打开 的 视图 设计 器 


数据 库 管理 员 或 开发 者 能 够 用 查询 编辑 器 做 以 下 工作 : 
。 分 析 查 询 : 查询 编辑 器 能 够 为 任何 查询 显示 图 形 化 的 或 者 文本 的 执行 计划 ， 并 且 显 示 关 于 执行 
任何 查询 所 需要 的 时 间 和 资源 的 统计 信息 。 
。 格式 化 SQL 查询 : 包括 缩 排 和 颜色 语法 编码 。 
。 为 存储 过 程 、 函 数 以 及 基本 SQL 语句 使 用 模板 : Management Studio 有 许多 预定 义 模 板 来 建立 
DDL 命令 ， 或 者 用 户 也 可 以 定义 他 们 自己 的 模板 。 

图 30-2 显示 了 带 查 询 编辑 器 的 Management Studio， 展 示 了 一 个 查询 的 图 形 化 执行 计划 ， 它 包括 一 
个 四 表 连 接 和 一 个 聚集 。 

30. 1.2.2 SQL 跟踪 器 (SQL Profiler) 

SQL 跟踪 器 是 一 个 图 形 化 工具 ， 它 允许 数据 库 管 理 员 监视 和 记录 SQL Server 数据 库 引擎 和 分 析 服 
务 的 数据 库 活动 。SQL 跟踪 器 能 够 实时 显示 所 有 服务 器 的 活动 ， 或 者 它 可 以 建立 过 滤器 ， 以 集中 监视 

1224| 特定 的 用 户 、 应 用 程序 或 者 特定 类 型 命令 的 活动 。SQL 跟踪 器 能 够 显示 发 送 到 任何 SQL 服务 器 实例 上 
1098 的 任何 SQL 语句 或 存储 过 程 ( 如果 安全 权限 许可 的 话 ) ， 还 能 显示 性 能 数据 ， 表 明 运 行 查询 所 花 的 时 

间 、 需 要 多 少 CPU 和 1/0 以 及 查询 所 采用 的 执行 计划 。 

SQL 跟踪 器 允许 下 钻 甚至 深入 到 SQL Server 内 部 以 监视 作为 存储 过 程 的 部 分 而 执行 的 每 条 语句 、 
每 个 数据 修改 操作 、 每 个 封锁 的 获得 或 释放 或 数据 库 文件 自动 增长 的 每 次 发 生 。 它 能 够 捕获 多 个 不 同 
的 事件 以 及 每 个 事件 的 多 个 数据 项 。 实 际 上 SQL Server 把 跟踪 功能 分 成 两 个 独立 的 但 相互 联系 的 部 分 。 
SQL 跟踪 器 是 客户 端的 跟踪 工具 。 使 用 SQL 跟踪 器 ， 被 捕获 的 数据 不 仅 可 以 在 跟踪 器 的 用 户 界面 ( UI) 
中 显示 ,用户 还 可 以 选择 将 它们 保存 在 文件 或 表 中 。 跟 踪 器 工具 在 事件 发 生 时 显示 每 个 符合 过 滤 标 准 
的 事件 。 一 旦 保存 跟踪 数据 ，SQL 跟踪 器 就 能 够 读 取保 存 的 数据 ， 用 于 显示 或 分 析 的 目的 。 

在 服务 器 端的 是 SQL 跟踪 工具 ， 它 管理 由 事件 产生 器 生成 的 事件 队列 。 一 个 消费 者 线程 从 队列 中 
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读 取 事 件 并 进行 过 滤 ， 之 后 把 它们 送 给 请 求 这 些 事 件 的 进程 。 追 踪 所 关注 的 活动 的 主要 单元 是 事件 ， 
事件 可 以 是 发 生 在 SQL Server 内 部 或 者 SQL Server 和 客户 端 之 间 的 任何 事情 。 比 如 ， 创 建 或 删除 一 个 
对 象 是 一 个 事件 ， 执 行 一 个 存储 过 程 是 一 个 事件 ， 获 得 或 者 释放 一 个 锁 蚌 一 个 事件 ， 从 客户 端 发 送 一 
个 Transact-SQL 包 到 SQL Server 也 是 一 个 事件 。 有 一 组 存储 的 系统 过 程 来 定义 哪些 事件 需要 追踪 ， 每 个 
事件 需要 关注 哪些 数据 ， 以 及 在 何 处 保存 从 事件 中 收集 到 的 信息 。 在 事件 上 应 用 过 滤器 能 够 减少 收集 
和 存放 的 信息 量 。 










s Extended) ON Orders.OrderID = [Order Details Extende 
Ci joryID = Products.CategoryID 
Ci! ant “319971233 
CategoryName. Products ProductName 


z Ca 
| WHERE ‘Orders. OrderDate 





Query 1: Query | 
SELECT Categories.CategoryID, Categories.CategoryName, Products.ProductName, SUM((Order De i 











图 30-2 带 group by 聚集 的 四 表 连 接 的 显示 计划 


SQL Server 保证 特定 的 关键 信息 总 能 收集 到 ， 并 且 可 用 作 一 种 有 用 的 审核 机 制 。SQL Server 达到 美 
国政 府 C2 级 安全 认证 ， 并 且 很 多 可 跟踪 事件 仅仅 用 于 满足 C2 级 认证 的 要 求 。 

30. 1.2.3 数据 库 调 优 向 导 

如 果 有 一 组 合适 的 索引 可 用 ， 查 询 和 更 新 通常 可 以 执行 得 更 快 。 在 大 型 数据 库 中 ， 为 表 设 计 可 能 
是 最 好 的 索引 是 一 项 复杂 的 工作 。 它 不 仅 需要 完全 了 解 SQL Server 如 何 使 用 索引 以 及 查询 优化 器 如 何 
做 决策 ， 还 得 了 解 应 用 程序 或 交互 式 查询 实际 上 如 何 使 用 数据 。SQL Server 数据 库 调 优 向 导 ( DTA ) 是 
一 个 强大 的 工具 ， 它 基于 对 查询 和 更 新 负载 的 观察 , 来 设计 可 能 是 最 好 的 索引 和 带 索 引 的 (物化 ) 
视图 。 

DTA 能 跨 多 个 数据 库 进 行 调 优 ， 而 且 它 的 建议 是 基于 工作 负荷 的 ， 工 作 负 荷 可 以 是 一 个 捕获 的 追 
踪 事 件 的 文件 、 一 个 SQL 语句 文件 或 是 一 个 XML 输入 文件 。 可 用 SQL 跟踪 器 来 捕获 一 段 时 间 内 所 有 
用 户 提 交 的 所 有 SQL 语句 。 然 后 DTA 能 够 查看 所 有 用 户 、 所 有 应 用 程序 、 所 有 表 的 数据 访问 模式 ， 并 
给 出 均衡 的 建议 。 
30. 1.3 SQL Server Management Studio 


除了 提供 对 数据 库 设计 和 可 视 化 数据 库 工具 的 访问 之 外 ， 易 用 的 SQL Server Management Studio 3 
持 集 中 管理 多 个 SQL Server 数据 库 引 擎 装置 、 分 析 服 务 、 报 表 服 务 、 集 成 服务 和 SQL Server Mobile 的 
各 个 方面 ， 包 括 安全 、 事 件 、 和 警报、 调度 、 备 份 、 服 务 器 配置 、 调 优 、 全 文 搜索 以 及 复制 。SQL Server 
Management Studio 允许 数据 库 管 理 员 创建 、 修 改 和 复制 SQL Server 数据 库 模 式 和 对 象 ， 如 表 、 视 图 和 
触发 器 。 因 为 多 个 SQL Server 装置 可 组 织 成 组 ， 作 为 一 个 单元 对 待 ，SQL Server Management Studio 能 够 
同时 管理 几 百 个 服务 器 。 

尽管 SQL Server Management Studio 能 够 和 SQL Server 引 警 运行 在 同一 台 计 算 机 上 ， 当 运行 在 任何 


1226 
1227| 
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Windows 2000( 或 更 新 的 版 本 ) 机 器 上 时 ，SQL Server Management Studio 也 提供 了 同样 的 管理 能 力 。 此 
Sh, SQL Server 高 效 的 客户 - 服务 器 体系 结构 使 得 利用 Windows 的 远程 访问 (拨号 网 络 ) 能 力 来 进行 监 
督 和 管理 成 为 现实 。 

SQL Server Management Studio 把 数据 库 管理 员 从 必须 了 解 完成 一 项 任务 的 特定 步骤 和 语法 中 解放 出 
来 。 它 提供 向 导 来 指导 数据 库 管理 员 完 成 一 个 SQL Server 装置 的 安装 和 维护 过 程 。Management Studio 
的 界面 如 图 30-3 所 示 ， 它 说 明了 如 何 从 会 话 中 直接 创建 为 数据 库 备 份 的 脚本 。 
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图 30-3 SQL Server Management Studio 界面 


30.2 SQL 变化 和 扩展 


SQL Server 允许 应 用 程序 开发 者 使 用 Transact-SQL 或 者 . NET 编程 语言 (例如 C#、Visual Basic , 
COBOL sk J ++ ) 来 编写 服务 器 端的 商务 逻辑 。Transact-SQL 是 一 种 完全 的 数据 库 编程 语言 ， 包 括 数据 
定义 和 数据 操纵 语句 、 循 环 和 条 件 语句 、 变 量 、 过 程 以 及 函数 。Transact-SQL 支持 SQL: 2003 标准 中 

[1228] 大 多 数 强制 的 DDL 查询 和 数据 修改 语句 以 及 结构 。 所 支持 的 SQL: 2003 数据 类 型 列表 参见 30. 2. 1 节 。 
除 强制 的 特性 外 ，Transact-SQL 也 支持 许多 SQL: 2003 标准 中 可 选 的 特性 ,例如 递归 查询 、 通 用 表 的 
表达 式 、 用 户 自 定义 函数 和 关系 算 子 ， 如 intersect 和 except, WA HAK 
30.2.1 数据 类 型 

SQL Server 2008 支持 SQL; 2003 标准 中 所 有 强制 的 标量 数据 类 型 。SQL Server 还 支持 使 用 用 户 提供 
的 名 字 定 义 系 统 类 型 别名 的 能 力 。 别 名 和 SQL: 2003 中 的 distinct 类 型 功能 相似 ， 但 并 不 与 之 完全 
FA 

一 些 只 有 SQL Server 才 有 的 原始 数据 类 型 包括 : 

。 可 变 长 度 的 大 字符 和 二 进 制 串 类 型 ， 最 大 长 度 为 2" -1 字 节 , 使 用 varchar/nvarchar/varbinary 

(max) 数 据 类 型 ， 它 们 拥有 一 个 类 似 于 小 字符 和 字 节 串 类 型 的 编程 模型 。 另 外 ， 它 们 支持 一 个 
称 为 FILESTREAM 的 存储 属性 ， 指 定 了 每 个 单独 列 取 值 的 数据 存储 为 文件 系统 中 单独 的 文件 。 
FILESTREAM 存储 允许 使 用 本 地 文件 系统 API 来 更 高 性 能 地 流 式 访问 应 用 。 

。 XML 类 型 将 在 30. 11 节 介 绍 ， 用 于 在 表 的 列 中 存储 XML 数据 。XML 类 型 可 以 选择 用 一 个 相关 

的 XML 模式 集合 来 指定 一 个 约束 ,使 得 类 型 的 实例 应 该 遵守 模式 集合 中 定义 的 一 种 XML 类 型 。 
。 sql_variant 是 一 种 标量 数据 类 型 ， 它 可 以 包含 任何 SQL 标量 类 型 的 值 (除了 大 字符 和 二 进 制 类 
型 以 及 sql_variant) 。 如 果 一 个 应 用 需要 存储 数据 ， 但 是 该 数据 的 类 型 在 数据 定义 时 不 能 预知 ， 
则 要 用 到 该 类 型 。 执 行 unpivot 关系 运算 ( 见 30.2. 2 47) 所 形成 的 列 的 类 型 也 是 sql_variant。 在 
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内 部 ， 系 统 保持 对 数据 初始 类 型 跟踪 。 在 sql_varient 列 上 可 能 做 过 滤 、 连 接 和 排序 。 系 统 函 数 
sql_varient_property 能 够 返回 存储 在 sql_varient 类 型 的 列 中 的 实际 数据 的 细节 信息 ， 包 括 基本 
类 型 和 规模 信息 。 

。 hierarchyId 数据 类 型 使 得 存储 和 查询 层次 数据 更 加 容易 。 层 次 数据 定义 为 一 个 相互 之 间 通 过 层 
次 关系 关联 的 数据 项 的 集合 ， 其 中 数据 的 一 个 项 是 另 一 个 项 的 父亲 。 通 常 的 例子 包括 : 组 织 结 
构 、 层 次 文件 系统 、 项 目的 任务 集合 、 语 言 术语 的 分 类 学 、 单 继承 类 型 的 层次 、 部 分 - 子 部 分 
联系 和 Web 页 面 之 间 的 链接 图 。 

© SQL Server 支持 存储 和 查询 地 球 空间 数据 ， 即 涉及 地 球 的 位 置 数据 。 这 些 数据 的 通用 模型 是 平 
面 和 大 地 坐标 系统 。 这 两 种 系统 主要 的 不 同 是 后 者 考虑 了 陆地 的 曲率 。SQL Server 支持 几何 学 
和 地 理学 ， 对 应 于 平面 的 和 大 地 的 模型 。 

此 外 ，SQL Server 支持 table 和 cursor 类 型 ， 它 们 不 能 用 于 表 中 的 列 ， 但 可 用 作 Transact-SQL 语言 里 

的 变量 : 

© 表 (table) 类 型 使 得 一 个 变量 能 够 容纳 行 的 集合 。 这 种 类 型 的 实例 主要 用 于 存放 存储 过 程 的 临时 
结果 或 以 表 为 值 的 函数 的 返回 值 。table 变量 和 局 部 变量 的 行为 一 样 。 它 有 确切 定义 的 作用 范 
围 ， 比 如 函数 、 存 储 过 程 或 者 是 声明 该 变量 的 批 处 理 中 。 在 其 作用 范围 内 ，table 变量 能 像 普通 
的 表 一 样 使 用 。 它 能 用 于 在 select 、insert 、update 和 delete 语句 中 的 任何 一 个 使 用 表 或 者 表 的 
表达 式 的 地 方 。 

© 游标 (cursor) 类 型 使 得 能 够 引用 游标 对 象 。 游 标 类 型 可 用 于 声明 变量 ,或 者 跨 例 程 调用 、 引 用 
游标 的 例 程 输入 /输出 变 元 。 

30.2.2 查询 语言 增强 

除了 SQL 关系 运算 ， 例 如 内 连接 和 外 连接 ，SQL Server 还 支持 关系 运算 pivot, unpivot 和 apply- 

e pivot 运算 转换 它 的 输入 结果 集 的 形状 ， 从 表示 名 - 值 对 的 两 列 转换 为 多 列 ， 来 自 输 入 的 每 个 
名 称 均 为 一 列 。 输 入 中 的 名 称 列 称 为 转轴 ( pivot) 列 。 用 户 需要 指定 哪些 名 称 要 从 输入 转 置 到 输 
出 中 的 单独 列 。 考 虑 表 MonthlySales( ProductID，Month，SalesQty) 。 下 述 使 用 pivot 运算 的 查询 
为 Jan、Feb、Mar 每 个 月 返回 SalesQty 作为 单独 的 列 。 注 意 pivot 运算 还 在 表 中 所 有 其 他 列 上 执 
行 隐 式 聚集 ， 在 pivot 列 上 执行 显 式 聚集 。 

select * 
from MonthlySales pivot( sum( SalesQty) for Month in( ‘Jan’, ‘Feb’, ‘Mar’)) T ; 
pivot 的 反 运 算是 unpivot。 

© apply 运算 类 似 于 连接 ， 不 过 它 右 边 的 输入 是 一 个 表达 式 ， 可 能 包含 了 对 左边 输入 中 列 的 引用 ， 
例如 一 个 以 表 为 值 的 函数 调用 ， 它 将 来 自 左 边 输 入 的 一 列 或 多 列 作为 变 元 。 该 运算 产生 的 列 的 
集合 是 来 自 两 个 输入 的 列 的 并 。apply 运算 可 用 于 为 其 左边 输入 的 每 行 计 算 右 边 输 入 的 值 ， 并 
在 所 有 这 些 计 算出 的 行 上 执行 union all 运算 。apply 运算 和 joint 一 样 有 两 类 ， 分别 是 cross 和 
outer。 这 两 类 的 不 同 之 处 在 于 它们 如 何 处 理 右 边 输 入 产生 空 结 果 集 的 情况 。 在 cross apply 的 
情况 下 ， 这 将 导致 来 自 左边 输 入 的 相应 行 不 出 现在 结果 中 。 在 outer apply 的 情况 下 ， 来 自 左边 
输入 的 行 出 现在 结果 中 ,， 且 在 右边 输入 的 相应 列 上 取 NULL 值 。 考 虑 一 个 以 表 为 值 的 函数 
FindRepors， 它 的 输入 是 给 定 雇员 的 站 ， 并 返回 组 织 机 构 中 直接 或 间接 向 该 雇员 做 报告 的 雇员 
的 集合 。 以 下 的 查询 为 Departments 表 中 每 个 部 门 的 经 理 调用 这 个 函数 : 


select ` 
from Departments D cross apply FindReports( D. ManagerID ) 


30.2.3 例 程 

用 户 可 以 使 用 Transact-SQL 或 . NET 语言 编写 例 程 ， 在 服务 器 进程 内 部 作为 标量 或 表 函 数 、 存 储 过 
程 和 触发 器 来 运行 。 所 有 这 些 例 程 在 数据 库 中 都 可 以 用 相应 的 createl function, procedure, trigger | 
DDL 语句 定义 。 标 量 函 数 可 以 在 SQL DML 或 DDL 语句 内 部 的 任意 标量 表达 式 中 使 用 。 以 表 为 值 的 函 
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数 可 以 用 在 select 语句 中 任何 允许 出 现 表 的 地 方 。 主 体 包含 单条 SQL select 语句 的 Transact-SQL X {E K 
数 在 引用 该 函数 的 查询 中 被 当 作 视 图 (内 联 扩展 ) 。 由 于 表 值 函数 允许 输入 变 元 ， 内 联 的 表 值 函数 就 可 
看 作 参 数 化 的 视图 。 
30.2.3.1 带 索 引 的 视图 
除了 在 ANSI SQL 中 定义 的 传统 视图 ，SQL Server 还 支持 带 索引 的 ( 物化) 视图。 带 索 引 的 视图 充分 
增强 了 复杂 决策 支持 查询 的 性 能 ， 该 类 查询 检索 基 表 中 大 量 的 行 ， 并 将 大 量 信息 聚集 为 简洁 的 总 和 、 
计数 以 及 平均 值 。SQL Server 支持 在 一 个 视图 上 创建 一 个 聚集 索引 以 及 任何 数量 的 非 聚 集 索引 。 一 且 
一 个 视图 带 索引 ， 优 化 器 就 能 在 引用 该 视图 或 其 基 表 的 查询 中 使 用 它 的 索引 。 查 询 没 必要 为 在 查询 计 
划 中 使 用 带 索 引 的 视图 而 显 式 提 及 视图 ， 因 为 匹配 是 根据 视图 定义 自动 完成 的 。 这 样 ， 现 有 查询 能 够 
从 提升 的 效率 中 受益 ， 因 为 可 以 直接 从 带 索引 的 视图 中 检索 数据 ， 而 无 需 重 写 。 通 过 自动 传播 所 有 更 
新 来 维护 带 索 引 的 视图 和 基本 表 是 一 致 的 。 
30.2.4 带 过 滤 的 索引 
带 过 滤 的 索引 是 一 种 优化 的 非 聚集 的 索引 ， 特 别 适合 于 从 一 个 良好 定义 的 数据 子 集 中 进行 选择 的 
查询 。 它 使 用 一 个 过 滤 谓 词 来 索引 表 中 行 的 一 部 分 。 一 个 设计 良好 的 带 过 滤 的 索引 可 以 提高 查询 性 能 ， 
降低 索引 维护 开销 ， 比 全 表 索 引 更 能 减少 索引 存储 代价 。 相 对 于 全 表 索 引 ， 带 过 滤 的 索引 可 以 提供 下 
述 好 处 : 
© 改进 查询 性 能 和 计划 的 质量 。 设 计 良 好 的 带 过 滤 的 索引 改进 查询 性 能 和 执行 计划 的 质量 ， 因 为 
它 比 全 表 的 非 聚集 索引 小 且 有 过 滤 统 计 信 息 。 由 于 只 包含 在 带 过 滤 的 索引 中 的 行 ， 过 滤 统 计 信 
息 比 全 表 统 计 信 息 更 准确 。 
© 降低 索引 维护 开销 。 仅 当 数据 操纵 语言 (DML) 语 句 影响 索引 中 的 数据 时 ， 才 进行 索引 维护 。 因 
为 带 过 滤 的 索引 更 小 且 仅 当 该 索引 中 的 数据 被 影响 时 才 维 护 ， 相 对 于 全 表 非 聚集 索引 ， 带 过 滤 
的 索引 降低 了 索引 维护 开销 。 有 可 能 存在 大 量 带 过 滤 的 索引 ， 特 别 是 当 它 们 所 包含 的 数据 不 经 
常 被 影响 时 。 同 样 ， 如 果 带 过 滤 的 索引 只 包含 频繁 被 影响 的 数据 ， 这 种 更 小 的 索引 规模 减 小 了 
更 新 统计 信息 的 代价 。 
。 减少 索 引 存储 代 价 。 当 不 需要 全 表 索 引 时 ， 创 建 带 过 滤 的 索引 能 减少 用 于 非 聚 集 索 引 的 磁盘 存 
储 。 可 以 用 多 个 带 过 滤 的 索引 取代 一 个 全 表 非 聚集 索引 ， 而 不 会 显著 增加 存储 需求 
过 滤 的 统计 数据 也 可 以 显 式 地 创建 ， 独 立 于 带 过 滤 的 索引 。 
30.2.4.1 可 更 新 视图 和 触发 器 
通常 ， 如 果 数 据 修改 仅 发 生 在 视图 的 一 个 基 表 上 ， 那 么 视图 可 以 是 update delete 或 者 insert if 4 
的 操作 对 象 。 对 划分 视图 的 更 新 操作 会 传播 到 多 个 基 表 。 比 如 ， 下 面 的 update 将 会 把 出 版 商 “0736” 的 
价格 提高 10% : 
update titleview 


set price = price” 1.10 
where pub_id = ‘0736’ ; 


对 于 影响 到 多 个 基 表 的 数据 修改 ， 如 果 有 一 个 为 该 操作 定义 的 instead 触发 器 ， 则 该 视图 可 以 更 
新 。insert、update 或 delete 操作 的 instead 触发 器 可 以 定义 在 视图 上 ， 来 指定 必须 在 基 表 上 执行 更 新 
以 反映 视图 上 的 相应 修改 。 

触发 器 是 在 基 表 或 者 视图 上 发 出 DML( update, insert 或 delete ) 语句 或 DDL 语句 时 自动 执行 的 
Transact-SQL 或 . NET 过 程 。 触 发 器 是 一 种 当 数 据 被 修改 或 执行 DDL 语句 时 允许 自动 执行 商务 逻辑 的 机 

制 。 触 发 器 可 以 扩充 描述 性 约束 、 默 认 值 和 规则 的 完整 性 检查 逻辑 ， 尽 管 只 要 描述 性 约束 够 用 就 应 当 
优先 使 用 它们 ， 因 为 它们 可 以 被 查询 优化 器 用 来 推断 数据 内 容 。 

根据 触发 触发 器 的 事件 类 型 ， 触 发 器 分 为 DML 触发 器 和 DDL 触发 器 。DML 触发 器 是 在 正 被 修改 
的 基 表 或 视图 上 定义 的 。DDL 触发 器 是 在 整个 数据 库 上 对 一 条 或 多 条 DDL 语句 ( 例如 create table、 
drop procedure 等 ) 定 义 的 。 

根据 调用 触发 器 的 时 间 相 对 于 触发 它 的 动作 的 时 间 先 后 ， 可 分 为 after 触发 器 和 instead 触发 器 。 
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after 触发 器 在 触发 语句 及 随后 的 描述 性 约束 执行 之 后 才 执行 。instead 触发 器 代替 触发 动作 执行 。 
instead 触发 器 可 认为 是 类 似 于 before 触发 器 的 ， 但 是 它 实 际 上 是 取代 了 触发 动作 。 在 SQL Server 中 ， 
DML after 触发 器 只 能 在 基 表 上 定义 ， 而 DML instead 触发 器 能 在 基 表 或 视图 上 定义 。instead 触发 需 事 
实 上 人 允许 任何 视图 都 可 以 通过 用 户 提供 的 逻辑 而 更 新 。DDL instead 触发 器 可 在 任意 DDL 语句 上 定义 。 


30.3 存储 和 索引 


在 SQL Server 中 ， 数 据 库 是 指 一 个 包含 数据 的 文件 集合 ， 它 由 单个 事务 日 志 来 支持 。SQL Server 中 
数据 库 是 管理 的 主要 单元 ， 它 还 为 物理 结构 ( 如 表 和 索引 ) 、 逻 辑 结构 (如 约束 和 视图 ) 提供 容器 。 
30. 3.1 文件 组 

为 了 有 效 管 理 数据 库 中 的 空间 ， 数 据 库 中 的 数据 文件 集 被 划分 成 若干 组 ， 称 为 文件 组 。 每 个 文件 
组 包含 一 个 或 多 个 操作 系统 文件 。 

每 个 数据 库 至 少 有 一 个 文件 组 ， 称 为 主 文件 组 。 该 文件 组 在 系统 表 中 保存 了 数据 库 的 所 有 元 数据 ， 
主 文件 组 也 可 以 存放 用 户 数据 。 

如 果 用 户 创建 了 额外 的 自 定义 文件 组 ， 用 户 可 以 将 单独 的 表 、 索 引 或 者 表 的 大 对 象 列 存放 到 特定 
的 文件 组 中 ， 从 而 显 式 地 控制 它们 的 位 置 。 例 如 ， 用 户 可 以 选择 把 决定 性 能 的 关键 索引 存放 到 位 于 固 
态 硬盘 的 文件 组 上 。 类 似 地 ， 用 户 可 以 选择 将 包含 视频 数据 的 varbinary ( max) 列 放 到 为 流 优化 的 VO F 
系统 上 。 

30.3.2 文件 组 内 的 空间 管理 

文件 组 的 主要 目的 之 一 是 进行 有 效 的 空间 管理 。 所 有 数据 文件 都 被 划分 成 固定 大 小 的 SKB 单元 ， 
称 为 页 。 分 配 系统 负责 把 这 些 页 分 配给 表 和 索引 。 分 配 系 统 的 目标 是 把 空间 浪费 的 数量 减 到 最 小 ， 同 1233] 
时 保持 数据 库 中 的 碎片 数量 最 少 ， 以 保证 好 的 扫描 性 能 。 为 了 实现 这 个 目标 ， 分 配 管理 器 通常 以 8 个 
连续 页 ( 称 作 盘 区 ) 为 单位 进行 所 有 页 的 分 配 和 重 分 配 。 

分 配 系 统 通过 各 种 位 图 来 管理 这 些 盘 区 。 这 些 位 图 使 得 分 配 系统 可 以 快速 找到 一 个 页 或 者 盘 区 来 
进行 分 配 。 当 执行 全 表 扫 描 或 索引 扫描 时 也 用 到 这 些 位 图 。 利 用 基于 分 配 的 位 图 做 扫描 的 好 处 是 ， 它 
允许 按照 磁盘 顺序 遍历 属于 表 或 索引 叶 结 点 层 的 所 有 盘 区 ， 这 会 大 大 提高 扫描 性 能 。 

如 果 文 件 组 中 有 不 止 一 个 文件 ， 分 配 系统 使 用 * 比例 填充 ”( proportional fl) 算 法 来 给 该 文件 组 上 的 
任意 对 象 分 配 盘 区 。 每 个 文件 都 是 按 其 中 相对 于 其 他 文件 自由 空间 的 比例 来 填充 的 。 这 以 近似 相同 的 
比率 来 填充 文件 组 中 的 所 有 文件 ， 并 允许 系统 平均 地 使 用 文件 组 中 的 所 有 文件 。 文 件 也 可 以 设置 为 若 
文件 组 用 完 空 间 则 自动 地 增长 。SQL Server 允许 文件 缩小 。 为 了 缩小 一 个 数据 文件 ，SQL Server 从 文件 
的 物理 尾 端 将 所 有 数据 移 到 一 个 更 靠近 文件 开头 的 位 置 ， 然 后 事实 上 缩小 文件 ， 把 剩余 空间 释放 给 操 
作 系 统 。 

30.3.3 # 

SQL Server 支持 堆 和 聚集 组 织 的 表 。 在 堆 组 织 的 表 中 ， 表 的 每 行 的 位 置 完全 由 系统 决定 ， 用 户 不 
能 用 任何 方式 指定 。 堆 中 的 行 有 一 个 固定 的 标识 符 ， 称 作 row( RID) ， 该 值 一 直 保 持 不 变 ， 除 非 文 件 缩 
小 且 该 行 被 移动 。 如 果 行 变 得 足够 大 以 至 于 它 原先 插入 到 的 页 面 放 不 下 了 ， 该 记录 会 移 到 别 的 地 方 ， 
但 在 原来 的 位 置 保 留 了 一 个 转发 存根 这样， 就 仍然 可 以 用 其 原先 的 RID 来 找到 该 记录 。 

在 聚集 索引 组 织 的 表 中 ， 表 的 行 存放 在 一 棵 按 索 引 的 聚集 码 排序 的 B* 树 中 。 聚 集 索 引 的 码 也 用 作 
每 行 的 唯一 性 标识 符 。 聚 集 索 引 的 码 可 以 定义 为 非 唯一 性 的 ， 在 这 种 情况 下 SQL Server 添加 一 个 隐藏 
列 来 使 得 该 码 唯 一 。 聚 集 索引 也 用 作 搜 索 结构 ， 来 识别 表 中 具有 某 个 特定 码 值 的 行 ， 或 者 扫描 码 在 特 
定 范围 内 的 表 中 的 一 组 行 。 聚 集 索引 是 最 常用 的 表 组 织 形 式 
30.3.4 索引 

SQL Server 还 支持 辅助 的 ( 非 聚集 )B* 树 索引 。 如 果 查 询 仅 涉 及 那些 通过 辅助 索引 就 能 得 到 的 列 ， 
那 就 可 以 通过 检索 来 自 索引 叶 结 点 层 的 页 来 处 理 该 查询 ， 而 无 需 从 聚集 索引 或 堆 中 检索 数据 。 拥 有 到 
集 索 引 的 表 上 的 非 聚集 索引 包含 聚集 索引 的 码 列 。 这 样 ， 聚 集 索引 行 可 以 移动 到 不 同 的 页 (通过 分 裂 、[1234| 
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磁盘 碎片 整理 甚至 索引 重建 ) 而 无 需 改变 非 聚 集 索 引 。 

SQL Server 支持 在 表 上 添加 计算 列 。 计 算 列 上 的 值 是 一 个 表达 式 ， 通 常 基于 该 行 中 其 他 列 的 值 。 
SQL Server 允许 用 户 在 计算 列 上 建立 辅助 索引 。 

30. 3.5 分 区 

SQL Server 支持 在 表 和 非 聚 集 索 引 上 进行 范围 划分 。 分 区 索引 由 多 棵 B' 树 组 成 ， 每 个 分 区 对 应 一 
BBR. RARE) 的 分 区 表 由 多 个 堆 组 成 ， 每 个 分 区 对 应 一 个 堆 。 简 而 言 之 ， 我 们 只 涉及 分 区 
索引 (聚集 的 或 非 聚集 的 ) ， 而 在 后 面 的 讨论 中 忽略 堆 。 

对 大 索引 进行 分 区 能 使 管理 员 更 灵活 地 管理 索引 的 存储 ， 并 提高 一 些 查询 的 性 能 ， 因 为 分 区 扮演 
了 粗 粒 度 索 引 的 角色 。 

对 索引 的 分 区 由 提供 的 分 区 函数 和 分 区 模式 来 共同 指定 。 分 区 函数 把 分 区 列 (索引 中 的 任意 列 ) 的 
域 映射 到 标号 为 1 BN 的 分 区 。 分 区 模式 将 分 区 函数 产生 的 分 区 号 映射 到 存储 分 区 的 特定 文件 组 。 
30.3.6 ”在线 创建 索引 

在 表 上 创建 新 索引 和 重建 现 有 索引 可 以 联机 执行 ， 例 如 ， 当 select, insert, delete 和 update 操作 
正在 表 上 执行 的 时 候 。 新 索引 的 创建 分 三 个 阶段 。 第 一 个 阶段 为 新 索引 简单 地 构造 一 棵 空 B* 树 ， 并 用 
目录 显示 新 索引 对 维护 操作 是 可 用 的 。 就 是 说 ， 新 索引 必须 由 所 有 后 续 的 insert, delete 和 update 操作 
来 维护 ， 但 它 对 查询 不 可 用 。 第 二 阶段 包括 由 扫描 表 来 获得 每 行 的 索引 列 ， 对 行 排序 并 将 它们 插入 新 
的 B* 树 中 。 这 些 插 入 必须 和 新 B’ 树 中 的 其 他 行 小 心地 交互 ， 这 些 行 是 由 在 基 表 上 的 更 新 引起 的 索引 
维护 操作 插入 在 那里 的 。 这 种 扫描 是 快照 扫描 ， 没 有 加 锁 ， 保 证 扫描 看 到 仅 具 有 在 扫描 开始 时 已 提交 
事务 的 结果 的 整 张 表 。 这 是 通过 使 用 30. 5. 1 节 中 描述 的 快照 隔离 技术 实现 的 。 建 立 索 引 的 最 后 阶段 涉 
及 更 新 目录 以 示 索 引 创建 已 经 完成 ， 且 索引 对 查询 是 可 用 的 。 

30.3.7 扫描 和 预 读 
SQL Server 中 查询 的 执行 包括 对 底层 的 表 和 索引 的 各 种 不 同 的 扫描 模式 。 这 些 包括 有 序 和 无 序 扫 
描 ， 串 行 和 并 行 扫描 ， 单 向 和 双向 扫描 ， 向 前 和 向 后 扫描 ， 全 表 或 索引 扫描 以 及 范围 或 过 滤 扫 描 。 

每 种 扫描 模式 都 有 一 种 预 读 机 制 ， 试 图 保持 扫描 先 于 查询 执行 的 需要 ， 以 减少 搜索 和 潜在 开销 ， 
并 充分 利用 磁盘 空闲 时 间 。SQL Server 预 读 算法 利用 来 自 查询 执行 计划 的 知识 以 促使 预 读 ， 并 保证 只 
有 那些 查询 真正 需要 的 数据 才 被 读 取 。 预 读 的 量 根 据 缓冲 池 的 大 小 、 磁 盘子 系统 能 承受 的 VO 量 以 及 
查询 执行 时 消耗 数据 的 速率 来 自动 定 比 。 

30.3.8 压缩 

SQL Server 支持 对 表 和 索引 的 行 及 页 压缩 。 行 压缩 使 用 一 种 可 变 长 度 的 数据 类 型 格式 ， 如 整数 ， 
它 在 传统 上 被 认为 是 定 长 的 。 页 压缩 去 除了 列 上 共同 的 前 缀 并 为 共同 的 值 构建 了 一 个 逐 页 (per-page ) 
字典 。 


30.4 查询 处 理 和 优化 


SQL Server 的 查询 处 理 器 基于 一 个 可 扩展 的 框架 ， 它 能 很 快 地 合并 新 的 执行 和 优化 技术 。 在 扩展 
的 关系 代数 中 ， 任 意 SQL 查询 可 用 一 棵 操作 树 来 表示 。 通 过 将 这 种 代数 的 运算 符 抽象 为 迭代 器 
(iterator) ， 查 询 执行 将 数据 处 理 算法 封装 为 逻辑 单元 ， 这 些 单元 之 间 使 用 CetNextRow( ) 接口 来 通信 。 
从 初始 查询 树 出 发 ， 查 询 优 化 器 通过 使 用 树 形变 换 产 生 可 选 方案 ， 并 通过 考虑 迭代 器 行为 和 统计 模型 
来 估计 待 处 理 的 行 的 数量 ， 进 而 估计 这 些 方案 的 执行 代价 。 
30. 4. 1 编译 处 理 概述 

复杂 查询 提供 了 很 大 的 优化 机 会 ， 需 要 跨 查 询 块 界 线 对 运算 符 进 行 重 排序 ， 并 仅 基 于 估计 的 开销 
来 选择 查询 计划 。 为 了 寻求 这 些 机 会 ， 查 询 优 化 器 与 其 他 商用 系统 中 采用 的 传统 查询 优化 方法 不 同 ， 
它 支持 一 个 更 通用 的 、 纯 代数 的 、 基 于 级 联 优化 器 原型 的 框架 。 查 询 优化 器 是 查询 编译 处 理 的 一 部 分 ， 
由 以 下 四 步 组 成 : 
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© 解析 / 绑 定 (parsing/binding) 。 解 析 之 后 ， 绑 定 器 使 用 目录 来 分 解 表 名 和 列 名 。SQL Server 使 用 
查询 计划 高 速 缓存 来 避免 对 相同 的 或 结构 相似 的 查询 重复 优化 。 如 果 没 有 高 速 缓存 的 计划 可 
用 ， 则 产生 一 棵 初始 的 操作 树 。 操 作 树 仅仅 是 关系 运算 的 组 合 ， 并 不 受 诸如 查询 块 或 派生 表 概 
念 的 限制 ， 它 们 通常 会 阻碍 优化 。 
© 简化 /规范 化 (simplification/normalization) 。 优 化 器 在 操作 树 上 运用 简化 规则 得 到 一 种 规范 的 简 
化 形式 。 在 简化 过 程 中 ， 优 化 器 决定 并 加 载 基数 估计 所 需要 的 统计 数据 。 
o 基于 代价 的 优化 (cost-based optimization) 。 优 化 器 用 探测 和 实现 规则 来 产生 候选 方案 ， 估 计 执 行 
开销 ， 并 选择 预期 开销 最 小 的 查询 计划 。 探 测 规则 为 一 个 广泛 的 运算 符 集合 实现 重 排序 ， 包 括 
连接 和 聚集 重 排序 。 实 现 规则 引入 候选 方案 ， 如 归并 连接 和 散 列 连接 。 
© 查询 计划 准备 (plan preparation) 。 优 化 器 为 选 定 的 查询 计划 建立 查询 执行 结构 。 
为 获得 最 好 的 结果 ， 基 于 代价 的 优化 不 是 分 阶段 的 ， 在 每 个 阶段 独立 地 优化 查询 的 不 同方 面 ; 它 
也 不 受 限于 单个 的 维 ， 比 如 连接 枚 举 。 相 反 ， 一 组 转换 规则 定义 了 感 兴趣 的 空间 ， 并 统一 使 用 代价 估 
计 来 选择 一 个 有 效 的 查询 计划 。 
30. 4.2 查询 简化 

简化 时 ， 只 有 保证 产生 更 低 代 价 的 替代 查询 的 转换 才 会 应 用 。 优 化 器 尽量 在 操作 树 上 把 选择 操作 
下 推 ; 它 检 测 谓词 间 的 冲突 并 考虑 已 声明 的 约束 。 它 用 冲突 来 标示 可 以 从 树 中 移 除 的 子 表达 式 。 通 常 
情况 是 消除 那些 从 带 不 同 约束 的 表 中 检索 数据 的 union 分 支 . 

许多 简化 规则 是 上 下 文 相关 的 。 也 就 是 说 ， 只 有 在 使 用 子 表达 式 的 上 下 文中 ,替代 操作 才 有 效 。 
比如 ， 如 果 随 后 有 一 个 过 滤 操 作 将 丢弃 那些 用 null 填充 的 不 匹配 的 行 ， 那么 外 连接 可 简化 为 内 连接 。 
另 一 个 例子 是 ， 当 以 后 不 再 用 到 参照 表 上 的 列 时 ， 可 以 消除 外 码 上 的 连接 。 第 三 个 例子 是 在 重复 不 敏 
感 的 上 下 文中 ， 这 意味 着 传送 一 行 的 一 个 或 多 个 拷贝 并 不 影响 查询 结果 。 半 连接 以 及 distinct 下 的 子 表 
达 式 是 重复 不 敏感 的 ， 例如， 它们 允许 把 union 转换 成 union all, 

GbAgg 运算 符 用 于 分 组 和 聚集 ， 它 创建 分 组 ， 并 有 选择 性 地 在 各 个 分 组 上 运用 聚集 函数 。SQL 中 
用 distinct 关键 字 表 达 的 消除 重复 只 不 过 是 一 种 不 计算 聚集 函数 的 Cb4gg。 在 简化 时 ， 有 关 关 键 字 和 函 
数 依赖 的 信息 用 于 减少 分 组 的 列 。 

通过 去 除 相关 的 查询 描述 并 使 用 一 些 替 代 的 连接 变量 ， 可 以 将 子 查询 规范 化 。 去 除 相关 性 并 不 是 
“ 子 查询 执行 策略 ”， 而 仅仅 是 一 个 规范 化 步骤 。 然 后 在 基于 代价 的 优化 中 将 考虑 各 种 执行 策略 。 
30.4.3 重 排序 和 基于 代价 的 优化 

在 SQL Server 中 ， 转 换 完 全 集成 到 执行 计划 的 基于 代价 的 生成 和 选择 中 。 查 询 优化 器 包括 大 约 350 
条 逻辑 的 和 物理 的 转化 规则 。 除 了 内 连接 的 重 排序 ， 查 询 优 化 器 还 对 来 自 标 准 关系 代数 (对 SQL 而 言 ， 
带 有 重复 ) 的 外 连接 、 半 连接 和 反 半 连接 运算 使 用 重 排序 转换 。GbAgg 操作 也 是 重 排序 的 ， 通 过 在 可 能 
的 时 候 把 它 移 到 连接 之 下 或 之 上 。 部 分 聚集 ， 即 引信 一 个 新 的 Gbhgg 对 随后 的 GbAgg 的 列 的 超 集 进行 
分 组 ， 是 在 连接 和 union all 之 下 考虑 的 ， 并 在 并 行 计划 中 也 是 如 此 。 详 细 描述 请 参考 文献 注解 中 给 出 
的 参考 文献 。 

相关 性 执行 在 探测 计划 时 考虑 ， 最 简单 的 情形 是 索引 查找 连接 。SQL Server 将 相关 性 执行 建 模 为 
单个 代数 运算 符 ， 称 为 apply， 它 在 表 了 以 及 一 个 参数 化 的 关系 表达 式 E(1) 上 操作 。Apply 为 了 的 每 一 
行 执行 ， 其 中 了 提供 参数 值 。 相 关 性 执行 被 认为 是 不 考虑 在 原始 SQL 表达 式 中 使 用 子 查 询 的 一 种 替 
代 执 行 。 当 表 了 很 小 并 且 索 引 能 支持 E(1) 有 效 的 参数 化 执行 时 ， 这 是 一 种 很 有 效 的 策略 。 男 外 ， 当 有 
重复 的 参数 值 时 ， 我 们 考虑 通过 以 下 两 种 技术 来 减少 E(1) 的 执行 次 数 : 在 参数 值 上 对 THF, SBR 
值 保持 不 变 时 可 以 重用 单个 E(i) 的 结果 ; 或 者 利用 一 个 散 列表 保持 对 E(t) 关于 较 早 参数 值 (的 某 些 子 
集 ) 的 结果 的 追踪 。 

某 些 应 用 基于 行 所 在 组 的 一 些 聚 集结 果 来 选择 行 。 比 如 ,“ 找 出 那些 余额 比 他 们 所 在 市 场 段 的 平均 
余额 的 两 倍 还 多 的 客户 ”。 这 个 SQL 表达 式 需 要 自 连 接 。 在 探测 方案 时 ， 这 种 模式 将 被 检测 到 ， 并 考 
虑 将 在 单 次 扫描 上 按 每 段 执行 作为 自 连 接 的 蔡 代 方案 。 
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在 基于 代价 的 优化 中 ， 还 可 以 考虑 利用 物化 视图 。 在 物化 视图 使 用 中 视图 匹配 和 运算 符 重 排序 的 
相互 影响 可 能 并 不 明显 ， 除 非 发 生 了 某 些 其 他 的 重 排序 。 当 发 现 一 个 视图 与 某 个 子 表达 式 匹 配 时 ， 包 
含 该 视图 结果 的 表 被 加 进来 ， 作 为 相应 表达 式 的 替换 方案 。 它 也 许 比 原来 的 表达 式 更 好 ， 也 许 更 差 ， 
这 依赖 于 数据 分 布 和 所 能 利用 的 索引 。 究 竞选 择 哪 种 方案 取决 于 对 它们 的 代价 估计 。 

为 了 估算 一 个 计划 的 执行 代价 ， 模 型 考虑 了 子 表达 式 执行 的 次 数 和 行 目标 (row goal) ， 它 是 预计 会 
被 父 操作 消耗 的 行 数 。 在 top-n 查询 和 Apply/semijoin 情况 下 ， 行 目标 可 以 少 于 估计 的 基数 。 例 如 ， 只 要 
E(1) 产 生 一 行 ( 即 它 测试 exists E(t) ) Apply/semijoin 就 把 行 ! 从 表 7 中 输出 。 这 样 ，E(1) 输 出 的 行 目 
标 就 是 1， 为 BCz) 的 这 个 行 目标 计算 出 E(1) 子 树 的 行 目标 ， 并 用 于 代价 估计。 

30.4.4 更 新 计划 

更 新 计划 优化 索引 维护 、 约 束 校 验 、 级 联动 作 应 用 、 物 化 视图 维护 。 对 于 索引 维护 ， 更 新 计划 并 
不 是 考虑 每 一 行 并 为 它 维护 所 有 索引 ， 而 是 按 每 个 索引 实施 修改 ， 按 关键 字 顺 序 将 行 排序 并 实施 更 新 
操作 。 这 就 把 随机 VO 减 到 最 少 ， 尤 其 是 当 待 更 新 的 行 数 很 大 时 。 约 束 是 通过 assert 运算 符 来 处 理 的 ， 
它 执 行 一 个 谓词 ， 如 果 结果 是 false 就 抛 出 一 个 错误 。 参 照 约束 是 通过 exists 谓词 来 定义 的 ， 它 相应 地 
变 成 一 些 半 连 接 并 通过 考虑 各 种 执行 算法 来 进行 优化 。 

万 圣 节 问 题 (在 前 面 13. 6 节 介绍 过 ) 是 指 如 下 的 反常 : 假如 工资 索引 按 升序 读 取 ， 并 正 将 工资 增 涨 
10% 。 更 新 的 结果 是 ， 行 会 在 索引 中 向 前 移动 ， 于 是 它们 又 被 发 现 并 再 次 更 新 ， 导 致 无 限 循环 解决 
这 个 问题 的 一 个 办 法 是 ， 把 处 理 过 程 分 成 两 个 阶段 。 首先 ， 读 出 所 有 将 要 更 新 的 行 ， 并 把 它们 复制 到 
某 些 临时 空间 中 ， 然 后 从 这 个 空间 读 取 并 实施 所 有 更 新 。 另 一 个 办 法 是 从 另外 一 个 索引 中 读 ， 该 索引 
中 的 行 不 会 因为 更 新 结果 而 移动 。 如 果 在 待 更 新 的 行 上 进行 排序 或 建立 散 列 表 ， 则 有 些 执行 计划 提供 
了 自动 的 阶段 分 离 。 万 圣 节 问 题 防护 是 作为 计划 的 性 质 而 建 模 的 。 考 虑 提供 所 需 性 质 的 多 个 计划 ， 并 
基于 估计 的 执行 代价 选择 其 中 一 个 。 

30.4.5 优化 时 的 数据 分 析 

把 统计 数据 收集 作为 正在 进行 的 优化 的 一 部 分 执行 是 SQL 开创 性 的 技术 。 计 算 结果 的 大 小 估计 基 
于 给 定 表达 式 中 所 用 到 的 列 上 的 统计 数据 。 这 些 统计 数据 包括 列 值 上 的 最 大 差异 直方 图 和 许多 计算 窗 
度 与 行 大 小 的 计数 器 ， 等 等 。 数 据 库 管理 员 可 以 用 扩展 的 SQL 语法 来 显 式 创建 统计 数据 。 

不 过 如 果 给 定 列 上 没有 统计 数据 可 用 ，SQL Server 的 优化 器 将 暂停 正在 进行 的 优化 ， 并 收集 所 需 
的 统计 数据 。 一 旦 统计 数据 计算 出 来 ， 原 来 的 优化 利用 新 产生 的 统计 数据 再 继续 进行 。 后 续 查 询 的 优 
化 重用 以 往 产生 的 统计 数据 。 典 型 地 ， 经 过 一 小 段 时 间 后 ， 频 繁 使 用 列 的 统计 数据 已 经 建 好 ， 为 收集 
新 的 统计 数据 而 发 生 的 中 断 就 变 得 不 频繁 了 。 通 过 保持 对 表 中 被 修改 行 数 的 跟踪 ， 为 所 有 受 影 响 的 统 
计数 据 维 护 了 一 个 过 期 度量 。 一 旦 过 期 超过 了 特定 阔 值 ， 将 重新 计算 统计 数据 ， 并 重新 编译 高 速 缓存 
的 查询 计划 以 考虑 改变 后 的 数据 分 布 。 

统计 数据 可 以 异步 地 重新 计算 ,这 避免 了 同步 计算 引发 的 潜在 的 较 长 的 编译 时 间 。 触 发 统计 计算 
的 优化 潜在 地 使 用 旧 的 统计 数据 。 然 而 ， 随 后 的 查询 能 够 利用 重新 计算 的 统计 数据 。 这 允许 在 优化 花 
费 的 时 间 和 结果 查询 计划 的 质量 之 间 取 得 可 接受 的 平衡 点 . 

30.4.6 ”部 分 搜索 和 启发 式 搜索 

基于 代价 的 查询 优化 器 将 面临 搜索 空间 爆炸 问题 ， 因 为 应 用 程序 可 能 发 出 涉及 几 十 个 表 的 查询 。 
为 了 解决 该 问题 ，SQL Server 使 用 多 个 优化 阶段 ， 每 个 阶段 运用 查询 转换 来 连续 探测 更 大 范围 的 搜索 
空间 。 

有 简单 而 完整 的 转换 来 穷 举 所 有 优化 方案 ， 也 有 智能 转换 来 实现 各 种 启发 式 搜索 。 智 能 转换 产生 
的 查询 计划 在 搜索 空间 中 相隔 很 还， 而 简单 转换 探测 相 邻 空间 。 优 化 阶段 采用 这 两 种 转换 的 混合 ， 首 
先 强调 智能 转换 ， 然 后 换 成 简单 转换 。 子 树 上 的 最 佳 结果 被 保存 下 来 ， 以 便 后 续 阶 段 可 以 利用 早先 生 
成 的 结果 。 每 个 阶段 都 需要 权衡 对 立 计划 产生 技术 : 

。 穷 举 产生 蔡 代 方案 : 为 了 生成 完整 的 空间 ， 优 化 器 使 用 完全 的 、 局 部 的 、 非 宛 余 的 转换 ， 一 条 

转换 规则 等 价 于 一 系列 更 原始 的 转换 ， 这 种 规则 只 会 增加 额外 的 开销 。 
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。 启发 式 产生 候选 方案 : 少数 几 个 可 能 的 候选 者 (在 代价 估计 的 基础 上 选择 出 来 ) 可 能 在 原始 转换 

规则 方面 相差 很 远 。 这 里 ， 所 需 的 转换 是 非 完 全 的 、 全 局 的 和 有 宛 余 的 。 

当 产 生出 第 一 个 查询 计划 以 后 ， 优 化 可 以 随时 终止 。 这 样 的 终止 是 基于 已 经 发 现 的 最 佳 计划 的 开 
销 估 计 和 已 在 优化 中 花 去 的 时 间 。 比 如 ， 如 果 一 个 查询 只 需 在 一 些 索 引 中 查看 某 几 行 ， 则 在 早期 阶段 
就 可 能 很 快 产生 一 个 非常 廉价 的 计划 ， 从 而 终止 优化 。 在 合适 的 时 候 这 种 方法 允许 随后 容易 地 增加 新 
的 启发 式 方法 ， 而 不 用 在 基于 代价 的 计划 选择 或 者 搜索 空间 的 穷 举 探测 之 间 折 中 。 

30. 4.7 查询 执行 

执行 算法 支持 基于 排序 和 基于 散 列 的 处 理 ， 而 且 它 们 的 数据 结构 被 设计 成 优化 利用 处 理 器 高 速 组 
存 。 散 列 操作 支持 基本 的 聚集 和 连接 ， 带 有 许多 优化 、 扩 展 和 对 数据 倾斜 的 动态 调整 。flow-distinct iz 
算 符 是 hash-distinct 的 一 个 变 体 ， 一 旦 找到 新 的 独特 值 ， 就 输出 行 ， 而 不 用 等 处 理 完整 个 输入 。 这 个 操 
作对 于 那些 使 用 distinct 且 只 请 求 少数 几 行 的 查询 很 有 效 ， 例 如 使 用 top n 结构 。 指 定 执行 (1) 的 相关 
性 计划 ， 对 表 了 7 了 的 每 一 行 :， 通常 包含 一 些 基于 参数 的 索引 查找 。 异 步 预 取 ( asynchronous prefetching) fÈ 
许 给 存储 引 敬 发 出 多 个 索引 查找 请 求 。 它 是 通过 这 种 方式 实现 的 : 对 表 7 的 行 :， 发 出 一 个 无 阻塞 的 索 
引 查 找 请 求 ， 然 后 将 1 放 在 预 取 队列 中 。 这 些 行 从 队列 中 取出 并 由 apply 用 于 执行 (1) 。E(1) 的 执行 
并 不 需要 数据 已 经 在 缓冲 池 中 ,但 是 有 明显 的 预 取 操 作 会 最 大 限度 地 利用 硬件 并 提升 性 能 。 队 列 大 小 
是 由 一 个 高 速 缓存 函数 动态 决定 的 。 如 果 apply 的 输出 行 无 需 排序 ， 那 么 为 了 最 小 化 VO 等 待 时 间 ， 
从 队列 中 取出 行 也 可 不 按 顺 序 。 

并 行 执行 是 通过 exchange 运算 符 实现 的 ， 它 管理 多 线程 、 分 区 或 广播 数据 ， 并 将 数据 送 入 多 个 进 
程 。 查 询 优化 器 根据 代价 估计 来 决定 exchange 的 位 置 。 并 行 度 根据 当前 系统 利用 率 ， 在 运行 时 动态 
决定 。 

索引 计划 由 前 面 描述 的 那些 部 分 组 成 。 比 如 ， 我 们 以 基于 代价 的 方式 考虑 使 用 索引 连接 来 解决 谓 
词 合 取 ( 或 者 用 索引 并 来 解决 谓词 析 取 ) 。 这 样 的 连接 可 以 用 SQL Server 的 任何 一 个 连接 算法 来 并 行 执 
行 。 仅 仅 为 了 把 查询 中 需要 的 一 组 列 拼接 成 一 行 ， 我 们 也 考虑 用 连接 索引 ， 它 有 时 候 比 扫描 基 表 要 快 。 
从 辅助 索引 中 取出 记录 ID 并 在 基 表 中 定位 相应 的 行 ， 与 执行 索引 查找 连接 同样 有 效 。 为 此 ， 我 们 使 用 
普通 的 相关 执行 技术 ， 比 如 异步 预 取 。 

与 存储 引擎 的 通信 通过 OLE-DB 实现 ， 它 允许 访问 那些 实现 该 接口 的 其 他 数据 源 提供 者 。OLE-DB 
是 用 于 分 布 式 和 远程 查询 的 机 制 ， 它 由 查询 处 理 器 直接 驱动 。 数 据 提供 者 可 根据 它们 提供 的 功能 范围 
来 分 类 ， 包 括 从 无 索引 能 力 的 简单 行 集合 提供 者 ， 到 完全 支持 SQL 的 提供 者 。 


30.5 并 发 与 恢复 
SQL Server 的 事务 、 日 志 、 封 锁 以 及 恢复 子 系统 实现 了 数据 库 系 统 所 需 的 ACID 特性 。 


30.5.1 事务 

在 SQL Server 中 每 条 语句 都 是 原子 的 ， 应 用 程序 能 够 为 每 条 语句 指定 不 同 的 隔离 性 级 别 。 单 个 事 
务 可 以 包含 的 语句 不 仅 可 以 是 选择 、 插 入 、 删 除 或 更 新 记录 的 语句 ， 还 可 以 是 创建 或 删除 表 、 建 立 索 
引 和 批量 导 和 数据。 事务 可 以 跨越 远程 服务 器 上 的 数据 库 。 当 事务 散布 在 不 同 服务 器 之 间 时 ，SQL 
Server 使 用 一 个 称 作 微软 分 布 式 事务 协调 器 ( Microsoft Distributed Transaction Coordinator，MS DTC ) 的 
Windows 操作 系统 服务 来 执行 两 阶段 提交 处 理 。MS DTC 支持 XA 事务 协议 ， 并 连同 OLE-DB 一 起 ,为 
异 构 系 统 间 的 ACID 事务 提供 了 基础 。 

SQL Server 默认 使 用 基于 封锁 的 并 发 控制 。SQL Server 还 为 游标 提供 了 乐观 的 并 发 控制 。 乐 观 的 并 
发 控制 是 基于 这 样 一 种 假设 : 多 个 用 户 之 间 资 源 冲突 的 可 能 性 很 小 (但 不 是 不 可 能 ) ， 因 此 允许 事务 执 
行 ， 无 需 封锁 任何 资源 。 只 有 当 试 图 改变 数据 时 ，SQL Server 才 检 查 资源 以 确定 是 否 发 生 过 冲突 。 如 
果 发 生 冲 突 ， 应 用 必须 重新 读数 据 并 再 次 尝试 改变 。 应 用 可 以 选择 通过 比较 值 或 者 通过 检查 行 上 一 个 
特殊 的 行 版 本 列 来 检测 改变 。 

SQL Server 支持 的 SQL 隔离 性 级 别 有 : 未 提交 读 、 已 提交 读 、 可 重复 读 和 可 串 行 化 。 已 提交 读 是 
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默认 级 别 。 另 外 ，SQL Server 支持 两 个 基于 快照 的 隔离 性 级 别 ( 前面 在 15. 7 节 中 描述 过 快照 隔离 ) 。 
© 快照 (snapshot) : 指 一 个 事务 中 的 任何 语句 读 到 的 数据 将 是 事务 开始 时 所 存在 的 数据 的 事务 一 
致 性 版 本 。 其 效果 就 好 像 事务 中 的 语句 看 到 的 是 在 事务 开始 时 存在 的 已 提交 数据 的 一 个 快照 
写 操作 使 用 15.7 节 描 述 的 验证 步骤 来 验证 ， 只 有 验证 成 功 才 允 许 完 成 。 
© 已 提交 读 快照 (read committed snapshot); 指 在 一 个 事务 中 执行 的 每 条 语句 看 到 的 都 是 语句 开始 
时 存在 的 数据 的 事务 一 致 性 快照 。 这 和 已 提交 读 隔离 形成 对 比 ， 在 那里 语句 能 看 到 在 语句 执行 
时 已 提交 事务 所 提交 的 更 新 。 
30. 5.2 封锁 
封锁 是 用 于 实施 隔离 性 级 别 语义 的 主要 机 制 。 所 有 更 新 获得 足够 的 在 事务 整个 执行 期 间 持 有 的 排 
他 锁 以 防止 发 生 更 新 冲突 。 不 同 持 续 时 间 所 持 有 的 共享 锁 为 查询 提供 不 同 的 SQL 隔离 性 级 别 。 
SQL Server 提供 了 多 粒度 封锁 ， 允 许 事 务 给 不 同类 型 的 资源 加 锁 ( 见 图 30-4， 其 中 资源 按 粒度 由 小 
到 大 的 次 序 排列 )。 为 了 使 封锁 开销 最 小 ，SQL Server 按 任务 自动 给 资源 加 合适 粒度 的 封锁 。 在 越 小 粒 
度 上 加 锁 ， 比 如 在 行 上 加 锁 ， 提 高 了 并 发 度 , 但 有 更 大 的 开销 ， 因 为 如 果 有 许多 行 需要 封锁 就 必须 持 
有 更 多 的 锁 。 


行 标识 符 ; 用 于 封锁 表 中 单独 的 一 行 
在 一 个 索引 中 的 行 锁 ; 在 可 串 行 化 事务 中 保护 码 的 范围 


8KB 的 表 或 索引 页 
Extent 一 组 连续 的 8 个 数据 页 或 索引 页 
Table ER, 包括 所 有 数据 和 索引 
DB 数据 库 





30-4 可 封锁 的 资源 


基本 的 SQL Server 封锁 模式 有 : 共享 锁 (S) 、 更 新 锁 (U) 和 排他 锁 (X) ; 也 为 多 粒度 锁 提供 了 意向 
锁 。 更 新 锁 用 来 防止 一 种 常见 的 死 锁 形式 : 当 多 个 会 话 读 取 ， 封 锁 ， 然 后 潜在 地 更 新 资源 时 会 发 生 这 
种 死 锁 。 另 一 种 封锁 模式 ， 叫 码 范 围 锁 ， 只 用 在 可 串 行 化 隔离 性 级 别 中 ， 用 于 封锁 索引 中 两 行 之 间 的 
范围 。 

30. 5.2.1 动态 锁 

细 粒 度 的 锁 可 以 提高 并 发 度 ， 但 需要 花费 额外 的 CPU 周期 和 内 存 来 获得 和 持 有 很 多 封锁 。 对 于 很 
多 查询 ， 较 粗 的 封锁 粒度 提供 了 更 好 的 性 能 ， 同 时 没有 (或 有 很 小 的 ) 并 发 性 损失 。 数 据 库 传 统 上 需要 
查询 提示 和 表 选 项 ， 让 应 用 程序 确定 封锁 粒度 。 另 外 ， 还 有 配置 参数 (通常 是 静态 的 ) 来 确定 分 配 多 少 
内 存 给 封锁 管理 器 。 

在 SQL Server 中 ， 为 获得 查询 中 用 到 的 每 个 索引 的 最 佳 性 能 和 并 发 度 ， 封 锁 粒 度 是 自动 优化 的 。 
而 且 ， 分 配给 封锁 管理 器 的 内 存 是 基于 系统 其 他 部 分 (包括 机 器 上 的 其 他 应 用 程序 ) 的 反馈 而 自动 调 
整 的 。 

在 查询 执行 前 ， 先 对 查询 中 用 到 的 每 个 表 和 索引 做 封锁 粒度 的 优化 。 封 锁 优 化 处 理 考虑 了 隔离 性 
级 别 ( 即 封 锁 保持 多 长 时 间 ) 、 扫 描 类 型 (范围 扫描 、 探 查 扫描 还 是 全 表 扫 描 ) 、 佑 计 扫 描 的 行 数 、 选 择 
率 ( 所 访问 行 中 ， 符 合 条 件 的 行 的 百分数 ) 、 行 密度 (每 页 行 数 ) 、 操 作 类 型 ( 扫描、 更 新 ) 、 用 户 在 粒度 
上 的 限制 以 及 可 用 的 系统 内 存 。 

一 旦 执行 查询 ， 如 果 系 统 获得 的 封锁 数量 远 远 超过 优化 器 的 估计 , 或 者 可 用 的 内 存 数量 下 降 且 不 
能 支持 所 需 的 封锁 数量 ,封锁 粒度 会 自动 升级 到 表 级 。 

30. 5.2.2 死 锁 检 测 

SQL Server 自动 检测 涉及 锁 和 其 他 资源 的 死 锁 。 例 如 ， 如 果 事 务 4 拥有 Tablel 的 锁 并 等 待 可 用 的 
内 存 资源 ， 而 事务 B 有 一 些 内 存 ， 但 直到 获得 在 Tablel 上 的 锁 才 会 释放 ， 那 么 这 两 个 事务 就 形成 了 死 
锁 。 线 程 和 通信 缓冲 区 也 会 陷入 死 锁 。 当 SQL Server 检测 到 死 锁 时 ， 它 考虑 每 个 事务 已 完成 的 工作 量 ， 
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选择 代价 最 小 的 事务 作为 死 锁 牺牲 者 ， 让 它 回 滚 。 

频繁 的 死 锁 检测 会 有 损 系 统 性 能 。SQL Server 根据 死 锁 发 生 频率 ， 自 动 调整 死 锁 检测 频率 。 如 果 |1242| 
KARRE, MEME S 秒 运行 次 。 如 果 死 人 频繁 ， 则 一 旦 茶 个 事务 等待 锁 ， 训 会 开始 检测 有 219 
算法 。 

30. 5.2.3 用 于 快照 隔离 的 行 版 本 

两 种 基于 快照 的 隔离 性 级 别 使 用 行 版 本 来 达到 查询 隔离 ， 同 时 不 把 查询 阻塞 在 更 新 之 后 ， 反 之 亦 
然 。 在 快照 隔离 下 ， 更 新 和 删除 操作 生成 受 影响 的 行 的 版 本 ， 并 将 它们 存储 到 临时 数据 库 中 。 当 没有 
活跃 事务 再 需要 它们 时 ， 这 些 版 本 就 是 收集 的 垃圾 。 因 此 ， 在 快照 隔离 下 运行 的 查询 不 需要 获得 锁 ， 
而 可 以 读 取 被 另 一 个 事务 更 新 /删除 的 任何 记录 的 旧版 本 。 行 版 本 还 用 于 为 联机 建立 索引 操作 提供 表 的 
快照 。 
30. 5.3 恢复 和 可 用 性 

SQL Server 被 设计 成 可 以 从 系统 和 媒介 故障 中 恢复 ， 恢 复 系 统 能 够 支持 有 极 大 缓冲 池 (100GB) 和 有 
上 千 个 磁盘 驱动 器 的 机 器 。 

30.5.3.1 从 崩溃 中 恢复 

逻辑 上 ， 日 志 是 潜在 无 限 的 、 由 日 志 序 列 号 (LSN ) 标识 的 日 志 记 录 流 。 物 理 上 ， 该 流 的 一 部 分 存 
储 在 日 志文 件 中 。 日 志 记录 保存 在 日 志文 件 中 ， 直 到 它们 被 备份 并 且 系 统 在 回 滚 或 复制 时 不 再 需要 它 
们 为 止 。 日 志文 件 根据 所 需 存 储 的 记录 来 自动 调整 文件 大 小 。 在 不 阻塞 当前 任何 操作 的 情况 下 ， 附 加 
的 日志 文件 可 以 加 到 正在 运行 的 数据 库 中 (例如 ， 在 新 的 磁盘 上 ) ， 所 有 日 志 被 当 作 是 一 个 连续 文件 。 

SQL Server 的 恢复 系统 与 ARIES 恢复 算法 ( 见 16. 8 节 ) 有 很 多 方面 是 类 似 的 ， 本 节 强 调 了 它们 之 间 
的 一 些 主要 不 同 。 

SQL Server 有 一 个 称 为 恢复 间隔 ( recovery interval) 的 配置 选项 ， 它 允许 管理 员 限 制 SQL Server 在 月 
溃 后 恢复 所 花 的 时 间 长 短 。 服 务 器 动态 调整 检查 点 频率 ， 以 将 恢复 时 间 减 少 到 恢复 间隔 之 内 。 检 查 点 
从 缓冲 池 刷 新 所 有 的 脏 页 面 ， 根 据 VO 系统 的 能 力 和 它 的 当前 工作 负载 进行 调整 ， 以 有 效 地 消除 对 正 
在 运行 事务 的 任何 影响 。 

崩溃 后 重启 时 ， 系 统 启动 多 个 线程 (根据 CPU 数量 自动 调整 ) ， 以 开始 并 行 恢 复 多 个 数据 库 。 恢 复 [1244 
的 第 一 阶段 是 日 志 分 析 过 程 ， 它 建立 一 个 脏 页 表 和 活跃 事务 列表 。 第 二 阶段 是 重 做 过 程 ， 从 最 后 一 个 
检查 点 开始 重 做 所 有 操作 。 在 重 做 阶段 ， 脏 页 表 用 来 促成 数据 页 的 预 读 。 最 后 一 个 阶段 是 撤销 阶段 ， 
其 中 未 完成 的 事务 回 深 。 撤 销 阶段 实际 上 分 成 两 部 分 ， 因 为 SQL Server 使 用 两 级 恢复 方案 。 第 一 级 的 
事务 (那些 涉及 诸如 空间 分 配 和 页 面 分 割 这 样 的 内 部 操作 的 事务 ) 首先 回 滚 ， 然 后 是 用 户 事务 。 一 旦 第 
一 级 事务 回 滚 完成 ， 数 据 库 就 被 挂 上 线 ， 且 当 执 行 最 后 的 回 滚 操作 时 ， 就 可 用 于 开始 新 的 用 户 事务 。 
这 由 重 做 过 程 为 那些 在 撤销 阶段 会 回 滚 的 所 有 未 完成 的 用 户 事务 重新 获得 封锁 来 实现 。 

30.5.3.2 介质 恢复 

SQL Server 的 备份 和 修复 能 力 允 许 系统 从 很 多 故障 中 恢复 ， 包 括 磁盘 介质 的 丢失 和 损坏 、 用 户 错 
误 以 及 服务 器 的 永久 损失 。 并 且 ， 备 份 和 修复 数据 库 还 可 以 有 其 他 用 途 ， 比 如 把 数据 库 从 一 台 服 务 器 
复制 到 另外 一 台 ， 并 维护 备用 系统 。 

SQL Server 有 三 种 不 同 的 恢复 模型 ， 用 户 可 以 为 每 个 数据 库 从 中 选择 恢复 模型 。 通 过 指定 一 种 恢 
复 模型 ， 管 理 员 声 明 所 需 恢 复 能 力 的 类 型 (如 时 间 点 修复 和 日 志 传送 ) 以 及 实现 它们 所 需 的 备份 。 备 份 
可 以 发 生 在 数据 库 、 文 件 、 文 件 组 和 事务 日 志 上 。 所 有 备份 都 是 模糊 的 且 完 全 联机 的 ; 也 就 是 说 ， 它 
们 在 执行 时 并 不 妨碍 任何 DML 或 DDL 操作 。 修 复 也 可 以 联机 进行 ， 仅 需 将 正在 修复 的 数据 库 部 分 ( 例 
如 损坏 的 磁盘 块 ) 离线。 备份 和 修复 操作 是 高 度 优化 的 ， 仅 仅 受 进行 备份 的 介质 速度 的 限制 。SQL 
Server 能 够 备份 到 磁盘 和 磁带 设备 上 (并 行 多 达 64 个 ) ， 并 为 第 三 方 备份 产品 的 使 用 提供 高 性 能 的 备 
份 API. 

30.5.3.3 数据 库 镜 像 

数据 库 镜 像 包 括 将 数据 库 ( 主 数据 库 ) 的 每 次 更 新 立即 复制 到 一 个 独立 的 、 完 整 的 数据 库 拷贝 ( 镜 
像 数据 库 ) 上 ， 此 拷贝 通常 放 在 男 一 台 机 器 上 。 在 主 服 务 器 上 发 生 灾难 或 甚至 仅仅 为 了 维护 的 情况 下 ， 
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系统 将 在 几 秒 钟 内 自动 故障 转移 到 镜像 上 。 应 用 程序 使 用 的 通信 库 知 道 镜像 的 存在 ， 上 且 在 故障 转移 时 
会 自动 重新 连接 到 镜像 机 器 。 主 数据 库 上 的 事务 日 志 块 一 旦 产生 ， 就 发 送 到 镜像 并 在 镜像 上 重 做 日 志 
记录 ， 这 样 就 实现 了 主 数据 库 和 镜像 之 间 的 紧密 耦合 。 在 完全 安全 模式 下 ， 直 到 事务 的 日 志 记录 写 到 
镜像 的 磁盘 上 ， 该 事务 才能 提交 。 除 了 支持 故障 转移 ， 镜 像 也 可 用 于 自动 修复 页 面 ， 其 方法 是 一 旦 在 
尝试 读 页 面 时 发 现 该 页 面 损坏 就 从 镜像 复制 它 。 


30.6 系统 体系 结构 


SQL Server 实例 是 单个 的 操作 系统 进程 ， 也 是 SQL 执行 中 请 求 的 命名 终点 。 为 了 执行 SQL， 应 用 
程序 通过 各 种 客户 端 库 ( 像 ODBC, OLE-DB 和 ADO. NET) 来 与 SQL Server 交互 。 
30.6.1 服务 器 上 的 线程 池 

为 了 使 服务 器 上 的 上 下 文 切换 最 少 ， 并 控制 多 道 程序 设计 的 程度 ，SQL Server 进程 维护 一 个 线程 
池 来 执行 客户 端 请 求 。 当 请 求 从 客户 端 到 达 时 ， 分 配 一 个 线程 来 执行 。 该 线程 执行 客户 端 发 出 的 SQL 
语句 ， 并 把 结果 返回 给 客户 端 。 一旦 完成 客户 请 求 ， 线 程 就 返回 到 线程 池 。 除 了 用 户 请 求 ， 线 程 池 也 
用 来 给 内 部 后 台 任 务 分 配 线程 ， 诸 如 : 

© 懒散 写 (lazywriter) 线程 : 这 个 线程 致力 于 保证 特定 数量 的 缓冲 池 是 空闲 的 ， 在 任何 时 候 都 可 用 

于 系统 分 配 。 该 线程 也 同 操作 系统 交互 ， 来 决定 SQL Server 进程 所 应 该 消耗 的 最 佳 内 存量 
© 2 A (checkpoint) BB: 这 个 线程 周期 性 地 给 所 有 数据 库 设 检查 点 ， 以 便 在 服务 器 重启 时 ， 
为 数据 库 维护 快速 的 恢复 间隔 。 

© 死 锁 监视 器 ( deadlock monitor) 线程 : 这 个 线程 监视 其 他 线程 ， 在 系统 中 寻找 死 锁 。 它 负责 死 锁 

检测 并 选择 牺牲 者 ， 以 确保 系统 继续 进行 。 

当 查询 处 理 器 选择 一 个 并 行 计 划 来 执行 特定 查询 时 ， 它 能 分 配 多 个 线程 代表 主线 程 执行 该 查询 ， 
由 于 Windows NT 家 族 的 操作 系统 提供 本 地 线程 支持 ，SQL Server 利用 NT 线程 来 执行 。 然 而 ， 在 非常 
高 端的 系统 中 ，SQL Server 可 以 配置 成 除了 核心 线程 以 外 ,还 可 以 与 用 户 模式 线程 一 起 运行 ， 以 避免 
在 线程 切换 时 核心 上 下 文 切换 的 开销 。 

30.6.2 内存 管理 

在 SQL Server 进程 中 内 存 有 许多 不 同 的 用 途 : 

o 缓冲 池 ( buffer pool) 。 系 统 中 内 存 的 最 大 消耗 者 就 是 缓冲 池 。 缓 冲 池 维护 了 最 近 使 用 过 的 数据 
库 页 的 高 速 缓存 。 它 使 用 一 种 带 窃 取 、 非 强制 策略 的 时 钟 替 换算 法 。 也 就 是 说 ， 未 提交 更 新 的 
缓冲 页 可 能 被 替换 出 去 (“ 被 窃取 ”) ， 并 且 在 事务 提交 时 并 不 强制 将 缓冲 页 写 到 磁盘 上 。 缓 冲 
区 也 遵循 先 写 日 志 协 议 ， 以 保证 崩溃 和 介质 恢复 的 正确 性 。 

© 动态 内 存 分 配 ( dynamic memory allocation) 。 这 是 为 执行 用 户 提交 的 请 求 而 动态 分 配 的 内 存 

© 计划 与 执行 高 速 缓存 (plan and execution cache) 。 这 个 高 速 缓存 保存 了 系统 中 用 户 以 前 执行 过 的 
各 种 查询 的 已 编译 过 的 计划 。 这 就 允许 不 同 用 户 可 以 共享 相同 的 计划 (节约 内 存 ) ， 同 时 也 为 相 
似 查 询 节 省 了 查询 编译 时 间 。 

© 提供 大 内 存 (large memory grant) 。 这 用 于 消耗 大 量 内 存 的 查询 操作 符 ， 比 如 散 列 连接 和 排序 。 

SQL Server 用 一 个 精巧 的 内 存 管理 方案 给 上 述 各 种 使 用 划分 内 存 。 单 个 内 存 管理 器 集中 地 管理 SQL 
Server 使 用 的 内 存 。 这 个 内 存 管理 器 负责 在 系统 中 各 内 存 消费 者 之 间 动 态 划 分 和 重新 分 配 内 存 。 它 根 
据 对 内 存 的 任何 特定 使 用 相关 的 成 本 效益 分 析 来 分 配 这 些 内 存 。 所 有 部 件 都 可 以 使 用 通用 的 LRU 基础 
机 制 。 这 种 高 速 缓存 基础 机 制 不 仅 跟踪 高 速 缓存 数据 的 生命 周期 ， 还 跟踪 创建 和 高 速 缓存 这 些 数据 而 
导致 的 相关 CPU 和 1/0 代价 。 这 些 信息 用 来 确定 不 同 数据 高 速 缓存 的 相关 代价 。 内 存 管理 器 的 重点 集 
中 在 丢弃 那些 最 近 没 有 使 用 且 高 速 缓 存 代价 小 的 高 速 缓存 数据 。 例 如 ， 给 定 相 同 的 访问 频率 ,需要 好 
几 秒 CPU 时 间 来 编译 的 复杂 查询 计划 比 简单 计划 更 可 能 驻 留 在 内 存 中 。 

内 存 管理 器 同 操作 系统 交互 ， 以 动态 决定 它 应 该 消耗 系统 总 内 存量 中 的 多 少 。 这 使 得 SQL Server 
在 使 用 系统 中 的 内 存 方面 非常 积极 ,但 还 能 保证 在 其 他 程序 需要 内 存 且 不 增加 额外 的 页 面 错误 时 ,能 
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把 内 存 返还 给 系统 。 

另外 内 存 管理 器 知道 系统 的 CPU 和 内 存 的 拓扑 结构 。 特 别 地 ， 它 利用 许多 机 器 采用 的 NUMA ( 非 
均匀 的 内 存 访问 ) ， 并 尝试 维护 在 执行 线程 的 处 理 器 和 它 所 访问 的 内 存 之 间 的 位 置 。 
30. 6.3 安全 性 

SQL Server 为 认证 、 授 权 、 审 计 和 加 密 提 供 了 全 面 的 安全 机 制 和 策略 。 认 证 可 以 通过 SQL Server 管 
理 的 用 户 名 - 密码 对 ， 也 可 以 通过 Windows OS 账户 。 授 权 是 通过 把 权力 授予 给 模式 对 象 或 覆盖 在 诸如 数 
据 库 或 服务 器 实例 那样 的 容器 对 象 上 来 管理 的 。 在 检查 授权 的 时 候 ， 权 力 被 向 上 钻 取 并 计算 ， 说 明 主 体 
的 权力 覆盖 和 角色 成 员 资 格 。 审 计 采 用 与 权力 相同 的 方式 来 定义 一 一 对 于 给 定 的 主体 或 包含 对 象 定义 在 
模式 对 象 上 ， 并 且 在 操作 时 它们 是 基于 对 象 上 的 审计 定义 和 关于 主体 的 任何 覆盖 审计 或 角色 成 员 资 格 的 
说 明 而 动态 计算 的 。 为 了 不 同 目的 的 审计 可 以 定义 多 个 审计 ， 如 Sarbanes Oxley 和 HIPAA“， 可 以 分 别 
管理 而 没有 彼此 破坏 的 风险 。 审 计 记 录 可 以 写 到 文件 中 或 Windows Security Log 中 。 

SQL Server 同时 提供 了 数据 的 手动 加 密 和 透明 加 密 。 透 明 的 数据 加 密 在 写 到 磁盘 时 加 密 所 有 的 数 
据 页 和 日 志 页 ， 并 在 从 磁盘 读 出 时 解密 ， 所 以 数据 驻 留 在 磁盘 上 时 是 加 密 的 ， 但 对 SQL Server 用 户 却 
是 明文 ， 不 需要 修改 应 用 。 透 明 的 数据 加 密 比 手动 加 密 的 CPU 效率 更 高 ， 因 为 数据 只 在 写 到 磁盘 时 加 
密 ， 并 且 这 是 在 更 大 的 单元 、 页 上 完成 的 ， 而 不 是 在 个 别 的 数据 单元 上 完成 的 。 

有 两 件 事 情 对 用 户 的 安全 性 甚至 更 为 关键 : (1) 整个 代码 库 自身 的 质量 ,，(2) 用 户 决定 他 们 是 否 正 
确 地 保护 了 系统 的 能 力 。 通 过 使 用 安全 开发 生命 周期 (Security Development Lifecycle ) 能 提高 代码 库 的 质 
量 。 产 品 的 所 有 开发 人 员 和 测试 人 员 都 经 过 安全 培训 。 所 有 特性 都 被 威胁 建 模 以 确保 资产 受到 合适 的 
保护 。 只 要 有 可 能 ，SQL Server 利用 操作 系统 底层 的 安全 特征 而 不 是 自己 来 实现 ， 例 如 Windows 操作 
系统 认证 (Windows OS Authorization) 和 用 于 审计 记录 的 Windows 安全 日 志 (Windows Security Log). 5 
外 ， 利 用 大 量 内 部 工具 来 分 析 代 码 库 ， 寻 找 潜 在 的 安全 隐患 。 使 用 模糊 测试 = 和 测试 威胁 模型 来 验证 
安全 性 。 在 发 布 之 前 ， 还 有 对 产品 的 最 后 一 次 安全 性 复查 ， 响 应 计划 也 到 位 了 ， 用 于 应 对 发 布 之 后 发 
现 的 安全 问题 一 一 当 发 现 问题 之 后 就 执行 该 计划 。 

提供 大 量 特性 来 帮助 用 户 正确 地 保护 系统 。 一 个 这 样 的 特性 是 一 项 称 为 默认 关闭 (oft-by-default ) 的 
基本 方针 ， 其 中 许多 不 常用 的 或 者 那些 需要 额外 安全 性 考虑 的 部 件 在 默认 情况 下 是 完全 禁用 的 。 另 外 

一 个 特性 是 最 佳 实践 分 析 器 ， 它 针对 可 能 导致 安全 漏洞 的 系统 设置 的 配置 给 用 户 发 出 警告 。 基 于 策略 
的 管理 进一步 允许 用 户 去 定义 这 些 设置 应 该 是 什么 样 的 ， 是 警告 或 者 是 防止 修改 可 能 与 认可 的 设置 发 
生 冲 突 。 


30.7 数据 访问 


SQL Server 支持 如 下 应 用 编程 接口 (API) ， 用 于 构建 数据 密集 型 应 用 : 

© ODBC。 这 是 微软 对 标准 SQL: 1999 调用 层 接口 (CLI) 的 一 个 实现 。 它 包括 对 象 模型 一 一 远程 
数据 对 象 (RDO ) 和 数据 访问 对 象 ( DAO ) 一 一 这 使 得 用 像 Visual Basic 这 样 的 编程 语言 来 编写 多 
层 数 据 库 应 用 更 加 容易 。 

e OLE-DB。 这 是 为 程序 员 设计 的 用 来 构建 数据 库 组 件 的 一 个 低层 次 的 、 面 向 系统 的 API。 该 接 
口 是 根 据 微软 的 组 件 对 象 模型 ( Component Object Model, COM) 构架 的 ， 它 允许 封装 低层 的 数据 
库 服务 ， 如 rowset providers, ISAM prividers 以 及 查询 引擎 。SQL Server 中 使 用 OLE-DB 来 集成 关 
系 查 询 处 理 器 和 存储 引擎 ， 并 且 能 够 对 SQL 和 其 他 外 部 数据 源 进行 复制 和 分 布 式 访问 。 和 
ODBC 类 似 ，OLE-DB 包括 称 为 ActiveX Data Objects( ADO) 的 更 高 层 对 象 模 型 ， 让 使 用 Visual 
Basic 编写 数据 库 应 用 程序 更 加 简单 。 

e ADO. NET。 这 是 为 用 . NET 语言 (例如 C# 和 Visual Basic. NET) 编写 的 应 用 设计 的 API。 此 接口 





© Sarbanes-Oxley 法 案 是 美国 政府 金融 规则 法 律 。HIPAA 是 美国 政府 卫生 保健 法 律 ， 它 包含 卫生 保健 相关 信息 的 
法 则 。 
加 ”模糊 测试 是 一 种 基于 随机 化 的 技术 ， 用 于 料想 之 外 的 、 可 能 无 效 的 、 输 入 的 测试 。 
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简化 了 ODBC 和 OLE-DB 支持 的 一 些 公共 数据 访问 模式 。 另 外 ， 它 提供 了 新 的 数据 集 ( data set) 
模型 来 支持 无 状态 、 非 连贯 的 数据 访问 应 用 。ADO. NET 包括 ADO. NET 实体 框架 (entity 
framework) ， 它 是 一 个 在 这 样 的 数据 上 进行 编程 的 平台 ， 这 些 数据 将 抽象 层次 从 逻辑 (关系 ) 层 
提升 到 概念 (实体 ) 层 ， 从 而 大 大 降低 了 应 用 和 数据 服务 (如 报表 、 分 析 和 复制 ) 的 阻抗 失 配 。 
概念 数据 模型 是 使 用 扩展 关系 模型 实现 的 ， 即 实体 数据 模型 ( Entity Data Model, EDM), CE 
含 实体 和 联系 作为 最 高 级 的 概念 。 它 包括 一 种 用 于 EDM 的 称 为 实体 SQL( entity SQL) 的 查询 语 
言 ， 一 个 全 面 的 映射 引擎 把 概念 层 翻译 为 逻辑 (关系 ) 层 ， 以 及 一 组 模型 驱动 工具 帮助 开发 人 员 
定义 对 象 与 实体 到 表 之 间 的 映射 。 

。 LINO。 集 成 语言 的 查询 ( Language-INtegrated Query, LINQ) 允许 在 编程 语言 (如 C# 和 Visual 
Basic) 中 直接 使 用 描述 性 的 、 面 向 集合 的 构造 。 查 询 表 达 式 不 是 由 外 部 工具 或 语言 预 处 理 融 来 
处 理 的 ， 而 是 由 语言 本 身 的 最 高 级 表达 式 。LINQ 使 得 查询 表达 式 受益 于 丰富 的 元 数据 、 编 译 
时 语法 检查 、 静 态 类 型 和 之 前 只 对 命令 式 代 码 可 用 的 自动 完成 。LINQ 定义 了 一 个 通用 的 标准 
查询 操作 集合 ， 人 允许 遍历 、 过 滤 、 连 接 、 投 影 、 排 序 和 分 组 操作 在 任何 基于 .NET 的 编程 语言 
中 可 以 用 直接 的 甚至 描述 性 的 方式 表达 。C# 和 Visual Basic 也 支持 查询 理解 ， 如 : 利用 标准 查 
询 操作 的 语言 语法 扩展 。 

e DB-Lib。 为 C API 而 设 的 DB-Library 是 为 了 在 SQL-92 标准 之 前 的 SQL Server 早期 版 本 中 使 用 而 
专门 开发 的 API。 

。 HTTP/SOAP。 应 用 可 以 使 用 HTTP/SOAP 请 求 来 调用 SQL Server 查询 和 过 程 。 应 用 可 以 使 用 这 
样 的 URL， 它 指定 了 网 络 信息 服务 器 ( Internet Information Server, IIS) 的 虚拟 根 上 目录， 该 根 目录 
引用 了 一 个 SQL Server 实例 。 该 URL 可 以 包含 XPath 查询 Transact-SQL 语句 或 XML 模板 。 


30.8 分 布 式 异 构 查 询 处 理 


SQL Server 的 分 布 式 异 构 查 询 能 力 允 许 通过 运行 在 一 台 或 多 台 机 器 上 的 OLE-DB 数据 提供 者 对 多 种 
关系 型 以 及 非 关 系 型 数据 源 进行 事务 查询 与 更 新 。SQL Server 提供 两 种 方法 在 Transact-SQL 语句 中 引用 
异 构 的 OLE-DB 数据 源 。 链 接 服务 器 命名 (linked-server-names ) 方法 用 系统 存储 过 程 将 服务 器 名 称 和 
OLE-DB 数据 源 关 联 起 来 。 在 这 些 链 接 服务 器 中 的 对 象 可 以 在 Transact-SQL 语句 中 使 用 下 面 描述 的 四 部 
分 命名 约定 来 引用 。 例 如 ， 如 果 一 台 名 为 DeptSQLSrvr 的 链接 服务 器 是 在 另 一 份 SQL Server 拷贝 上 定义 
的 ， 下 述 语句 引用 该 服务 器 上 的 一 个 表 : 


select” 
from DeptSQLSrr. Northwind. dbo. Employees ; 


OLE-DB 数据 源 在 SQL Server 中 作为 链接 服务 器 注册 。 一旦 定义 了 链接 服务 器 ， 它 的 数据 就 能 用 四 
部 分 命名 来 访问 : 
< linked-server >. < catalog >. <schema >. < object > 
下 面 的 例子 通过 Oracle 的 OLE-DB 提供 者 来 建立 连接 到 Oracle 服务 器 的 链接 服务 器 : 


exec sp_addlinkedserver OraSvr, ‘Oracle 7.3’, ‘MSDAORA’, ‘ OracleServer’ 


该 链接 服务 器 上 的 一 个 查询 表达 为 : 


select’ 
from OraSvr. CORP. ADMIN. SALES; 


此 外 ，SQL Server 支持 内 置 的 参数 化 的 表 值 函数 ， 称 为 openrowset 和 openquery， 它 们 人 允许 用 提供 
者 支持 的 本 地 语言 把 未 经 解释 的 查询 分 别 发 送 给 提供 者 或 链接 服务 器 。 下 述 查 询 合 并 了 存储 在 Oracle 
服务 器 中 和 微软 索引 服务 器 ( Microsoft Index Server) 中 的 信息 。 它 列 出 了 包含 词语 * Data” A“ Access” W 
所 有 文档 以 及 它们 的 作者 ， 并 按 作者 的 部 门 和 名 称 排 序 。 
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select e. dept, f. DocAuthor , f. FileName 
from OraSvr. Corp. Admin. Employee e, 
openquery ( EmpFiles , 
"select DocAuthor, FileName 
from scope(“c: \ EmpDocs” ) 
where contains( ° ° “Data” near() “Access” ° °) >0°) asf 
where e. name = f. DocAuthor 
order by e. dept, f. DocAuthor ; 


关系 引擎 用 OLE-DB 接口 打开 链接 服务 器 上 的 行 集合 (rowset) ， 获 取 行 并 管理 事务 。 对 于 每 个 作为 
链接 服务 器 访问 的 OLE-DB 数据 源 ， 在 运行 SQL Server 的 服务 器 上 必须 有 一 个 OLE-DB 提供 者 。 能 在 特 
定 OLE-DB 数据 源 上 使 用 的 Transact-SQL 操作 集合 依赖 于 OLE-DB 提供 者 的 能 力 。 只 要 性 价 比 高 ，SQL 
Server 就 把 关系 操作 ( 比如 连接 、 约 束 、 投 影 、 排 序 和 分 组 操作 ) 推 给 OLE-DB 数据 源 。SQL Server 用 微 
软 的 分 布 式 事务 协调 器 ( Microsoft Distributed Transaction Coordinator) 以 及 提供 者 的 OLE-DB 事务 接口 来 
保证 跨越 多 个 数据 源 的 事务 的 原子 性 。 


30.9 复制 


SQL Server 的 复制 是 一 套 技术 ， 用 来 将 数据 和 数据 库 对 象 从 一 个 数据 库 复制 并 分 布 到 另 一 个 数据 
库 ， 并 跟踪 变化 ， 在 不 同 数据 库 之 间 保 持 同 步 以 维护 一 致 性 。SQL Server 复制 还 提供 大 部 分 数据 库 模 
式 变 化 的 内 联 复制 ， 无 须 任 何 中 断 或 重新 配置 。 

典型 的 数据 复制 是 为 了 增加 数据 可 用 性 。 出 于 建立 报表 的 目的 ， 复 制 能 够 上 卷 来 自 地 理 位 置 分 散 
的 站 点 的 全 部 数据 ， 并 给 在 局 域 网 上 的 远程 用 户 、 拨 号 连接 或 因特网 上 的 移动 用 户 分 发 数据 。 通 过 向 
外 扩展 以 改善 在 各 副本 之 间 整 体 读 的 性 能 (这 在 为 Web 网 站 提供 的 中 间 层 数据 高 速 缓存 服务 中 是 常见 
的 ) ， 微 软 SQL Server 复制 还 提高 了 应 用 的 性 能 。 

30.9.1 复制 模型 

SQL Server 把 出 版 -订阅 ( Publish-Subscribe ) 比喻 引入 到 数据 库 复制 中 ， 并 把 这 种 出 版 业 比 喻 扩展 
到 其 整个 复制 管理 和 监视 工具 中 。 

出 版 者 (publisher) 是 一 个 使 得 数据 可 用 于 复制 到 其 他 服务 器 的 服务 器 。 出 版 者 可 以 有 一 个 或 多 个 
出 版 物 ， 每 个 代表 逻辑 相关 的 数据 和 数据 库 对 象 的 集合 。 出 版 物 中 的 离散 对 象 (包括 表 、 存 储 过 程 、 用 
户 自 定义 函数 、 视 图 、 物 化 视图 以 及 更 多 ) 称 为 文章 (article ) 。 向 出 版 物 增加 一 篇 文章 允许 广泛 定制 该 
对 象 复制 的 方式 ， 比 如 限制 哪些 用 户 可 订阅 以 接受 它 的 数据 ， 以 及 数据 集 应 该 在 表 的 投影 或 选择 的 基 
础 上 分 别 通过 “水 平 " 和 “垂直 "过 滤器 来 如 何 过 滤 。 

订阅 者 (subscriber) 是 从 出 版 者 那里 接收 复制 数据 的 服务 器 。 订 阅 者 可 以 方便 地 从 一 个 或 多 个 出 版 
者 那里 只 订阅 他 们 所 需 的 出 版 物 ， 无 需 考虑 每 个 实现 的 复制 选项 的 数量 或 类 型 。 依 赖 于 所 选择 的 复制 
选项 类 型 ， 订 阅 者 要 么 用 作 只 读 副本 ， 要 么 可 以 改变 数据 ， 并 把 改动 自动 传播 回 出 版 者 ， 继 而 传播 到 
所 有 其 他 副本 。 订 阅 者 也 可 以 重新 出 版 他 们 所 订阅 的 数据 ， 支 持 和 企业 需求 一 样 灵 活 的 复制 拓扑 。 

分 发 者 ( distributor) 是 扮演 多 种 角色 的 服务 器 ， 这 取决 于 所 选择 的 复制 选项 。 至 少 它 用 作 存 储 历史 
和 错误 状态 信息 的 仓库 。 在 其 他 情况 下 ， 它 被 额外 地 用 作 存 储 与 转发 队列 的 中 介 ， 将 复制 的 有 效 载荷 
的 递送 扩展 到 所 有 订阅 者 。 

30.9.2 复制 选项 

微软 SQL Server 复制 提供 了 很 大 范围 内 的 复制 选项 。 为 了 选择 使 用 合适 的 复制 选项 ， 数 据 库 设计 
者 必须 确定 应 用 需求 ， 考 虑 所 涉及 站 点 的 自治 操作 以 及 所 需 的 事务 一 致 性 程度 。 

快照 复制 ( snapshot replication ) 完全 按照 在 某 一 时 刻 出 现 的 数据 与 数据 库 对 象 来 复制 和 分 发 它们 。 
快照 复制 无 需 跟踪 持续 的 变化 ， 因 为 变化 不 会 增 量 地 传播 给 订阅 者 。 订 阅 者 通过 由 出 版 定义 的 完全 刷 
新 的 数据 集 来 定期 更 新 。 人 快照 复制 的 可 用 选项 可 以 过 滤 发 布 数 据 ， 并 允许 订阅 者 修改 复制 数据 并 把 这 
些 变化 传播 回 出 版 者 。 这 种 类 型 的 复制 最 适合 于 较 少 量 的 数据 ， 并 且 当 更 新 通常 影响 到 足够 多 的 数据 
时 ， 复 制 数据 的 完全 刷新 是 有 效 的 。 
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利用 事务 复制 ( transactional replication) ， 出 版 者 把 数据 的 初始 快照 传播 给 订阅 者 ， 然 后 以 离散 的 事 
务 或 命令 的 形式 把 增 量 的 数据 修改 转发 给 订阅 者 。 增 量 修改 的 跟踪 发 生 在 SQL Server 核心 引擎 的 内 部 ， 
它 在 出 版 数据 库 的 事务 日 志 中 标记 影响 复制 对 象 的 事务 。 一 个 称 作 日 志 读 取代 理 (log reader agent) 的 复 
制 进程 从 数据 库 事 务 日 志 里 读 取 这 些 事务 ， 应 用 可 选 的 过 滤器 ， 并 把 它们 保存 在 分 发 数据 库 中 。 分 发 
数据 库 的 行为 就 像 是 支持 事务 复制 的 存储 与 转发 机 制 的 可 靠 队列 (可 靠 队 列 和 26. 1.1 节 中 描述 的 持久 
队列 一 样 ) 。 另 外 一 个 称 为 分 发 代理 ( distribution agent ) 的 复制 进程 随后 将 这 些 变化 转发 到 每 个 订阅 者 
与 快照 复制 类 似 ， 事 务 复制 为 订阅 者 提供 选项 ， 使 得 更 新 要 么 使 用 两 阶段 提交 来 反映 那些 变化 在 发 布 
方 和 订阅 方 是 一 致 的 ， 要 么 在 订阅 方 将 变化 排队 ， 由 一 个 复制 进程 来 异步 检索 ， 该 复制 进程 稍 后 将 变 
化 传播 给 出 版 者 。 当 需要 保存 多 个 更 新 之 间 的 中 间 状 态 时 ， 这 种 类 型 的 复制 更 合适 。 

归并 复制 (merge replication) 允许 企业 中 每 个 副本 完全 自治 地 工作 ， 无 论 是 在 线 还 是 离线 。 系 统 在 
每 个 复制 数据 库 里 跟踪 出 版 方 和 订阅 方 的 出 版 对 象 变 化 的 元 数据 ， 复 制 代理 在 复制 对 之 间 进 行 同步 时 
把 这 些 数据 改变 归并 在 一 起 ， 并 通过 自动 冲突 检测 与 消除 来 保证 数据 收敛 。 同 步 进 程 中 使 用 的 很 多 冲 
突 解决 策略 选项 构建 在 复制 代理 中 ， 定 制 的 冲突 消解 方案 可 以 通过 使 用 存储 过 程 或 者 可 扩展 的 组 件 对 
象 模型 (COM ) 接口 来 编写 。 这 种 类 型 的 复制 并 不 复制 所 有 中 间 状 态 ， 而 只 复制 同步 时 的 数据 当前 状 
态 。 当 没有 连接 到 任何 网 络 时 仍然 需要 副本 具备 自治 更 新 的 能 力 时 ， 这 种 复制 是 合适 的 。 


30. 10 .NET 中 的 服务 器 编程 

SQL Server 支持 在 SQL Server 进程 内 托管 .NET 公共 语言 运行 库 (Common Language Runtime， 
CLR) ， 使 得 数据 库 程 序 员 可 以 把 业务 逻辑 编写 为 郴 数 、 存 储 过 程 、 触 发 器 、 数 据 类 型 以 及 聚集 。 在 数 
据 库 内 部 运行 应 用 程序 代码 的 能 力 为 这 类 应 用 构架 的 设计 增加 了 灵活 性 ， 它 们 要 求 业 务 逻 辑 靠近 数据 
执行 ， 且 不 能 承受 将 数据 转移 到 数据 库 外 的 中 间 过 程 来 执行 计算 的 代价 。 

. NET 公共 语言 运行 库 ( CLR ) 是 一 种 运行 库 环 境 ， 带 有 一 种 强 类 型 的 中 间 语 言 ， 可 以 运行 如 CH, 
Visual Basic, C++, COBOL 和 J++ 以 及 其 他 的 多 种 现代 编程 语言 ， 支 持 内 存 的 垃圾 收集 、 抢 占 式 线 
程 、 元 数据 服务 (类 型 映射 ) 、 代 码 验证 以 及 代码 访问 安全 性 。 运 行 库 使 用 元 数据 来 定位 和 加 载 类 ， 在 
内 存 中 分 配 实例 ， 处 理 方法 调用 ,产生 本 地 代码 ， 强 制 安 全 性 以 及 设置 运行 库 上 下 文 边界 . 

通过 使 用 汇编 (assembly) 来 将 应 用 程序 代码 部 署 到 数据 库 中 ,汇编 是 打包 的 单元 、 部 署 和 . NET 应 
用 程序 代码 版 本 。 将 应 用 程序 代码 部 署 到 数据 库 中 为 管理 、 备 份 和 恢复 整个 数据 库 应 用 (代码 和 数据 ) 
提供 了 统一 的 方式 。 一旦 汇编 注册 到 数据 库 中 ,用 户 可 以 通过 使 用 可 扩展 性 协议 来 利用 SQL DDL 语句 
将 汇编 中 的 人 口 点 暴露 出 来 ， 这 些 协议 是 定义 好 的 并 在 这 些 DDL 语句 的 执行 中 强制 实施 ， 这 些 DDL 语 
句 可 以 充当 标量 或 者 表 函 数 、 过 程 、 触 发 器 、 类 型 和 聚集 。 存 储 过 程 、 触 发 器 和 函数 通常 需要 执行 
SQL 查询 和 更 新 ， 这 是 通过 这 样 的 组 件 来 完成 的 ， 它 在 数据 库 进程 内 实现 了 所 使 用 的 ADO. NET 数据 
访问 API. 

30. 10.1 . NET 基本 概念 

在 . NET 框架 中 ， 程 序 员 用 高 级 编程 语言 编写 程序 代码 实现 一 个 类 ， 定 义 其 结构 ( 如 域 或 类 属性 ) 
和 方法 。 有 些 这 样 的 方法 可 以 是 静态 函数 。 编 译 程序 后 产生 一 个 文件 ， 称 为 汇编 (assembly) ， 它 包含 
用 微软 中 间 语 言 ( Microsoft Intermediate Language, MSIL) 编译 的 代码 ， 以 及 一 个 包含 所 有 对 依赖 汇编 引 
用 的 清单 (manifest) 。 清 单 是 每 个 汇编 不 可 或 缺 的 一 部 分 ， 它 使 汇编 能 够 自 描述 。 汇 编 清 单 包 含 描述 程 
序 中 定义 的 所 有 结构 、 域 、 属 性 、 类 、 继 承 关系 、 函 数 和 方法 的 汇编 元 数据 。 清 单 建 立 了 汇编 的 标识 ， 
指定 了 构成 汇编 实现 的 文件 ， 指 定 了 构成 汇编 的 类 型 和 资源 ， 详 细 说 明了 编译 时 对 其 他 汇编 的 依赖 ， 
并 指定 了 汇编 正常 运行 所 需要 的 权限 集合 。 这 些 信息 在 运行 时 用 来 解决 引用 ， 执 行 版 本 绑 定 策略 ， 并 
验证 载 人 汇编 的 完整 性 。. NET 框架 支持 称 为 自 定 义 属性 (custom attribute ) 的 带 外 (out-of-band ) 机制 ， 
用 应 用 程序 可 能 希望 从 元 数据 中 捕获 的 附加 信息 或 方面 来 注释 类 、 属 性 、 函 数 和 方法 。 所 有 . NET 编 
译 器 处 理 这 些 注 释 时 都 不 会 解释 它们 ， 而 是 将 它们 存储 到 汇编 的 元 数据 中 。 所 有 这 些 注释 可 以 和 其 他 
任何 元 数据 一 样 ， 通 过 使 用 一 组 公共 的 映射 API 来 进行 检查 。 托 管 代 码 ( managed code) 指 在 CLR 中 而 
不 是 直接 由 操作 系统 执行 的 MSIL。 托 管 代 码 应 用 程序 得 到 公共 语言 运行 库 服 务 ， 例 如 垃圾 自动 收集 、 
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运行 库 类 型 检查 以 及 安全 性 支持 。 这 些 服务 帮助 提供 统一 的 、 平 台 及 语言 无 关 的 托管 代码 应 用 行为 。 
在 执行 时 ， 即 时 (Just-In-Time，JIT) 编译 器 将 MSIL 翻译 为 本 地 代码 (如 Intel X86 代码 )。 在 此 翻译 过 程 
中 ， 代 码 必须 通过 一 个 验证 过 程 ， 它 检查 MSIL 和 元 数据 以 发 现代 码 是 否 可 以 确定 为 类 型 安全 的 
30. 10.2 SQL CLR 宿主 

SQL Server 和 CLR 是 两 种 不 同 的 运行 库 ， 具 有 不 同 的 线程 、 调 度 和 内 存 管理 的 内 部 模型 。SQL 
Server 支持 协作 的 、 非 抢占 式 线程 模型 ， 其 中 DBMS 
线程 周期 地 或 者 在 等 待 封锁 或 /0 时 自动 让 出 执行 ， SQL Server 引 擎 
而 CLR 支持 抢占 式 线程 模型 。 如 果 运 行 在 DBMS 内 
的 用 户 代码 可 以 直接 调用 操作 系统 ( 0S ) 的 线程 原 
语 ， 那 么 它 与 SQL Server 任务 调度 就 集成 得 不 好 ， Wr 

A $ Y 

并 会 降低 系统 的 可 扩展 性 。CLR 不 区 分 虚拟 内 存 和 


物理 内 存 , 但 是 SQL Server 直接 管理 物理 内 存 并 要 
SQL 0S 层 
( 内存、 线程 、 同 步 ) 


SQL Server 
进程 


求 在 可 配置 的 范围 内 使 用 物理 内 存 。 


线程 、 调 度 和 内 存 管 理 的 不 同 模型 为 扩展 DBMS 
以 支持 数 千 的 并 发 用 户 会 话 提出 了 集成 方面 的 挑战 。 
当 CLR 寄居 在 SQL Server 进程 内 时 ，SQL Server 通 
过 模拟 CLR 的 操作 系统 来 解决 这 个 问题 。CLR 调用 
SQL Server 实现 的 低层 原 语 用 于 线程 、 调 度 、 同 步 和 内 存 管理 ( 见 图 30-5)。 这 种 方法 提供 了 下 述 可 扩 
展 性 和 可 靠 性 优点 : 

公共 线程 、 调 度 和 同步 (common threading，scheduling，and synchronization ) 。CLR 调用 SQL Server 
的 API 既 为 运行 用 户 代 码 也 为 其 自身 的 内 部 使 用 ( 如 垃圾 收集 和 类 的 终结 线程 ) 而 创建 线程 。 为 了 在 多 
个 线程 间 实 现 同步 ，CLR 调用 SQL Server 同步 对 象 。 这 使 得 当 一 个 线程 正在 等 待 同步 对 象 时 ，SQL 
Server 调度 器 能 够 调度 其 他 任务 。 例 如 ， 当 CLR 开始 收集 垃圾 时 ， 它 的 所 有 线程 都 要 等 待 垃圾 收集 完 
毕 。 由 于 CLR 线程 以 及 它们 正在 等 待 的 同步 对 象 对 SQL Server 调度 器 来 说 是 已 知 的 ，SQL Server 调度 
器 可 以 调度 运行 其 他 数据 库 任务 的 且 不 涉及 CLR 的 线程 。 进 而 言 之 ， 这 使 得 SQL Server 能 够 检测 到 涉 
及 CLR 同步 对 象 所 持 有 封锁 的 死 锁 ， 并 运用 传统 技术 来 消除 死 锁 。SQL Server 调度 器 能 够 检测 并 停止 
很 长 时 间 没 有 让 出 的 线程 。 将 CLR 线程 与 SQL Server 线程 挂钩 的 能 力 意味 着 SQL Server 调度 器 能 够 识 
别 出 运行 在 CLR 中 的 失控 线程 并 管理 它们 的 优先 级 ， 这 样 它 们 就 不 会 消耗 太 多 的 CPU 资源 ， 从 而 影响 
系统 的 吞吐 量 。 这 些 失控 线程 被 挂 起 并 放 回 队列 中 。 重 复 犯 错 的 线程 不 会 分 配 到 对 其 他 正在 执行 的 工 
作 线 程 来 说 不 公平 的 时 间 片 。 如 果 犯 错 线程 消耗 了 50 倍 被 允许 的 时 间 片 量 ， 则 在 它 被 允许 再 次 运行 前 
将 延 后 50 次， 因为 调度 器 不 能 区 分 什么 时 候 是 计算 过 长 并 失控 和 什么 时 候 是 合法 的 长 . 

公共 内 存 管理 (common memory management), CLR 调用 SQL Server 原 语 来 分 配 和 收回 它 的 内 存 ， 
由 于 CLR 使 用 的 内 存 是 占有 系统 使 用 的 总 内 存 的 ，SQL Server 可 以 保持 在 其 配置 的 内 存 范围 内 并 保证 
CLR 和 SQL Server 不 会 互相 竞争 内 存 。 而 且 ， 当 系统 资源 受 限时 ，SQL Server 可 以 拒绝 CLR 的 内 存 请 [1254 
求 ， 并 当 其 他 任务 需要 内 存 时 要 求 CLR 减少 其 内 存 使 用 。 11255 
30.10.3 可 扩展 性 协定 

所 有 运行 在 SQL Server 进程 内 的 用 户 托管 的 代码 以 扩展 的 形式 与 DBMS 组 件 交互 。 当 前 的 扩展 包 
括 标 量 也 数 、 表 函数 、 过 程 、 触 发 器 、 标 量 类 型 和 标量 聚集 。 对 于 每 一 项 扩展 都 有 一 个 共同 的 协定 来 
定义 用 户 代码 必须 实现 的 属性 或 者 服务 ， 以 便 作 为 这 些 扩展 之 一 ， 以 及 当 调 用 托管 代码 时 该 扩展 能 从 
DBMS 获得 的 服务 。SQL CLR 利用 类 和 存储 在 汇编 元 数据 中 的 定制 属性 信息 来 强制 用 户 代 码 实 现 这 些 
可 扩展 性 协定 。 所 有 用 户 汇编 存储 在 数据 库 中 。 所 有 关系 和 汇编 元 数据 在 SQL 引擎 内 通过 一 组 统一 的 
接口 和 数据 结构 来 处 理 。 当 数据 定义 语言 (DDL) 语 句 所 注册 的 一 个 特定 的 扩展 函数 、 类 型 或 聚集 被 处 
理 时 ， 系 统 通过 分 析 其 汇编 元 数据 来 确保 用 户 代 码 实现 相应 的 协定 。 如 果 协 定 实现 了 , ABA DDL 语句 
就 成 功 ， 和 否则 就 失败 。 下 一 小 节 描 述 SQL Server 当前 执行 的 特定 协定 中 的 关键 方面 。 





图 30-5 CLR 与 SQL Server 操作 系统 服务 的 集成 
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30. 10.3.1 例 程 
一 般 地 ， 我 们 将 标量 函数 、 过 程 和 触发 器 归 为 例 程 。 例 程 作为 静态 类 函数 实现 ， 可 以 通过 定制 属 


性 指定 如 下 属性 : 


IsPrecise。 如 果 这 个 布尔 属性 为 false， 则 意味 着 例 程 体 涉 及 不 精确 计算 ， 如 浮 点 操作 。 涉 及 不 
精确 函数 的 表达 式 不 能 被 索引 。 

UserDataAccess。 如 果 该 属性 的 值 为 read， 那 么 例 程 读 用 户 数据 表 。 否 则 该 属性 的 值 为 None, 
表示 例 程 不 访问 数据 。 不 访问 任何 用 户 表 的 查询 ( 直接 地 或 通过 视图 和 函数 间接 地 ) 被 认为 不 访 
问 用 户 数据 。 

SystemDataAccess。 如 果 该 属性 的 值 为 read， 那 么 例 程 读 系统 目录 或 虚拟 系统 表 。 
IsDeterministic。 如 果 该 属性 的 值 为 true， 那 么 给 定 相同 的 输入 值 、 本 地 数据 库 状态 和 执行 的 上 
下 文 环境 ， 认 为 例 程 产 生 相 同 的 输出 值 。 

IsSystemVerified。 它 指示 确定 性 和 精确 性 属性 是 否 由 SQL Server 确认 或 执行 (如 内 置 插件 、 事 
务 SQL 函数 ), 或 者 由 用 户 指定 (如 CLR 函数 )。 

HasExternalAccess。 如 果 该 属性 的 值 为 tue， 那 么 例 程 访 问 SQL Server 之 外 的 资源 ， 如 文件 、 
网 络 Web 访问 和 注册 表 。 


30. 10.3.2 A% 
实现 表 值 函数 的 类 必须 实现 能 在 函数 返回 的 行 上 进行 循环 的 正 numerable 接口 ， 描 述 返 回 表 的 模式 


(例如 ， 


列 、 类 型 ) 的 方法 ， 描 述 哪 些 列 可 以 为 唯一 性 码 的 方法 ， 以 及 将 行 插入 到 表 中 的 方法 。 


30. 10.3.3 类 型 
实现 用 户 自 定义 类 型 的 类 用 SqlUserDefinedType( ) 属性 注释 ， 该 属性 指定 如 下 特性 : 


Format, SQL Server 支持 三 种 存储 格式 : 本 地 的 、 用 户 自 定义 的 和 . NET 序列 化 的 。 
MaxByteSize。 这 是 以 字 节 为 单位 的 类 型 实例 的 序列 化 二 进 制 表示 的 最 大 大 小 。UDT EKE LE 
可 以 多 达 2GB。 

IsFixedLength。 这 个 布尔 性 质 指定 类 型 的 实例 是 定 长 的 还 是 变 长 的 。 

IsByteOrdered。 这 个 布尔 性 质 指定 类 型 实例 的 序列 化 二 进 制 表示 是 否 是 二 进 制 有 序 的 。 如 果 此 
属性 为 ttue， 系 统 可 以 直接 在 这 种 表示 上 执行 比较 而 无 需 将 类 型 实例 实例 化 为 对 象 ， 
Nullability。 所 有 系统 内 的 UDT 必须 能 通过 支持 包含 布尔 型 IsNull 方法 的 INullable 接口 来 支持 
null 值 。 

Type conversions。 所 有 UDT 必须 通过 ToString 和 Parse 方法 实现 与 字符 串 的 相互 转换 。 


30. 10.3.4 聚集 
除了 支持 类 型 的 协定 ， 用 户 自 定义 聚集 必须 实现 查询 执行 引擎 要 求 的 4 种 方法 来 初始 化 聚集 实例 


的 计算 ,将 输入 值 累加 到 聚集 提供 的 函数 中 ， 将 聚集 的 部 分 计算 合并 ,并 检索 最 终 聚 集结 果 。 聚 集 可 
以 通过 定制 属性 在 它们 的 类 定义 中 声明 附加 属性 ， 这 些 属 性 被 查询 优化 器 用 来 为 聚集 计算 导出 替代 的 
计划 。 


IsInvariantToDuplicates。 如 果 此 属性 为 true, 那么 将 数据 传 给 聚集 的 计算 可 以 通过 丢弃 或 引入 
新 的 去 重 操作 来 进行 修改 。 

IsInvariantToNulls。 如 果 此 属性 为 tue， 那 么 null 行 可 以 从 输入 中 丢弃 。 然 而 ， 在 group by 操 
作 的 情况 下 必须 注意 不 要 丢弃 整个 组 。 

IsInvariantToOrder。 如 果 此 属性 为 true， 那 么 查询 处 理 器 可 以 忽略 order by 子 句 并 探索 避免 必 
须 对 数据 排序 的 计划 。 


30.11 XML 支持 


近年 来 关系 数据 库 系统 以 很 多 不 同 的 方式 支持 XML。 关 系数 据 库 系统 中 的 第 一 代 XML 支持 主要 关 


心 的 是 将 关系 数据 导出 为 XML( ”发布 XML”), HK XML 标记 格式 的 关系 数据 导入 回 关 系 表示 中 (“分 
解 XML”) 。 这 些 系统 所 支持 的 主要 应 用 场景 是 如 下 环境 中 的 信息 交换 : 其 中 XML 用 作 ” 传输 格式 ”， 
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并 且 关系 模式 和 XML 模式 通常 是 相互 独立 地 预定 义 的 。 为 了 适用 于 这 种 场景 ， 微 软 SQL Server 提供 了 
扩展 功能 ， 比 如 针对 XML(for xml) 发 布 的 行 集聚 集 器 、OpenXML 行 集 提供 程序 以 及 基于 带 注解 模式 
AY XML 视图 技术 。 

为 了 存储 结构 可 能 随时 间 变 化 的 半 结 构 化 数据 以 及 存储 文档 而 将 XML 数据 分 解 成 关系 模式 可 能 会 
相当 困难 或 者 低 效 。 为 了 支持 这 样 的 应 用 ，SQL Server 实现 了 基于 SQL: 2003 标准 中 的 xml 数据 类 型 
的 本 地 XML. Fl 30-6 给 出 了 在 数据 库 中 SQL Server 的 本 地 XML 支持 的 高 层 体系 图 。 它 包括 本 地 存储 
XML 的 能 力 ， 用 XML 模式 集合 对 所 存储 的 XML 数据 进行 约束 和 标定 类 型 的 能 力 ， 以 及 查询 和 更 新 
XML 数据 的 能 力 。 为 了 提供 高 效 的 查询 执行 ， 它 还 提供 了 几 种 XML 专用 索引 类 型 。 最 后 ， 本 地 的 
XML 支持 还 集成 了 "分解 "为 关系 数据 以 及 从 关系 数据 “发 布 " 的 功能 ， 





SQL Server 元 数据 








XML 







x 


关系 型 行 集合 


SQL Server 索 引 
index 
index 
index 

图 30-6 SQL Server 中 本 地 XML 支持 的 体系 概览 


30. 11.1 本 地 存储 和 组 织 XML 

xml 数据 类 型 可 以 存储 XML 文档 和 内 容 片 断 (多 个 文本 或 者 顶部 的 元 素 结 点 ) ， 并 且 是 在 XQuery 
1. 0/XPath 2. 0 数据 模型 的 基础 上 定义 的 。 该 数据 类 型 可 用 作 存 储 过 程 的 参数 、 变 量 以 及 列 类 型 。 

SQL Server 将 xml 类 型 的 数据 存储 在 作为 blob 的 内 部 二 进 制 格式 中 ， 并 且 为 执行 查询 提供 索引 机 
制 。 该 内 部 二 进 制 格式 提供 了 对 原始 XML 文档 的 高 效 检索 和 重 构 ， 以 及 一 定 的 空间 节省 (平均 有 
20% ) 。 索 引 支 持 高 效 的 查询 机 制 ， 它 可 以 利用 关系 查询 引擎 和 优化 器 ; 更 多 细节 将 在 后 面 30. 11.3 节 
中 介绍 。 

SQL Server 提供 了 称 为 XML 模式 集合 (XML schema collection ) 的 数据 库 元 数据 概念 ， 它 关联 一 个 
SQL 识别 器 和 一 个 或 多 个 目标 命名 空间 的 模式 组 件 集合 。 
30. 11.2 查询 和 更 新 XML 数据 类 型 

SQL Server 在 XML 数据 类 型 上 提供 了 几 种 基于 XQuery 的 查询 和 修改 能 力 。 这 些 查询 和 修改 能 力 通 
过 使 用 定义 在 xm 数据 类 型 上 的 方法 来 支持 。 本 节 的 其 余部 分 将 描述 一 些 这 样 的 方法 。 

每 种 方法 将 一 个 文字 串 作为 查询 串 以 及 潜在 的 其 他 变 元 。XML 数据 类 型 (该 方法 应 用 在 其 上 ) 为 路 
径 表达 式 提供 了 上 下 文 项 ， 并 用 相关 XML 模式 集合 (如 果 没 有 提供 集合 ， 则 该 XML 数据 就 被 认为 是 未 
标定 类 型 的 ) 提供 的 所 有 类 型 信息 构成 范围 内 的 模式 定义 。SQL Server 的 XQuery 实现 是 静态 标定 类 型 
的 ， 因 此 支持 早期 检测 路 径 表 达 式 的 拼写 错误 、 类 型 错误 和 基数 不 匹配 的 检查 ， 以 及 某 些 附加 的 优化 。 

query 方法 接收 一 个 XQuery 表达 式 并 返回 一 个 未 标定 类 型 的 XML 数据 类 型 实例 (如 果 需 要 标定 该 
数据 的 类 型 ， 它 可 以 转换 为 一 个 目标 模式 集合 ) E XQuery 规范 术语 中 ， 我 们 设 定 构造 模式 为 strip” 
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下 面 的 例子 展示 了 一 个 简单 XQuery 表达 式 ， 它 概括 了 一 份 差 旅 报告 文档 中 的 复杂 Customer 元 素 ， 除 了 
别 的 信息 以 外 ， 该 文档 还 包含 一 个 名 称 、 一 个 ID 属性 和 销售 指导 信息 ， 这 些 信息 包含 在 标记 的 实际 差 
旅 报告 注解 中 。 这 份 概要 针对 具有 销售 指导 的 Customer 元 素 展示 了 名 称 和 销售 指导 。 


select Report. query(“ 
declare namespace ¢ = “urn; example/customer” ; 
for $cust in /c: doc/c; customer 
where $cust/c; notes//c; saleslead 
return 
<customer_id =” $cust/@ id” > | 
$cust/c; name, 
$cust/c; notes//c; saleslead 
| </customer >’ ) 
from TripReports ; 


上 述 XQuery 查询 在 存储 于 表 TripReports 的 每 行 上 的 doc 属性 中 的 XML 值 上 执行 。 该 SQL 查询 结果 中 的 
每 行 包含 了 在 一 个 输入 行 中 的 数据 上 执行 该 XQuery 查询 的 结果 。 

value 方法 接收 一 个 XQuery 表达 式 和 一 个 SQL 类 型 名 称 ， 从 XQuery 表达 式 的 结果 中 抽取 出 单个 的 
原子 值 ， 并 将 其 词法 形式 转换 为 指定 的 SQL 类 型 。 如 果 XQuery 表达 式 的 结果 为 一 个 结 点 ， 则 该 结 点 的 
已 标定 类 型 的 值 将 会 隐 式 地 抽取 为 一 个 原子 值 ， 然 后 转换 为 SQL 类 型 (用 XQuery 的 术语 来 说 ， 该 结 点 
将 被 “原子 化 ”; 结果 转换 为 SQL) 。 注 意 value 方法 执行 静态 类 型 检查 ， 至 多 返回 一 个 值 . 

exist 方法 接收 一 个 XQuery 表达 式 ， 如 果 该 表达 式 产 生 一 个 非 空 结果 则 返回 1， 否则 返回 0。 

最 后 ，mod 态 -方法 提供 了 一 种 机 制 在 子 树 层 改变 XML 值 ， 在 树 中 指定 位 置 插 入 一 棵 新 子 树 ， 改 变 
一 个 元 素 或 者 属性 的 值 ， 以 及 删除 子 树 。 下 面 的 例子 删除 了 某 年 份 以 前 的 所 有 顾客 的 saleslead 元 素 ， 
该 年 份 由 SQL 变量 或 者 名 为 @ year 的 参数 给 出 : 


update TripReports 

set Report. modify ( 

‘declare namespace c = “urn; example/customer” ; 

delete /c; doc/c: customer//c: saleslead[ @ year < sql: variable(“@ year”) |’ ) ; 


30.11.3 XQuery 表达 式 的 执行 

正如 前 面 所 提 到 的 ，XML 数据 以 内 部 的 二 进 制 表示 存储 。 但 是 ， 为 了 执行 XQuery 表达 式 ，XML 
数据 类 型 在 内 部 转换 为 一 种 称 为 结 点 表 的 形式 。 该 内 部 结 点 表 基 本 上 使 用 行 来 表示 结 点 。 每 个 结 点 接 
受 一 个 OrdPath 标识 符 作为 它 的 nodeID( OrdPath 标识 符 是 修改 过 的 杜威 ( Dewey) 十 进 制 编号 计划 ; 关于 
OrdPath 的 更 多 信息 请 参见 文献 注解 中 的 文献 ) 。 每 个 结 点 还 包含 码 信息 来 指 回 到 该 结 点 所 属 的 原始 
SQL 行 ， 有 关 名 字 和 类 型 (以 标记 化 的 形式 ) 的 信息 、 值 ， 以 及 其 他 信息 。 由 于 OrdPath 将 文档 顺序 和 
层次 信息 都 进行 了 编码 ， 因 此 结 点 表 在 码 信息 和 OrdPath 的 基础 上 聚集 ， 从 而 路 径 表达 式 或 者 子 树 重 
组 都 能 利用 简单 的 表 扫 描 完成 。 

所 有 XQuery 和 更 新 表达 式 随 后 都 翻译 为 这 个 内 部 结 点 表 上 的 一 棵 代数 操作 运算 符 树 ; 该 树 使 用 常 
用 的 关系 运算 符 和 一 些 专门 为 XQuery 代数 设计 的 运算 符 。 然 后 结果 树 被 嫁接 至 关系 表达 式 的 代数 树 
中 ， 因 此 最 后 查询 执行 引擎 接收 到 单 棵 执行 树 ， 并 且 它 能 对 其 优化 和 执行 。 为 了 避免 昂贵 的 运行 时 转 
换 ， 用 户 可 以 通过 采用 主 XML 索引 来 预先 物化 结 点 表 。SQL Server 进一步 提供 了 三 种 XML 辅助 索引 以 
使 查询 执行 能 够 更 多 地 利用 索引 结构 : 

© path 索引 提供 了 对 路 径 表 达 式 简单 类 型 的 支持 。 

© properties 索引 提供 了 对 通常 情况 下 的 性 质 值 比较 的 支持 。 

© value 索引 非常 适用 于 在 比较 中 使 用 通配符 的 查询 。 

关于 SQL Server 中 的 XML 索引 和 查询 处 理 的 更 多 信息 请 参见 文献 注解 中 的 文献 。 


30.12 SQL Server 服务 代理 
通过 在 SQL Server 中 提供 队 排 队 、 可 靠 消息 的 支持 ， 服 务 代理 帮助 开发 人 员 创 建 松 耦合 的 分 布 式 应 
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用 。 许 多 数据 库 应 用 使 用 异步 处 理 来 提高 可 扩展 性 和 对 交互 型 会 话 的 响应 时 间 。 常 用 的 异步 处 理 方法 是 
使 用 工作 表 。 与 在 单个 数据 库 事务 中 执行 业务 流程 的 所 有 工作 不 同 ， 一 个 应 用 程序 进行 修改 来 表明 当前 
未 完成 的 工作 ， 然 后 向 工作 表 中 插入 一 条 待 执行 工作 的 记录 。 只 要 资源 允许 ， 应 用 程序 处 理工 作 表 并 完 
成 业务 流程 。 服 务 代 理 是 数据 库 服务 器 的 一 部 分 ， 它 直接 支持 该 方法 用 于 应 用 开发 。Transact-SQL 语 言 包 
括 针 对 服务 代理 的 DDL 和 DML 语句 。 另 外 ，SQL Server 中 为 服务 代理 提供 了 SQL Server 管理 对 象 ( SQL 
Server Management Object，SMO) 。 这 些 人 允许 从 托管 代码 来 编程 访问 服务 代理 对 象 。 

以 前 的 消息 排队 技术 集中 于 单条 消息 。 服 务 代 理 的 基本 通信 和 单元 是 会 话 (conversation ) 一 个 持 
久 的 、 可 靠 的 、 全 双 工 的 消息 流 。SQL Server 保证 一 个 会 话 中 的 消息 按 序 刚好 向 一 个 应 用 分 发 一 次 。 
也 可 能 指派 一 个 从 1 到 10 的 优先 级 给 一 个 会 话 。 来 自 较 高 优先 级 会 话 中 的 消息 发 送 和 接收 要 快 于 来 自 
较 低 优先 级 会 话 的 消息 。 会 话 发 生 在 两 个 服务 之 间 。 服 务 是 会 话 的 命名 端点 。 每 个 会 话 是 一 个 会 话 组 
的 一 部 分 。 相 关 会 话 可 以 与 同一 个 会 话 组 关联 。 

消息 是 强 标定 类 型 的 ， 例 如 ,每 条 消息 都 有 特定 类 型 。SQL Server 可 以 选择 性 地 验证 消息 是 否 是 
格式 良好 的 XML， 消息 是 否 为 空 ， 或 者 消息 是 否 遵循 某 个 XML 模式 。 协定 (contract ) 定义 了 会 话 所 人 允 
许 的 消息 类 型 ， 以 及 哪些 会 话 参与 者 能 够 发 送 该 类 型 的 消息 。SQL Server 为 只 需要 可 靠 流 的 应 用 提供 
默认 的 协定 和 消息 类 型 。 

SQL Server 将 消息 存储 在 内 部 表 中 。 这 些 表 并 不 能 直接 访问 ， 而 是 由 SQL Server 给 出 队列 (queue ) 
作为 这 些 内 部 表 的 视图 。 应 用 从 一 个 队列 接收 消息 。 一 个 接收 操作 返回 来 自 同一 个 会 话 组 的 一 个 或 多 
个 消息 。 通 过 控制 对 底层 表 的 访问 ，SQL Server 能 够 有 效 地 执行 消息 排序 、 相 关 消息 关联 以 及 封锁 。 
由 于 队列 是 内 部 表 ， 它 们 不 需要 为 备份 、 恢 复 、 故 障 转移 或 者 数据 库 镜 像 做 特殊 处 理 。 应 用 表 和 关联 
的 排队 消息 都 由 数据 库 进 行 备份 、 恢 复 和 故障 转移 。 当 镜像 故障 转移 完成 时 ， 存 在 于 镜像 数据 库 中 的 
代理 会 话 会 在 停止 点 继续 执行 一 一 即使 该 会 话 发 生 在 两 个 位 于 不 同 数据 库 中 的 服务 之 间 。 

服务 代理 操作 的 封锁 粒度 是 会 话 组 ， 而 不 是 特定 的 会 话 或 者 单个 消息 。 通 过 在 会 话 组 上 施加 封 
锁 ， 服 务 代 理 自动 帮助 应 用 避免 处 理 消息 中 的 并 发 问题 。 当 一 个 队列 包含 多 个 会 话 时 ，SQL Server 保 
证 同一 时 间 只 有 一 个 队列 阅读 者 可 以 处 理 属于 一 个 给 定 会 话 组 的 消息 。 这 就 消除 了 应 用 自身 包含 死 
锁 避 免 逻 辑 的 需要 一 一 这 是 在 许多 消息 应 用 中 常见 的 错误 来 源 。 该 封锁 语义 的 另 一 个 好 的 副作用 是 
应 用 可 以 选择 使 用 会 话 组 作为 存储 和 检索 应 用 状态 的 码 。 相 对 于 在 传统 消息 排队 系统 中 发 现 的 原子 
消息 原 语 ， 决 定 把 会 话 形式 化 为 通信 原 语 带 来 了 许多 优点 ， 上 述 编程 模型 的 好 处 仅仅 是 这 些 优点 的 
两 个 例子 ， 

当 一 个 队列 包含 了 需要 处 理 的 消息 时 ，SQL Server 能 够 自动 激活 存储 过 程 。 为 了 按 正 到 达 的 通信 
量 来 调整 运行 的 存储 过 程 数 量 ， 激 活 逻辑 监视 队列 以 查看 是 否 存 在 对 另 一 个 队列 阅读 者 有 用 的 工作 
SQL Server 同时 考虑 已 经 存在 的 阅读 者 接收 消息 的 速率 以 及 可 用 的 会 话 组 数量 来 决定 什么 时 候 启 动 男 
一 个 队列 阅读 者 。 被 激活 的 存储 过 程 、 存 储 过 程 的 安全 环境 以 及 将 启动 的 实例 的 最 大 数量 都 为 单独 的 
队列 而 配置 。SQL Server 还 提供 了 一 个 外 部 激活 器 (external activator) 。 当 新 的 消息 插入 到 队列 中 时 ， 这 
个 特性 允许 SQL Server 之 外 的 应 用 被 激活 。 然 后 该 应 用 可 以 接收 和 处 理 消息 。 借 助 于 这 样 的 做 法 ， 
CPU 密集 型 工作 可 以 御 载 给 SQL Server 之 外 的 应 用 ， 可 能 在 一 台 不 同 的 计算 机 上 。 并 且 ， 长 周期 任务 
(如 : Web 服务 调用 ) 可 以 在 阻碍 数据 库 资 源 的 情况 下 执行 。 外 部 激活 器 遵循 与 内 部 激活 相同 的 逻辑 ， 
当 消 息 积 聚 在 一 个 队列 中 时 ， 可 以 配置 为 激活 一 个 应 用 的 多 个 实例 

作为 对 实例 中 异步 消息 的 逻辑 扩展 ， 服 务 代理 还 提供 了 SQL Server 实例 间 的 可 靠 消息 ， 人 允许 开发 
人 员 轻 松 地 建立 分 布 式 应 用 。 会 话 能 够 出 现在 单个 SQL Server 实例 中 ,或 者 出 现在 两 个 SQL Server 实 
例 之 间 。 本 地 和 远程 会 话 使 用 同样 的 编程 模型 。 

安全 性 和 路 由 都 是 声明 式 配置 的 ， 不 需要 改变 队列 阅读 者 。SQ1 Server 使 用 路 由 (route) 将 服务 名 映 
射 为 会 话 中 另 一 个 参与 者 的 网 络 地 址 。SQL Server 还 能 够 为 会 话 执行 消息 转发 和 简单 的 负载 均衡 。SQL 
Server 提供 可 靠 的 、 恰 好 一 次 的 按 序 分 发 ， 不 论 一 个 消息 要 经 过 多 少 个 实例 。 跨 越 多 个 SQL Server 实例 
的 会 话 能 够 在 网 络 层 ( 点 到 点 ) 和 会 话 层 ( 端 到 端 ) 得 到 保护 。 当 使 用 端 到 端的 安全 性 时 ， 直 到 消息 到 达 
最 终 目 的 地 之 前 ， 消 息 内 容 都 保持 加 密 状态 ， 而 消息 头 对 于 消息 所 经 过 的 每 个 SQL Server 实例 都 是 可 
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用 的 。 在 实例 内 部 应 用 标准 SQL Server 权限 。 加 密 发 生 在 消息 离开 实例 的 时 候 。 


SQL Server 使 用 一 种 二 进 制 协议 在 实例 间 发 送 消息 。 该 协议 将 大 消息 拆 成 片断 并 允许 来 自 多 个 消 


息 的 片段 交叉 。 片 断 化 使 得 SQL Server 能 够 快速 传递 较 小 的 消息 ， 即 使 在 一 个 大 消息 正在 传输 过 程 中 
的 情况 下 。 该 二 进 制 协议 不 使 用 分 布 式 事务 或 者 两 阶段 提交 。 相 反 ， 该 协议 要 求 接收 者 确认 消息 片断 。 
SQL Server 简单 地 、 周 期 性 地 重 发 消息 片断 ， 直 到 该 片断 被 接收 者 确认 。 确 认 大 都 包含 在 回复 消息 头 


部 ， 


尽管 在 没有 回复 消息 可 用 时 会 使 用 专用 的 回复 消息 。 
SQL Server 包含 了 一 个 命令 行 诊断 工具 (ssbdiagnose) 来 帮助 分 析 服 务 代理 的 部 署 并 调查 问题 。 这 个 


工具 可 以 在 配置 模式 或 运行 时 模式 运行 。 在 配置 模式 下 ， 此 工具 检查 一 对 服务 是 否 可 以 交换 消息 并 返 
回 任何 配置 错误 。 这 些 错误 的 例子 是 : 失效 的 队列 和 缺失 的 返回 路 由 。 在 第 二 种 模式 下 ， 此 工具 连接 
到 两 个 或 更 多 的 SQL Server 实例 并 监控 SQL 跟踪 器 事件 ， 以 发 现 运行 时 的 服务 代理 问题 。 此 工具 的 输 
出 可 以 发 送 给 文件 以 便 自动 处 理 。 


30. 13 ”商务 智能 


SQL Server 的 商务 智能 组 件 包含 三 个 子 组 件 : 

© SQL Server 集成 服务 (SQL Server Integration Service，SSIS) ， 它 提供 了 从 多 源 集 成 数据 、 执 行 与 
清洗 数据 并 将 数据 转换 为 公共 形式 相关 的 转换 ， 以 及 将 数据 加 载 到 数据 库 系统 的 方法 。 

© SQL Server 分 析 服 务 (SQL Server Analysis Service，SSAS) ， 它 提供 了 OLAP 和 数据 挖掘 能 力 . 

© SQL Server 报表 服务 (SQL Server Reporting Service, SSRS) 。 

集成 服务 、 分 析 服 务 和 报表 服务 各 自在 独立 的 服务 器 中 实现 ， 并 且 能 彼此 独立 地 安装 在 相同 或 不 


同 的 机 器 上 。 它 们 能 通过 本 地 连接 、OLE-DB 或 者 ODBC 驱动 连接 到 各 种 数据 源 ， 比 如 平面 文件 、 电 子 
表格 或 者 各 种 关系 数据 库 系统 。 


它们 一 起 提供 了 一 个 端 到 端的 解决 方案 ， 进 行 抽取 、 转 换 和 加 载 数据 ， 然 后 对 数据 建 模 并 添加 分 


析 功 能 ， 最 后 建立 和 分 发 数据 上 的 报表 。 不 同 的 SQL Server 商务 智能 组 件 能 够 集成 并 相互 辅助 。 这 里 
有 几 个 常见 的 利用 组 件 组 合 的 场景 : 


© 建立 清洗 数据 的 SSIS 包 ， 使 用 SSAS 数据 挖掘 生成 的 模式 。 

© 使 用 SSIS 加 载 数据 到 SSAS 立方 体 ， 处 理 它 ， 并 且 在 SSAS 立方 体 上 执行 报表 。 
© 建立 SSRS 报表 来 发 布 挖掘 模 型 的 发 现 ， 或 者 在 SSAS OLAP 组 件 中 包含 的 数据 。 
下 面 的 小 节 给 出 了 每 个 这 样 的 服务 器 组 件 的 功能 和 体系 结构 的 概览 。 


30. 13.1 SQL Server 集成 服务 


微软 SQL Server 集成 服务 (SQL Server Integration Service, SSIS) 是 企业 数据 转换 和 数据 集成 的 解决 


方案 ， 可 以 用 它 从 相 异 的 源 中 抽取 、 转 换 、 聚 集 和 合并 数据 ， 并 把 它 转移 到 单个 或 多 个 目的 地 。 可 以 
使 用 SSIS 来 执行 以 下 任务 : 


的 、 


。 从 异 构 的 数据 存储 中 合并 数据 。 

© 刷新 数据 仓库 和 数据 集 市 中 的 数据 。 

。 在 数据 加 载 到 目的 地 之 前 清洗 数据 。 

。 批量 加 载 数 据 到 联机 事务 处 理 (OLTP) 和 联机 分 析 处 理 (OLAP) 数 据 库 中 。 

。 发 送 通知 。 

。 建立 商务 智能 到 数据 转换 处 理 中 。 

。 自动 管理 功能 。 

SSIS 为 上 述 任务 提供 了 一 组 完整 的 服务 、 图 形 化 工具 、 可 编程 对 象 以 及 API。 这 些 提供 创建 大 型 
健壮 的 和 复杂 的 数据 转换 解决 方案 的 能 力 ， 而 无 需 任何 定制 编程 。 但 是 ，API 和 可 编程 对 象 可 以 


在 需要 的 时 候 用 来 创建 定制 元 素 或 者 将 数据 转换 功能 集成 到 定制 应 用 中 。 


SSIS 数据 流 引 擎 提供 了 内 存 缓冲 区 ， 用 于 将 数据 从 源 移动 到 目的 地 ， 并 调用 从 文件 和 关系 数据 库 


中 抽取 数据 的 源 适 配器 。 该 引擎 还 提供 修改 数据 的 转换 以 及 将 数据 加 载 到 数据 存储 中 的 目标 适配器 。 
基于 模糊 (近似 ) 匹 配 的 去 重 是 SSIS 提供 的 转换 的 一 个 例子 。 如 果 需 要 的 话 ， 用 户 可 以 编写 他 们 自己 的 
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转换 。 图 30-7 显示 了 一 个 如 何 组 合 多 种 转换 来 清洗 和 加 载 图 书 销售 信息 的 例子 ; 来 自 销售 数据 的 图 书 
标题 在 出 版 数据 库 上 进行 匹配 ， 如 果 没 有 匹配 ， 就 执行 模糊 查找 来 处 理 有 小 错误 ( 比如 拼写 错误 ) 的 标 
题 。 有 关 可 信和 度 和 数据 来 源 的 信息 与 清洗 过 的 数据 存储 在 一 起 。 
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图 30-7 使 用 模糊 查找 的 数据 加 载 


30. 13.2 SQL Server 分 析 服 务 

分 析 服 务 组 件 为 商务 智能 应 用 提供 联机 分 析 处 理 ( OLAP) 和 数据 挖掘 功能 。 分 析 服 务 支持 瘦 窜 户 端 
体系 架构 。 计 算 引 擎 在 服务 器 端 ， 因 此 查询 在 服务 器 端 处 理 ， 避 免 了 需要 在 客户 端 和 服务 器 之 间 传 输 
大 量 数据 。 

30. 13.2.1 SQL Server 分 析 服务 : OLAP 

Analysis Server 使 用 统一 维度 模型 ( Unified Dimensional Model，UDM ) ， 它 弥补 了 传统 关系 报表 和 
OLAP 即席 分 析 之 间 的 差距 。 统 一 维度 模型 (UDM ) 的 角色 是 提供 用 户 和 数据 源 之 间 的 桥梁 。UDM 创建 
在 一 个 或 多 个 物理 数据 源 之 上 ， 然 后 最 终 用 户 使 用 各 种 客户 端 工 具 之 一 (例如 Microsoft Excel) 在 UDM 
上 发 布 查询 。 

并 非 只 有 DataSource 模式 的 维度 建 模 层 ，UDM 为 定义 强大 而 详尽 的 业务 逻辑 、 规 则 以 及 语义 定 
义 提 供 了 丰富 的 环境 。 通 过 定义 元 数据 目录 的 本 地 语言 翻译 以 及 维度 数据 ， 用 户 能 够 在 UDM 数据 上 
使 用 他 们 的 本 地 语言 (比如 法 语 或 者 印 地 语 ) 来 浏览 和 生成 报表 。 分 析 服 务 定义 了 复杂 时 间 维 ( 财务 
的 、 报 告 的 、 生 产 的 ， 等 等 )， 并 能 够 使 用 多 维 表达 式 ( MDX) 语 言 来 定义 强大 的 多 维 业 务 逻 辑 ( 年 增 
长 、 年 度 至 今 )。UDM 允许 用 户 定义 面向 业务 的 视角 ， 每 个 视角 仅 展 示 模 型 的 一 个 特定 子 集 ( 度 量 、 
维 、 属 性 、 业 务 规则 ， 等 等 )， 该 子 集 与 一 个 特定 的 用 户 组 相关 。 商 务 常 常 定义 关键 性 能 指标 ( Key 
Performance Indicator，KPI) ， 它 是 用 于 度量 业务 健康 程度 的 重要 指标 。 这 类 KPI 的 例子 包括 销售 额 、 
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每 员工 收入 以 及 客户 保有 率 。UDM 允许 定义 这 样 的 KPI， 使 得 能 以 更 容易 理解 的 方式 来 分 组 和 展示 

30. 13.2.2 SQL Server 分 析 服 务 : 数据 挖掘 

SQL Server 提供 各 种 挖掘 技术 ， 并 有 丰富 的 图 形 化 界面 来 查看 挖掘 结果 。 所 支持 的 挖掘 算法 包括 : 

© 关联 规则 (在 交叉 销售 应 用 中 很 有 用 ) 。 

© 分 类 和 预测 技术 ， 比 如 决策 树 、 回 归 树 、 神 经 网 络 和 朴素 贝 叶 斯 。 

。 时 间 序 列 预测 技术 ， 包 括 ARIMA 和 ARTXP。 

。 聚 类 技术 ， 比 如 最 大 期 望 和 k-means( 与 序列 聚 类 技术 配合 ) 。 

另外 ，SQL Server 提供 了 可 扩展 的 体系 架构 来 插入 第 三 方 数据 挖掘 算法 和 可 视 化 工具 ， 

SQL Server 还 支持 数据 挖掘 扩展 ( Data-Mining Extensions, DMX) 这 种 对 SQL 的 扩展 。DMX 是 用 来 
与 数据 挖掘 模型 交互 的 语言 ， 就 像 SQL 是 用 来 与 表 和 视图 交互 的 一 样 。 通 过 DMX， 可 以 创建 和 训练 模 
型 并 将 其 存储 在 分 析 服 务 数据 库 中 。 然 后 ， 可 以 浏览 模型 以 考虑 模式 ， 或 者 通过 使 用 特殊 的 prediction 
join 语法 ， 将 模型 应 用 到 新 的 数据 上 以 执行 预测 。DMX 语言 支持 一 些 功能 和 构造 ， 来 容易 地 确定 一 个 
预测 的 类 及 其 置信 度 ， 就 像 在 推荐 引擎 中 那样 来 预测 相关 项 的 列表 ， 或 者 甚至 返回 关于 一 个 预测 的 信 
息 和 支持 事实 。SQL Server 中 的 数据 挖掘 能 够 用 于 存储 在 关系 或 多 维 数据 源 中 的 数据 上 。 通 过 特定 的 
任务 和 转换 ， 也 能 够 支持 其 他 数据 源 ， 人 允许 在 集成 服务 的 操作 型 数据 流水 线 上 直接 进行 数据 挖掘 。 数 
据 挖掘 结果 可 以 通过 图 形 化 控制 、OLAP 立方 体 上 特殊 的 数据 挖掘 维 或 者 简单 地 用 报表 服务 中 的 报表 
来 展现 。 
30.13.3 SQL Server 报表 服务 

报表 服务 是 一 个 基于 服务 器 的 报表 平台 ， 可 用 来 创建 和 管理 包含 来 自 关 系 和 多 维 数据 源 的 数据 的 
表格 式 、 和 矩阵 式 、 图 形 化 和 自由 格式 的 报表 。 创 建 的 报表 能 够 通过 基于 Web 的 连接 来 查看 和 管理 。 和 拢 
阵 式 报表 可 以 为 高 层次 的 查看 汇总 数据 ， 同 时 提供 下 钻 报表 中 对 细节 的 支持 。 参 数 化 报表 可 用 于 基于 
运行 时 提供 的 值 来 过 滤 数 据 。 用 户 可 以 从 各 种 查看 格式 中 选择 喜欢 的 格式 来 在 运行 中 提供 报表 ， 用 于 
数据 操纵 或 打印 。 还 可 以 用 API 来 扩展 或 将 报表 功能 集成 到 定制 的 解决 方案 中 。 基 于 服务 器 的 报表 提 
供 了 一 种 方式 用 于 集中 报表 的 存储 和 管理 、 设 置 对 报表 和 文件 夹 的 策略 和 安全 访问 、 控 制 报表 如 何 处 
理 和 分 发 ， 以 及 报表 如 何在 业务 中 使 用 的 标准 化 。 


文献 注解 


关于 使 用 C2 认证 系统 的 SQL Server 详细 信息 可 以 在 www. microsoft. com/Downloads/ Release. asp? 
ReleaseID =25503 上 获得 。 

SQL Server 的 优化 框架 是 基于 Graefe[ 1995 ] 提出 的 级 联 优化 器 原型 的 。Simmen 等 | 1996 | 对 减少 分 组 列 
的 方案 进行 了 讨论 。Galindo-Legaria 和 Joshi[ 2001 ] 与 Elhemali 等 [2007] 提出 了 各 种 执行 策略 ，SQL Server 在 
子 查询 的 基于 代价 的 优化 中 考虑 了 这 些 策 略 。Chaudhuri 等 [ 1999 ] 论述 了 关于 SQL Server 自 调 优 方面 的 其 他 
附加 信息 。Chaud huri 和 Shim[ 1994] 与 Yan 和 Larson[ 1995 ] 论 述 了 到 集 运算 的 重 排序 。 

Chatziantoniou 和 Ross[ 1997 | 与 Galindo-Legaria 和 Joshi[ 2001 | 提出 了 SQL Server 用 于 请 求 自 连接 的 SQL 
查询 的 一 种 奉 代 方案 。 在 该 方案 下 ， 优 化 器 检测 模式 并 考虑 每 段 执 行 。Pellenkoft 等 [1997 | 论述 了 使 用 完全 
的 、 本 地 的 和 非 宛 余 的 转换 集合 来 产生 完整 搜索 空间 的 优化 方案 。Graefe 等 [ 1998 ] 讨 论 了 支持 基本 的 聚集 、 
连接 、 有 些 优化 、 扩 展 以 及 关于 数据 倾斜 的 动态 调整 的 散 列 操 作 。Graefe 等 [1998 ] 仅 为 了 用 查询 所 需要 的 列 
集合 来 装配 行 的 目的 而 提出 联合 索引 的 思想 。 这 种 观点 认为 ， 该 方法 有 时 候 比 扫描 基 表 要 快 ， 

Blakeley[ 1996 | 45 Blakeley 和 Pizzo[ 2001 ] 提供 了 通过 OLE-DB 与 存储 引擎 通信 相关 的 讨论 。Blakeley 等 
[2005 ] 详 细 描 述 了 SQL Server 的 分 布 和 异 构 查询 功能 的 实现 。Acheson 等 |2004 ] 提 供 了 在 SQL Server 进程 中 
集成 . NET CLR 的 细节 。 

Blakeley 等 [2008 ] 更 详细 地 描述 了 UDT、UDAgg 和 UDF 的 协定 。Blakeley 等 [2006 | 介绍 了 ADO. NET 实 
体 框架 。Melnik 等 [2007] 描 述 了 ADO. NET 实体 框架 后 面 的 映射 技术 。Adya 等 [2007] 提供 了 ADO. NET 实 
体 框架 体系 架构 的 概述 。SQL: 2003 标准 在 SQL/XML[ 2004 ] 中 定义 。Rys[ 2001] 提供 了 关于 SQL Server 2000 
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XML 功能 的 更 多 细节 。Rys[2004 ] 提 供 了 对 for xml 聚集 扩展 的 概述 。 关 于 能 够 在 客户 端 或 CLR 中 使 用 的 
XML 功能 的 信息 ， 请 参考 http: //msdn. microsoft. com/XML/Building-XML/XMLandDatabase/ default. aspx 上 的 
白皮书 集 。XQuery 1.0/XPath 2. 0 数据 模型 在 Walsh 等 [2007 ] 中 定义 。Rys[ 2003 ] 提供 了 在 关系 数据 库 环境 
中 实现 XQuery 的 技术 的 概述 。OrdPath 计数 方案 在 O'Neil 等 [2004 | 中 讲述 ，Pal 等 [2004 ] 和 Baras 等 [2005 | 
提供 了 更 多 关于 SQL Server 2005 中 的 XML 索引 和 XQuery 代数 化 和 优化 方面 的 信息 。 T268] 








附录 A 给 出 了 用 作 我 们 的 运行 实例 的 大 学 数据 库 的 全 部 细节 内 容 ， 包 括 E-R 图 、SQL DDL 
和 贯穿 全 书 的 示例 数据 。(DDL 和 示例 数据 可 从 本 书 网 站 db-book. com 下 载 ， 作 为 实验 性 练习 
之 用 。) 

其 余 的 附录 并 没有 和 包含 在 本 书 的 印刷 本 中 ,但 可 以 通过 本 书 网 站 db-book. com 在 线 下 载 

它们 包括 : 

e 附录 B( 高 级 关系 数据 库 设 计 )， 首 先 介 绍 了 多 值 依赖 的 理论 ; 回想 一 下 ， 多 值 依 闲 是 
在 第 8 章 介 绍 的 。 接 下 来 阐述 了 投影 -连接 范式 ,该 范式 基于 一 种 叫做 连接 依赖 的 约 
REA; 连接 依赖 是 多 值 依 赖 的 一 种 泛 化 形式 。 该 章 以 称 作 域 码 范 式 的 另 一 种 范式 
结束 。 

e 附录 C( 其 他 关系 查询 语言 ) 首先 给 出 了 关系 查询 语言 一 一 基于 样 例 的 查询 (QBE)， 这 
种 语言 是 为 非 程 序 员 的 使 用 而 设计 的 。 在 QBE 中 ， 查 询 看 起 来 就 像 一 组 表 ， 这 些 表 中 
包含 待 检索 数据 的 样 例 。 随 后 介绍 了 微软 Access 的 基于 QBE 的 图 形 化 查询 语言 ， 接 着 
是 Datalog 语言 ， 其 语法 仿照 了 逻辑 编程 语言 Prolog。 

e 附录 D( 网 状 模型 ) 和 附录 下 (层次 模型 ) 介 绍 了 网 状 和 层次 数据 模型 。 这 两 种 数据 模型 
产生 于 关系 模型 之 前 ， 并 提供 了 比 关系 模型 更 低层 次 的 抽象 。 它 们 抽象 掉 一 些 用 于 在 
磁盘 上 存储 数据 的 实际 数据 结构 的 一 些 细节 ， 但 不 是 所 有 的 细节 。 这 些 模型 仅 在 少数 
遗留 应 用 中 使 用 。 

从 附录 B 到 附录 下 ， 我 们 用 一 个 具有 如 图 2-15 所 示 的 模式 的 银行 企业 来 阐述 我 们 的 概念 
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详细 的 大 学 模式 


在 本 附录 中 ， 将 给 出 我 们 的 运行 实例 大 学 数据 库 的 全 部 详细 内 容 。 在 A. 1 节 我 们 介绍 本 书 使 用 
的 完整 模式 ， 以 及 该 模式 对 应 的 E-R E Æ A 2 节 我 们 介绍 运行 大 学 实例 的 相对 完整 的 SQL 数据 定 
义 。 除 了 列 出 每 个 属性 的 数据 类 型 ， 我 们 还 引入 了 大 量 约束 。 最 后 ， 我 们 在 A. 3 节 给 出 了 对 应 于 我 
们 的 模式 的 示例 数据 。 从 本 书 的 网 站 db-book. com 上 可 以 获取 用 于 创建 模式 中 所 有 关系 并 向 其 中 导 
和 人 示例 数据 的 SQL 脚本 。 


A. 1 完整 模式 


图 A-1 显示 了 本 书 使 用 的 大 学 数据 库 的 完整 模式 。 图 A-2 显示 了 对 应 于 该 模式 的 E-R 图 ， 该 图 
贯穿 全 书 。 


classroom(building, roon_number, capacity) 
department(dept_name, building, budget) 
course(course_id, title, dept-name, credits) 
instructor(ID, name, dept_name, salary) 
section(course_id, sec.id, semester, year, building, room_number, timeslot_id) 
teaches(ID, course_id, sec_id, semester, year) 
student(ID, name, deptname, tot.cred) 
takes(ID, course.id, secid, semester, year, grade) 
advisor(s.ID, i_ID) = 
time.slot(timeslot.id, day, start_time, end time) 
prereq(course.id, prereq-id) 


图 A-1 大 学 数据 库 的 模式 
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图 A-2 大 学 企业 的 E-R 图 
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A.2 DDL 


在 本 节 中 ， 给 出 关于 我 们 的 例子 的 相对 完整 的 SQL 数据 定义 :除了 列 出 每 个 属性 的 数据 类 型 ， 
我 们 还 引入 了 大 量 的 约束 。 


create table classroom 


( building varchar (15), 
room_number varchar (7), 
capacity numeric (4, 0), 


primary key (building, room_number) ) ; 


create table department 


( dept_name varchar (20) , 
building varchar (15), 
budget numeric (12, 2) check (budget > 0), 


primary key ( dept_name) ) ; 


create table course 


( course_id varchar (8), 

title varchar (50) , 

dept_name varchar (20) , 

credits numeric (2, 0) check (credits > 0) , 


primary key (course_id) , 
foreign key (dept_name) references department 
on delete set null) ; 


create table instructor 


(ID varchar (5), 

name varchar (20) not null, 

dept_name varchar (20), 

salary numeric (8, 2) check (salary > 29000) , 


primary key (/D) , 
foreign key (dept _name) references department 
on delete set null) ; 


create table section 


( course_id varchar (8), 

sec_id varchar (8) , 

semester varchar (6) check ( semester in 

(’ Fall’ ,’ Winter’ ,’ Spring’ ,’ Summer’ ) ) , 

year numeric (4, 0) check (year > 1701 and year < 2100), 
building varchar (15) , 

room_number varchar (7) , 

time_slot_id varchar (4), 


primary key (course_id, sec_id, semester, year) , 

foreign key (course_id) references course 
on delete cascade , 

foreign key (building, room_number) references classroom 
on delete set null) ; 


在 上 述 DDL 中 ， 如 果 元 组 的 存在 取决 于 引用 的 元 组 ， 我 们 为 外 码 约束 增加 了 on delete cascade 
声明 。 例 如 我 们 为 从 section ( 根据 弱 实 体 section 产生 ) 到 course( 该 弱 实 体 的 标识 性 联系 ) 的 外 码 约 束 添 
加 了 on delete cascade 声明 。 在 其 他 外 码 约束 中 我 们 要 么 指定 为 on delete set null( 它 通 过 把 引用 值 设 
为 空 的 方式 来 删除 引用 元 组 )， 要么 不 增加 任何 声明 ( 它 防止 删除 任何 引用 元 组 )。 例 如 ， 如 果 删 除 
一 个 系 ， 我们 不 希望 把 相关 的 教师 也 删除 ; 从 instructor 到 department 的 外 码 约 束 实际 上 把 dept_name 
属性 设置 为 空 。 男 一 方面 ， 关 系 prereg( 将 在 下 面 给 出 ) 的 外 码 约束 防止 删除 这 样 的 课程 : 该 课程 作为 
另 一 门 课程 的 先 修 课 。 对 于 下 面 将 给 出 的 advisor 关系 ， 如 果 删 除 一 位 教师 ， 我 们 允许 把 i_1D 设置 为 
空 ， 但 是 如 果 删 除 被 引用 的 学 生 ， 那 么 就 删 掉 advisor 元 组 。 
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create table teaches 


(ID varchar (5), 
course_id varchar (8), 
sec_id varchar (8) , 
semester varchar (6) , 
year numeric (4, 0), 


primary key (/D, course_id, sec_id, semester, year) , 

foreign key (course_id, sec_id, semester, year) references section 
on delete cascade, 

foreign key (/D) references instructor 
on delete cascade) ; 


create table student 


(ID varchar (5), 

name varchar (20) not null, 

dept_name varchar (20), 

tot_cred numeric (3, 0) check (tot_cred >= 0), 


primary key (/D), 
foreign key (dept_name) references department 
on delete set null) ; 


create table takes 


(ID varchar (5), 
course_id varchar (8), 
sec_id varchar (8) , 
semester varchar (6), 
year numeric (4, 0), 
grade varchar (2), 


primary key (ID, course_id, sec_id, semester, year) , 
foreign key (course_id, sec_id, semester, year) references section 
on delete cascade, 
foreign key (/D) references student 
on delete cascade) ; 


create table advisor 
(s_ID varchar (5), 
i_ID varchar (5), 
primary key (s_/D) , 
foreign key (i_/D ) references instructor ( ID) 
on delete set null, 
foreign key (s_/D) references student ( ID) 
on delete cascade) ; 


create table prereq 
( course_id varchar(8) , 
prereq_id varchar(8) , 
primary key (course_id, prereq_id) , 
foreign key (course_id) references course 
on delete cascade, 
foreign key (prereg_id) references course) ; 


下 面 对 表 time_slot 的 create table 语句 可 以 在 大 多 数 数 据 库 系 统 上 运行 ， 但 不 能 在 Oracle 上 工作 
( 至少 不 适用 于 Oracle 11 版 本 ) ， 因 为 Oracle 不 支持 SQL 标准 类 型 time, 


create table time_s/ot 
( time_slot_id varchar (4), 


day varchar (1) check (day in(’M’,’T’,’W’,’R’,’F’,’S’,’U")), 
start_time time, 
end_time time, 


primary key (time_slot_id, day, start_time) ) ; 


这 些 例子 说 明了 在 SQL 中 指定 时 间 的 语法 :“08: 30’, 613; 55’ 和 “5: 30PM’. HF Oracle 不 


支持 time 类 型 ， 对 于 Oracle 我 们 使 用 如 下 模式 来 代替 : 


create table time_slot 


( time_slot_id 
day 

start_hr 
start_min 
end_hr 
end_min 


A. 3 示例 数据 


varchar (4), 
varchar (1), 
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numeric (2) check (start_hr >=0 and end_hr < 24), 
numeric (2) check (start_min >=0 and start_min < 60) , 
numeric (2) check (end_hr >=0 and end_hr < 24), 
numeric (2) check (end_min >= 0 and end_min < 60), 
primary key (time_slot_id, day, start_hr, start_min) ) ; 


其 区 别 在 于 : start_time 被 替换 成 两 个 属性 start_hr 和 start_min， 同 样 end_time PRE HAIR end_ 
hr 和 end_min。 这 些 属性 上 还 有 约束 来 保证 只 有 代表 有 效 时 间 值 的 数字 才能 出 现在 这 些 属性 中 。 这 个 
版 本 的 time_slot 模式 在 包括 Oracle 在 内 的 所 有 数据 库 上 都 能 运行 。 注 意 尽 管 Oracle 支持 datetime 数 
据 类 型 ， 但 datetime 包括 特定 的 日 、 月 、 年 以 及 时 间 ， 用 在 这 里 并 不 合适 ,因为 我 们 只 想 用 时 间 . 
把 时 间 属 性 拆 分 成 小 时 和 分 钟 部 分 还 有 两 种 蔡 代 方案 ,但 是 它们 都 不 可 取 。 第 一 种 替代 方案 是 采用 
varchar 类 型 ， 但 是 这 样 就 难以 在 字符 串 上 施加 有 效 性 约束 ， 也 不 方便 执行 时 间 上 的 比较 。 第 二 种 蔡 
代 方 案 是 把 时 间 编 码 成 整数 ， 该 整数 表示 从 午夜 以 来 的 分 钟 (或 秒 ) 数 ,但 是 这 种 方案 需要 每 次 查询 
有 额外 代码 来 进行 标准 时 间 表 示 和 整数 编码 之 间 的 转换 。 因 此 我 们 选用 两 部 分 表示 的 方案 。 


在 本 节 我 们 将 为 前 一 节 定 义 的 每 个 关系 提供 示例 数据 ， 如 图 A-3 ~ 图 A-14 所 示 。 























building | roomnumber | capacity 
| Packard | 101 500 

Painter | 514 10 

Taylor 3128 70 

Watson 100 30 

Watson | 120 50 | 





图 A-3 classroom 关系 











| deptname | building | budget 
Biology Watson 90000 
Comp. Sci. | Taylor 100000 
Elec. Eng. | Taylor | 85000 
Finance Painter | 120000 
History Painter | 50000 
Music Packard | 80000 
Physics Watson | 70000 














图 A-4 department 关系 




















courseid | title deptname | credits 
BIO-101 | Intro. to Biology Biology 4 

| BIO-301 | Genetics Biology 4 
BIO-399 | Computational Biology Biology 3 
CS-101 Intro. to Computer Science | Comp. Sci. 4 
CS-190 | Game Design Comp. Sci. 4 | 
CS-315 | Robotics Comp. Sci. 3 
CS-319 Image Processing Comp. Sci. 3 
CS-347 | Database System Concepts | Comp. Sci. 3 
EE-181 Intro. to Digital Systems Elec. Eng. 3 
FIN-201 | Investment Banking Finance 3 
HIS-351 | World History History 3 
MU-199 | Music Video Production | Music 3 
PHY-101 | Physical Principles Physics 4 











图 A-5 course 关系 
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ID name | dept name | salary 
10101 | Srinivasan | Comp. Sci. | 65000 
12121 | Wu Finance 90000 
15151 | Mozart Music 40000 | 
22222 | Einstein Physics 95000 
32343 | El Said History 60000 
33456 | Gold Physics 87000 | 
45565 | Katz Comp. Sci. | 75000 | 
58583 | Califieri History 62000 
76543 | Singh Finance 80000 
76766 | Crick Biology 72000 
83821 | Brandt Comp. Sci. | 92000 
98345 | Kim Elec. Eng. | 80000 
图 A-6 instructor 关系 
| course-id | secid | semester | year | building | roomnumber | timeslotid 
BIO-101 1 | Summer | 2009 | Painter 514 | B 
BIO-301 1 Summer | 2010 | Painter 514 | A 
CS-101 1 Fall 2009 | Packard 101 H 
CS-101 1 Spring 2010 | Packard 101 F 
CS-190 1 Spring 2009 | Taylor 3128 E 
CS-190 2 Spring 2009 | Taylor 3128 A 
CS-315 1 Spring 2010 | Watson 120 D 
CS-319 1 Spring 2010 | Watson 100 | B 
CS-319 2 Spring 2010 | Taylor 3128 | C 
CS-347 1 Fall 2009 | Taylor 3128 | A 
EE-181 1 Spring 2009 | Taylor 3128 € 
FIN-201 1 | Spring 2010 | Packard 101 B 
HIS-351 1 Spring 2010 | Painter 514 C 
MU-199 1 Spring 2010 | Packard 101 D 
PHY-101 1 Fall 2009 | Watson 100 A 




















A-7 section 关系 





ID | course.id | secid | semester | year 








10101 | CS-101 
10101 | CS-315 
10101 | CS-347 


12121 | FIN-201 
15151 | MU-199 
22222 | PHY-101 
32343 | HIS-351 


45565 | CS-101 
45565 | CS-319 


76766 | BIO-101 
76766 | BIO-301 


83821 | CS-190 
83821 | CS-190 
83821 | CS-319 
98345 | EE-181 





| 


| 





== 


Fall 


和 See Pee eee ee a 





Fall 2009 | 
Spring | 2010 | 
Fall | 2009 
Spring | 2010 


Spring 2010 


Spring 2010 
Spring 2010 
Spring | 2010 
Summer | 2009 
Summer | 2010 
Spring | 2009 
Spring 2009 
Spring 2010 
Spring | 2009 











图 A-8 teaches 关系 

















ID “name dept-name | totcred 
00128 | Zhang Comp. Sci. 102 
12345 | Shankar | Comp. Sci. 32 
19991 | Brandt History 80 
23121 | Chavez Finance 110 
44553 | Peltier Physics 56 
45678 | Levy Physics 46 
54321 | Williams | Comp. Sci. 54 
55739 | Sanchez | Music 38 
70557 | Snow Physics 0 
76543 | Brown Comp. Sci. 58 
76653 | Aoi Elec. Eng. 60 
98765 | Bourikas | Elec. Eng. 98 
98988 | Tanaka Biology 120 











图 A-9 


student 关系 



















































































ID | courseid | secid | semester | year | grade 
00128 | CS-101 J Fall 2009 | A 
00128 | CS-347 1 Fall 2009 | A- 
12345 | CS-101 1 Fall 2009 | C 
12345 | CS-190 2 Spring 2009 | A 
12345 | CS-315 1 | Spring | 2010 | A 
12345 | CS-347 1 Fall | 2009 | A 
19991 | HIS-351 1 Spring | 2010 | B 
23121 | FIN-201 1 Spring 2010 | C+ 
44553 | PHY-101 i Fall 2009 | B- 
45678 | CS-101 1 Fall 2009 | F 
45678 | CS-101 1 Spring 2010 | B+ 
45678 | CS-319 1 Spring | 2010 | B 
54321 | CS-101 1 Fall | 2009 | A- 
54321 | CS-190 2 Spring | 2009 | B+ 
55739 | MU-199 1 | Spring | 2010 | A- 
76543 | CS-101 1 Fall 2009 | A 
76543 | CS-319 2 Spring 2010 | A 
76653 | EE-181 1 Spring | 2009 | C 
98765 | CS-101 1 | Fall 2009 | C- 
98765 | CS-315 1 Spring 2010 | B 
98988 | BIO-101 1 Summer | 2009 | A 
98988 | BIO-301 1 Summer | 2010 | null 
A-10 takes 关系 
sid iid 
00128 | 45565 
12345 | 10101 
23121 | 76543 | 
44553 | 22222 | 
45678 | 22222 | 
76543 | 45565 | 
76653 | 98345 
98765 | 98345 | 
98988 | 76766 | 
图 A-11 advisor 关系 
timeslot.id | day | start time | endtime 
A M 8:00 8:50 
A W 8:00 8:50 
A F 8:00 8:50 
B M 9:00 9:50 
B W 9:00 9:50 
B F 9:00 9:50 
C M 11:00 11:50 
C W 11:00 11:50 
(e F 11:00 11:50 
D M 13:00 13:50 
D W 13:00 13:50 
D FE 13:00 13:50 
E T 10:30 11:45 
E R 10:30 11:45 
F T 14:30 15:45 
F R 14:30 15:45 
G M 16:00 16:50 
G W 16:00 16:50 
G F 16:00 16:50 
H WwW 10:00 12:30 
图 A-12 time_slot 关系 
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course.id | preregid | 


BIO-301 | BIO-101 
BIO-399 | BIO-101 
CS-190 | CS-101 

CS-315 | CS-101 

cs-319 | CS-101 | 
CS-347 | CS-101 | 
EE-181 | PHY-101 | 


图 A-13 prere 关系 
























































time.slotid | day | starthr | startmin | endhr | end min 
A M BB 0 8 1 50 
A W 8 0 8 50 
A F 8 0 8 50 
B M 9 0 9 50 
B Ww 9 0 9 50 
B F 9 0 9 50 
C M 11 0 11 50 
C W 11 0 11 50 
Cc F 11 0 11 50 
D M 13 0 13 50 
D W 13 0 13 50 
D F 13 0 13 50 
E T 10 30 11 45 
E R 10 30 11 45 
F T 14 30 15 45 
F R 14 30 15 45 
G M 16 0 16 50 
G Ww 16 0 16 50 
G F 16 0 16 50 
H | W 10 0 12 30 
图 A-14 具有 起 始 和 终止 时 间 被 拆 分 成 小 时 和 分 钟 的 time_slot 关系 
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centralized architecture (集中 式 体 系 结 构 )， 
769-771 
centralized deadlock detection ( 集中 式 死 锁 检测 )， 
845-846 
challenge-response system ( 询问 - 回答 系统 ) 415 
change isolation level( 改变 隔离 性 级 别 ) 649 
check clause( check 子 句 ) 130, 134 
assertion and( 斯 言 ) 135-136 
authorization and( #24) , 148 
data constraint and( 数据 约束 ) , 310 
dependency preservation and( 保持 依赖 ) , 334-336 
user-defined type and( 用户 自 定 义 类 型 ) 140 
check constraint (check 约束 ) 134, 148, 310, 
317, 334, 628, 1130 
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checkpoint ( 检查 点 ) 
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Oracle and, 1185 
recovery system and (恢复 RK He), 734-735, 
742-743 
transaction server and( 事务 服务 器 ) , 774 
checksum ( 校 验 和 ) ，434 
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Bayesian( 贝 叶 斯 ) 900-901, 1191, 1266 
best split and( 最 优 划 分 ) , 897-899 
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entropy measure and( ÑE), 897 
Gini measure and( 吉 尼 度 量 ) 897 
information gain and( 信息 增益 ) ，897-898 
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partition and( 划分 ) , 896-897 
prediction and( 预测 ) , 894-904 
purity and( 纯度 ) , 897 
regression and( 回归 ) , 902-903 
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validating( 确认 ) , 903-904 
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32, 204 
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Microsoft SQL Server and, 1228 
recovery system and( 恢复 系统 ) , 756 
system architecture and( 系统 体系 结构 )，769-772， 
777, 788, 791 
transaction processing and( 事务 处 理 ) , 1092-1096 
client-side scripting( 客户 端 脚本 ) ，389-391 
clob( 字符 大 对 象 数据 类 型 )，138，166，457， 
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cloud computing( 云 计算 ) , 777 
challenge with( HEER), 868-870 
data representation and ( 数据 表示 ) ， 
partition and( 划分 ) ，865-866 
replication and( 复制 ) ，866-868 
retrieval and( 检索 ) 865-866 
storage and( 存储 ) ，862-863 
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transaction and( 事务 ) 866-868 
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agglomerative ( 凝聚 ) , 907-908 
cloud computing and ( 云 计算 ) 867 
data mining and ( 数据 挖掘 ) 894, 907-908 
divisive ( 4⁄4) , 907-908 
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IBM DB2 and, 1203-1207 
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Oracle and, 1173, 1186 
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combinatorics (AGW), 639 
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751-752, 754 
complex data type ( 复杂 数据 类 型 )，28，31， 
138, 1061 
entity-relationship (E-R) model and( 实体 -联系 模 
HU) | 946-947 
keyword and( 关键 字 ) , 947-949 
normal form and( 范式 ) ，947 
object-based database and ( 基于 对 象 的 数据 库 )， 
945-949, 963, 970-974 
system architecture and ( 系统 体系 结构 ) 864 
Component Object Model (COM) ( 48 4 xt & # 
型 ) 1253 
compression( 压缩 ) ，1077-1078 
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Oracle and, 1165-1167 
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computer-aided design (CAD) ( 计算 机 辅助 设计 ) ， 
312, 1061, 1064-1068 
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concurrency control ( 并 发 控制 ) 631, 636, 639, 709 
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blind write and( 4) , 687 
consistency and( —2#X PE) , 695, 701-704, 710 
deadlock handling and( 死 锁 处 理 ) 674-679 
delete operation and( 删除 操作 ) ，697-701 
distributed database and (分 布 式 数据 库 )，835- 
836, 839-847 
DML command and (数据 操纵 语言 命令 )， 
1138-1139 
false cycle and( 假 环 ) ，846-847 
IBM DB2 and, 1200-1203, 1217-1218 
index structure and( 索引 结构 ) , 704-708 
insert operation and( 插 和 操作) , 697-701 
lock and( 锁 ) , 661-686, 839-842 
logical undo and( 逻辑 undo), 749-750 
long-duration transaction and( 长 事务 ) 1111-1112 
Microsoft SQL Server and，1241-1246 
multiple granularity and( 多 粒度 ) ，679-682 
multiversion scheme and( 多 版 本 机 制 ) ，689-692 , 
1137-1146 
Oracle and，1180-1183 
PostgreSQL and, 1137-1145 
predicate read and( 谓词 读 ) , 697-701 
recovery system and( 恢复 系统 ) , 729-730 
rollback and ( 回 滚 ) 667, 670, 674-679, 685, 
689, 691, 709 
serializability and ( Ay 474K), 650, 662, 666- 
667, 671, 673, 681- 690, 693- 697, 701- 
704, 708 
snapshot isolation and (快照 隔离 )，692- 697, 
729-730 
timestamp-based protocol and( 基于 时 间 截 的 协议 ) ， 
682-686 
update and( 更 新 ) ，867-868 
user interaction and( 用 户 交 互 ) ，702-704 
validation and( 有效 性 检查 ) 686-689, 729-730 
Web crawler and( 网 络 疏 虫 ) 930-931 
condition-defined entity set (条件 定 义 的 实体 
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conformance level( 一 致 性 级 别 ) ，168-169 
conjunction ( 连接 ) , 545-546, 594 
connect to( 连接 到 ) ，170 
consistency ( 一 致 性 ) 11, 22, 104 
availability and( 可 用 性 ) , 852-853 
CAP theorem and(CAP 定理 ) 852-853 
concurrency control and (并 发 控制 )，695，701- 
704, 710 
cursor stability and ( 游标 稳定 性 ) 702 
deadlock and( FE i) , 665-666 
degree-two( 二 级 ) 701-702 
distributed transaction and( 分 布 式 事务 ) 830-832 
logical operation and( 2424.) , 746 
mobile network and( 移动 网 络 ) , 1083-1085 
replication with weak( 弱 一 致 性 副本 ) , 843-844 
requirement of( 要 求 ) ，630 
transaction and( 事 务 ) 627-631, 635-636, 640, 
648-650, 655 
user interaction and( 用 户 交 互 ) 702-704 
weak level of( 弱 一 致 性 级 别 ) ，701-704 
constraint ( 约束 ) 
condition-defined( 条 件 定义 的 ) ，299 
decomposition and( 分 解 ) ，354-355 
dependency preservation and( 保持 依赖 ) ，334-336 
disjoint( 不 相交 ) ，300 
entity-relationship (E-R) model and( 实体 - 联系 模 
型 )，269-272，299.301 
IBM DB2 and, 1199 
integrity( 完整 性 ) ，4 (参见 integrity constraint) 
key( 码 ) 271-272 
mapping cardinality and (映射 基数 )，269-270， 
276-277 
overlapping ( Æ$), 300 
partial( 部 分 ) , 300 
participation( 参与 ) 270 
PostgreSQL and, 1130-1131, 1153-1154 
total ( 4275) , 300 
transaction and( $4), 628, 1108-1109 
UML and( 统一 建 模 语言 ) 309-310 
user-defined( 用 户 自 定义 ) ，299 
contain( 包含 ) 93 
context switch( 上 下 文 切 换 ) 1092 
conversation group (会 话 组 ) ，1262 
cookie ( 一 小 段 包 含 标识 信息 的 文本 ) 382-385, 
403-405 


core( 核 ) ，770 
correlated subquery ( 相关 子 查询 ) 93 
correlation ( 相关 性 ) 906 
correlation variable ( 相关 变量 ) 605-607 
count( 计数 ) 84-86, 89, 566-567 
count-distinct( 不 同 计数 ) 236 
count value( 计数 值 ) ，204 
crash( 崩溃 ) ，434 ，467-468 
action after( 动作 ) ，736-738 
algorithm for( 算法 ) ，735-738 
ARIES and, 750-756 
checkpoint and( 检查 点 ) , 734-735 
failure classification and( 故障 分 类 ) ，721-722 
recovery system and (恢复 系统 )，736-738 (参见 
recovery system ) 
transaction and( 事务 )，628 
create assertion( 创建 断言 ) 135 
create distinct type ( 创建 独特 类 型 ) 141, 1194- 
1195, 1197 
create domain( 创建 域 ) , 140-141 
create function ( 创建 函数 ) 175, 177, 189 
create index ( #iI/###5|), 528-529, 1150-1151 
create or replace( 创建 或 替换 ) , 174n4 
create procedure ( 创建 过 程 ) 175, 179 
create recursive view( 创建 递归 视图 ) , 192 
create role( 创建 角色 ) ，146 
create schema( 创建 模式 ) 143 
create snapshot( 创建 快照 ) ，843-844 
create table( 创建 表 ) ，60-63，139，161 
with data( 带 数 据 )，141-142 
extension for( 扩展 ) 141-142 
integrity constraint and ( 完整 性 约束 ) 129 
object-based database and ( 基于 对 象 的 数据 库 ) ， 
950, 961-962 
create table. .. as( 创建 …… R), 142 
create type( 创建 类 型 ) 139-141 
create unique index( 创建 唯一 性 索引 ) ，529 
create view (创建 视图 )，121-123，125，142， 
147, 1130-1131 
Cross-Site Request Forgery ( XSRF ) ( 跨 站 请 求 伪 
造 ) ，403-404 
cross-site scripting (XSS) ( 跨 站 脚本 ) ，403-405 
cross-tabulation ( 交叉 表 ) ，199-203 ，205 210 
CRUD Web interface( CRUD Web 接口 ) ，399 
Crystal Report( 水 晶 报 表 ) , 399-400 
cube by( 立方 体 ) 1221-1222 
cube construct( 立方 体 构造 ) 206-210 
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current-date( 当前 日 期 ) 137 
cursor stability ( 游标 稳定 性 ) 702 
curve fitting( 曲线 拟 合 ) ，902-903 
Cyc project( Cyc 工程 ) 925, 927 
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data access layer( 数据 访问 层 ) 391, 393, 395 
data analysis ( 数据 分 析 ) 
data mining and( 数据 挖掘) 893-910 
decision-support system and (决策 支持 系统 )， 
887-891 
information retrieval and( 信息 检索 ) ，915-938 
warehousing and( 仓库 ) ，887-891 
database design ( 数据 库 设计 ) ，257，313-314 
adapting for modern architecture and( 适应 现代 体系 
结构 ) ，818-819 
alternative and( 选择 ) ，261-262 ，304-310 
application( 应 用 ) ，375-418 
authorization requirement and( 授权 需求 ) ，312 
automated tuning and( 自动 调整 ) ，1040-1041 
bottom-up( 自 底 向 上 ) ，297 
buffer and( 缓冲 区 ) ，464-468 
client-server architecture and( 客 户 -服务 器 体系 结 
#5), 32, 204, 376-377, 756, 766-767, 769- 
772, 777, 788, 791 
complexity of ( 复杂 性 ) 260 
conceptual-design phase and ( 概念 设计 阶段 ) 15- 
16, 260 
data constraint and ( 数据 约束 ) , 310-311 
direct design process and( 直接 设计 过 程 ) 259-260 
encryption and( 加 密 ) ，411-417 
entity-relationship ( E-R) model and (实体 -联系 模 
型 ) 17-18, 249-313 
IBM DB2 and, 1194-1195 
incompleteness and( 不 完整 ) ，262 
logical-design phase and (逻辑 设计 阶段 ) 16, 
260-261 
Microsoft SQL Server and, 1223-1228 
normalization and( 标准 化 ) 18-20 
Oracle and, 1157-1158 
overview of process( 过 程 概述 ) , 259-262 
parallel system and( 并 行 系统 ) , 815-817 
phase of ( 阶段 ) 259-261 
physical-design phase and (物理 设计 阶段 )， 
16, 261 
redundancy and( JU4z) , 261-262 
relational( 关系 的 ) 323-368 


specification of functional requirement and( 功能 需求 
说 明 )，16 
top-down( 自 顶 向 下 ) 297 
university and( 大 学 ) ，16-17 
user need and( 用 户 需求 ) 260 
user requirement and( 用 户 需求 ) 311-312 
workflow and( 工作 流 )，312-313 
database graph( 数据 库 图 ) 671-674 
database instance( 数据 库 实例 ) ，42 
database ( 数据 库 ) 
abstraction and( 抽象 ) 6-8, 10 
architecture and (体系 结构 )，28-29，767 (参见 
architecture ) 
buffering and( 缓冲 ) ，739-741 (参见 buffers) 
concurrency control and( 并 发 控制 ) 661-710 (& 
见 concurrency control ) 
distributed ( 分 布 式 ) 825-878, 1188 
dumping and( 转 储 ) , 743-744 
file-processing system and( 文件 处 理 系 统 ) ，3-6 
force output and ( 强制 输出 ) 725-726 
history of( 历史 ) ，29-31 
indexing and( 索引 ) ，475-531 (参见 index) 
information retrieval and( 信息 检索 ) ，915-937 
lock and( 锁 ) ，661-679 (参见 lock) 
main-memory( 主 存 ) ，1105-1108 
mobile( 移动 ) ，1079-1085 
modification and( 修改 ) , 98-103, 728-729 
multimedia( 多 媒体 ) 1076-1079 
normalization and( 标准 化 ) 18-20 
parallel( 并 行 ) ，797-820 
personal( 个 人 ) ，1079-1085 
recovery system and( 恢复 系统 ) 631, 633, 721- 
761 (参见 recovery system) 
storage and( 存储) , 20-22, 427 (参见 storage) 
time in( 时 间 ) ，1062-1064 
DataBase Administrator (DBA) ( 数据 库 管 理 员 ) ， 
28-29, 149, 1152, 1214-1215, 1243 
database schema( 数据 库 模 式 ). 参见 schema 
Database Task Group ( 数据 库 任务 组 ) 1052 
database writer process ( 数据 库 写 进程 ) 773 
data cleansing ( 数据 清洗 ) ，890 
data cube( 数据 立方 体 ) 200, 206-210 
data-definition language( DDL) ( 数据 定义 语言 ) ，9- 
12，14，32 
authorization and( 授权 ) ，58 
basic type and( 基本 类 型 ) 59-60 
concurrency control and( 并 发 控制 ) 1144-1145 


dumping and( 转 储 ) ，743-744 
IBM DB2 and，1194-1197 ，1204 
index and( 索引 ) ，58 
integrity and( 完整 性 ) ，58 
SQL Server 
1245, 1253, 1256, 1261 
Oracle and, 1162, 1181 
PostgreSQL and, 1144-1145, 1150 
querying and( 查询 ) , 21-22 
schema definition and( 模式 定义 ) 28, 58, 60-63 
security and( 安全 ) 58 
set of relation in( 关系 集合 ) 58-61 
SQL basic and( SQL 基础 ) , 57-63, 104 
storage and( 存储 ) 58 
data dictionary ( 数据 字典 ) 12, 21, 462-464 
Data Encryption Standard ( DES) (数据 加 密 标 
准 ) 413 
DataGrid control( DataGrid 控件 ) ，398 
data guard( 数据 卫士 ) 1183 
data inconsistency (数据 不 一 致 性 ) . $ 
见 consistency 
data isolation ( 数据 隔离 性 ) ， 参 见 isolation 
DATAllegro, 816 
Datalog( Datalog 语言 ) 37 
data-manipulation language (DML) (数据 操纵 语 
B), 12-14 
authorization and( 授权) ，143 
compiler and( 编译 器 ) , 21-22 
concurrency control and (并 发 控制 )， 
1139, 1145 
declarative ( 描述 性 的 ) 10 
defined( 定义 的 ) 10, 32 
host language and( 宿主 语言 ) ，15 
Microsoft SQL Server and，1231-1233 ，1245 ，1261 
Oracle and, 1161-1162, 1165, 1181 
PostgreSQL and, 1137-1138 
precompiler and( 预 编译 器 ) , 15 
procedural/nonprocedural ( 过 程 化 / 非 过 程 化 ) 10 
querying and( 查询) ，21-22 
snapshot isolation and (快照 隔离 )，1137 (参见 
snapshot isolation ) 
storage manager and( 存储 管理 器 ) , 20-21 
triggers and( 触发 器 ) 1161-1162 
data mediation ( 数据 中 介 ) 1018-1019 
data mining ( & #292 #8), 25-26, 33, 771-772, 
887-889 
association rule and( 关联 规则 ) , 904-907 
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best split and( 最 优 划 分 ) , 897-899 
classification and( 分 类 ) ，894-904 
cluster and( RÆ), 894, 907-908 
data-visualization ( 数据 可 视 化 ) , 909 
defined( 定义 的 ) 893 
descriptive pattern and( 描述 性 模式 ) ，894 
entropy measure and( WE), 897 
Gini measure and( #7 JE EH) , 897 
information gain and( 信息 增益 ) , 897-898 
Microsoft SQL Server and, 1266-1267 
Oracle and, 1191 
prediction and( 预测 ) , 894-904 
purity and( 纯度 ) 897 
rule for( 规则 ) , 893-894 
text( 文本 ) , 908 
data model( 数据 模型 ). 参见 specific model 
data parallelism ( 数据 并 行 性 ) 805 
data server system ( 数据 服务 器 系统 ) 773, 775- 
777, 782 
data storage and definition language ( 数据 存储 和 定 
义 语 言 ) 11 
data striping ( 数据 拆 分 ) 444 
data-transfer rate ( 数据 传输 率 ) 435-436 
data type( 数据 类 型 )， SM type 
data warehouses ( 数据 仓库 ) 888 
column-oriented storage and (面向 列 的 存储 )， 
892-893 
component of( 构件 ) ，889-891 
deduplication and( 去 重 ) ，890-891 
defined( 定义 的 ) ，889 
fact table and( 事实 表 ) 891-892 
householding and( 住宅 操作 ) 891 
IBM DB2 and，1194 ，1221-1222 
materialized view and( 物化 视图 ) 1171-1172 
merger-purge operation and (合并 - 清除 操作 )， 
890-891 
Microsoft SQL Server and, 1264 
Oracle and, 1158, 1162, 1169-1172, 
transformation and( 转换 ) ，891 
update and( 更 新 ) ，891 
Data Encryption Standard (DES) ( 数据 加 密 标 
准 ) 413 
datetime ( 时 间 ) , 201 
DB-Lib, 1249 
deadline ( 期 限 ) , 1108-1109 
deadlock ( 3E $ ) 
consistency and ( 一 致 性 ) 665-666 
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distributed database and (分 布 式 数 据 库 )，839， 
841, 844-847 
handling of ( 处 理 ) , 674-679 
IBM DB2 and, 1217-1220 
long-duration transaction and( 长 事务 ) 1110-1111 
Microsoft SQL Server and, 1243-1244, 1246 
PostgreSQL and, 1143-1145 
prevention of ( 预防 ) , 675-676 
rollback and( EIX), 678-679 
starvation and ( {3E ) , 679 
victim selection and ( 牺牲 者 选择 ) 678 
wait-for graph and ( 等 待 图 ) , 676-677, 676-678 
decision support( 决策 支持 ) 1047 
decision-support query ( 决策 支持 查询 ) 797 
decision-support system ( 决策 支持 系统 ) 887-891 
decision-tree classifier ( 决策 树 分 类 器 ) 895-900 
declare( 声明 ) 175-178 
decode ( 解码) , 208 
decomposition ( 分 解 ) 
algorithm for( 算法) 348-355 
Boyce-Codd Normal Form and ( Boyce-Codd 范式 )， 
333-336, 349-355 
dependency preservation and( 保持 依赖 ) ，334-336 
fourth normal form and( 第 四 范式 ) , 358-360 
functional dependency and ( 函数 依赖 ) 329-338, 
355-360 
higher normal form and( 更 高 级 范式 ) , 337-338 
key and( #4) , 330-333 
lossless ( 无 损 ) , 345-346 
.lossless-join( 无 损 连 接 ) , 345-346 
lossy( 有 损 ) ，345-346 
multivalued dependency and( 多 值 依 赖 ) ，355-360 
relational database design and (关系 数据 库 设计 ) ， 
329-338 ，348-360 
third normal form and (第 三 范式 )，336-337， 
352-355 
decomposition rule ( 分 解 规则 ) , 339 
DEC Rdb，30 
deduplication( 去 重 ) 890-891 
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information retrieval and( 信息 检索 ) 934 
Microsoft SQL Server and, 1240 
Oracle and, 1176 
parallel database and ( 并 行 数 据 库 ) , 815 
query optimization and (查询 优化 )，598- 605, 
615-616 
Hibernate system( Hibernate 系统 ) , 393-395 
hierarchical architecture( 层次 结构 ) 781, 784 
hierarchical classification( 层次 分 类 ) , 935-937 
hierarchical clustering ( 层次 聚 类 ) , 907-908 
hierarchical data model( 层次 数据 模型 ) 9 
high availability ( 高 可 用 性 ) , 756 
HIPAA，1248 
histogram (HAH), 195, 591-596, 616, 801, 
901, 1152, 1175, 1211, 1239 
HITS algorithm( HITS 算法 ) 925 
home processor ( 本 地 处 理 器 ) , 803 
homonym( 同义词 ) 925-927 
horizontal fragmentation ( 水 平分 片 ) 827-828 
horizontal partitioning( 水 平分 区 ) 798 
hot-spare configuration( 热 备 份 配置 ) 758 
hot swapping( 热 交 换 ) ，449 
householding ( 住宅 操作 ) ，891 
HP-UX，1193 
hub ( 链接 中 心 ) , 924 
hybrid disk drive( 混合 磁盘 驱动 ) ，440-441 
hybrid hash join( 混合 散 列 连接 ) ，562 
hybrid merge join( 混合 归并 连接 ) 557 
hybrid OLAP ( HOLAP) (混合 联机 分 析 处 理 ) ，204 
hypercube architecture ( 超 立 方 体 体系 结构 ) , 781 
hyperlink ( 超 链接 ) 
PageRank and, 922-923, 925 
popularity ranking and( 流行 度 排 名 ) , 920-922 
search engine spamming and ( }§ & 5| % E ME) , 
924-925 
HyperText Markup Language (HTML) !( 超 文本 标 
记 语 言 ) 378-380 
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client-side scripting and( 客户 端 脚本 ) 388-391 

DataGrid and, 398 

embedded ( zA ÉJ) , 397 

information retrieval and (信息 检索 ) ，915 (参见 
Information retrieval ) 

Java Server Pages (JSP) and, 387-391 

Rapid Application Development (RAD) and( 快 速 应 
用 开发 ) 397 

security and( 安全 性 ) ，402-417 

server-side scripting and( 服务 器 端 脚本 ) 386-388 

stylesheet and( 样式 表 ) 380 

Web application framework and( Web 应 用 构架 )， 
398-400 

web session and( web 会 话 ) ，380-382 

XML and( 可 扩展 标记 语言 ) ，981 

HyperText Transfer Protocol( HTTP) ( 超 文本 传输 

协议 ) 

application design and (应 用 程序 设计 ) , 377-381, 
383, 395, 404-406, 417 

as connectionless( 无 连接 的 ) 381 

digital certificate and( 数字 证 书 ) ，417 

man-in-the-middle attack and( 中 间 人 攻击 ) ，406 

REpresentation State Transfer (REST) and( 表 示 状 
态 转移 ) 395 

Simple Object Access Protocol (SOAP) and( 简 单 对 
象 访问 协议 ) 1017-1018, 1249-1250 


IBM AIX，1193 
IBM DB2 30, 96, 141, 160n3, 172, 180, 184- 

185, 216, 1121 

administrative tool( 管理 工具 ) , 1215-1216 

autonomic feature( 自动 特性 ) 1214-1215 

buffer pool and ( 缓冲 池 ) , 1201-1202 

business intelligence feature ( 商务 智能 特性 )， 
1221-1222 

concurrency control and (并 发 控制 )，1200-1203， 
1217-1218 

constraint and( 约束 )，1199 

Control Center( 控制 中 心 ) 1195, 1215 

database-design tool and (数据 库 设 计 工 具 )， 
1194-1195 

data type support and( 数据 类 型 支持 ) ，1196-1197 

Data Warehouse Edition( 数据 仓库 版 本 ) ，1221 

development of( 开发 ) 1193-1193 

distribution( 分 布 ) ，1220-1221 

external data and( 外 部 数据 ) ，1220-1221 

indexing and( 索引 ) ，1199-1205 


isolation and( 隅 离 ) 1217-1218 
join and( 连 接 ) ，1209-1210 
large object and( 大 对 象 ) ，1198-1199 
lock and( 锁 ) 1217-1220 
Massively Parallel Processor (MPP) and( 大 型 并 行 
处 理 器 ) 1193 
materialized view and( 物化 视图 ) ，1212-1214 
multidimensional clustering and ( & 4 R $E), 
1203-1207 
query processing and( 查询 处 理 ) , 593, 604, 612, 
1207-1216 
recovery and( 恢复 ) , 1200-1203 
replication ( 复制 ) , 1220-1221 
rollback and( 回 滚 ) 1218 
set operation and( 集合 运算 ) , 1209-1210 
SQL variation and( SQL 变种 ) 1195-1200 
storage and( 存储 ) , 1200-1203 
system architecture( 系统 体系 结构 ) , 
System R and，1193 
Universal Database Server，1193-1194 
user-defined function and( H Á Æ X A), 1197- 
1198 
utility ( 实用 程序 ) 1215-1216 
Web service( Web 服务 ) 1199-1200 
XML and( 可 扩展 标记 语言 ) 1195-1196 
IBM MVS, 1193 
IBM OS/400, 1193-1194 
IBM VM, 1193-1194 
IBM z/OS, 1194 
identifier ( 标识 ) , 546 
global( 全局) , 1055 
OrdPath, 1260-1261 
standard and( 标准 ) 1055-1056 
tag and( 标签 ) ，982-985 
identifying relationship ( 标识 性 联系 ) 280 
identity declaration ( identity 声明 ) ，1043 
if clause( if FJ), 184 
Illustra Information Technology ( Illustra 信息 技术 )， 
1123-1124 
immediate-modification technique (立即 修改 技 
XR), 729 
incompleteness (不 完整 ) 262 
inconsistent state (A — H Kk Æ), 630. $ 
见 consistency 
in construct( in 4) , 91, 92n8 
incremental view maintenance ( 增 量 视图 维护 )， 
608-611 


1219-1220 


independent parallelism ( 独立 并 行 ) ，814 
indexed nested-loop join ( #5| RE ti mM j již), 
552-553 
index entry( 索引 项 ) 477 
indexing string( 索引 字符 串 ) 502-503 
Index-Organized Table (IOT) ( 按 索 引 组 织 表 )， 
1164-1165 
index record ( 索引 记录 ) ，477 
index( 索引 ) ，21，137-138 530-531 
access time and( 访问 时 间 ) ，476，479 ，523 
access type and( 访问 类 型 ) ，476 
bitmap ( 位 图 ) 507, 509, 524-528, 531, 536, 
1166-1167 
block( HE) , 1205 
bulk loading of (批量 加 载 ) 503-504 
clustering( 聚集 ) , 476-477, 483-485, 542 
comparison and( 比较 ) , 544-545 
composite( 复合 ) 545-546 
concurrency control and( 并 发 控制 ) , 704-708 
construction of ( 构建 ) 1150-1151 
covering( Æ m), 509 
definition in SQL and( Fj SQL 定义 ) 528-529 
deletion time and ( fil BRAY IE] ), 476, 483, 491, 
495-501, 523-524 
dense ( 稠密 ) , 477-483 
domain( 域 ) 1168-1169 
on expression ( 对 表达 式 的 索引 ) , 1149 
function-based( 基于 函数 的 ) 1167-1168 
Generalized Inverted Index (GIN) and( 通 用 倒 排 索 
5|), 1149 
Hashed ( 散 列 ) , 476 (参见 hash function ) 
IBM DB2 and, 1199-1205 
identifier and( 标识) ，546 
information retrieval and ( 信息 检索 ) 927-929 
insertion time and (插入 时 间 )，476，482- 483 ， 
491-495, 499-501, 523-524 
inverted ( 倒 排 ) , 927-929 
join( 连接 ) , 1168 (参见 joins) 
linear search and( 线性 搜索 ) , 541-542 
logical row-id and( 逻辑 行 标 识 ) 1164-1165 
materialized view and( 物化 视图 ) 612 
Microsoft SQL Server and，1231-1236 
multicolumn( 多 列 ) ，1149 
multilevel( 多 级 别 ) ，480-482 
multiple-key access and( 多 码 访问 ) ，485 506-509 
nonclustering( 非 聚 集 ) 477 
operator class and (操作 算 子 类 ) 1150 


索 5| 771 


Oracle and, 1162-1173 

ordered (JF KI), 475-485, 523-524 

partial ( 部 分 ) 1150 

partition and( 划分 ) 1169-1171 

performance tuning and( 性 能 调整 )，1039-1041 

persistent programming language and (持久 化 程序 设 
计 语 言 ) ，964-972 

pointer and( 指针 ) ，546 

PostgreSQL and, 1135-1136, 1146-1151 

primary( £), 476-477, 542, 544 

query processing and( 查询 处 理 ) 541-544 

record relocation and( 记录 重 定位 ) 502 

search key and( 搜索 码 ) ，476 

secondary ( 辅助 ) 477, 483- 485, 502, 542, 
544-545 

selection operation and ( 选择 运算 ) , 541-544 

sequential ( AJF ÉJ) , 485-486 

sorting and( 排序 ) , 547-549 

space overhead and ( Æ [E] FF 4 ), 476, 479, 
486, 522 

sparse ( FRL), 477-480, 482-483 

spatial data and( 空间 数据 ) , 1071-1076 

support routine and( 支撑 例 程 ) 1135-1136 

tree and( #f), 1148-1149 (参见 tree) 

unique( 唯一 性 ) , 1149 

update and( 更 新 ) 482-483 

XML( 可 扩展 标记 语言 ) ，1160 


information-extraction system (信息 抽取 系统 )， 


932-933 


information gain ( 信息 增益 ) 897-898 
information retrieval( 信息 检索 ) 25-26, 885, 938 


adjacency test and( 邻接 测试 ) ，922-923 
application of( 应 用 ) ，915-917 931-935 
category and( 分 类 ) , 935-937 

defined( 定义 的 ) ，915 

development of field( 领域 开发 ) 915 

directory and( 目录 ) ，935-937 

false negative and( R&A), 929-930 

false positive and( 误 选 中 ) ，929-930 

homonym and( 同义词 ) , 925-927 

indexing of document and( 文档 索引 ) ，927-929 
information extraction and( 信息 抽取) , 932-933 
keyword and( 关键 字 ) , 916-927 

measuring effectiveness of( 有 效 性 度量 ) ，929-930 
ontology and( 本 体 ) ，925-927 

PageRank and, 922-923, 925 

precision and( 查 准 率 ) , 929-930 
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query result diversity and( 查询 结果 多 样 性 ) ，932 
question answering and( 问答 ) 933-934 
recall and( 查 全 率 ) , 929-930 
relevance ranking using term( 使 用 术语 的 相关 性 排 
名 )，917-920 
relevance using hyperlink (使 用 超 链 接 的 相关 性 ) ， 
920-925 
result diversity and( 结果 多 样 性 ) ，932 
search engine spamming and ( 4# 4% 5| & E #E) , 
924-925 
similarity-based ( 基于 相似 性 的 ) , 919-920 
stop word and( 停 用 词 ) 918 
structured data query and (结构 化 数据 查询 )， 
934-935 
synonym and( 同义词 ) ，925-927 
TF-IDF approach and(TF-IDF 方法 ) 917-925 
Web crawler and( 网 络 息 虫 ) , 930-931 
Ingres, 30 
inheritance ( 继承 性 ) ，298-299 
overriding method( 覆 写 方法 ) 952 
SQL and( 结构 化 查询 语言 ) ，949-956 
structured type and( 结构 化 类 型 ) ，949-952 
table and( 表 ) ，954-956 
type and( 类型) ，952-953 
initially deferred integrity constraint( initially deferred 
完整 性 约束 ) 134 
inner join( 内 连接 ) 117-120, 601 
inner relation ( 内 层 关 系 ) 550 
insertion( 插入 ) 61, 100-102 
concurrency control and( 并 发 控制 ) ，697-701 
EXEC SQL and，171 
hashing and( 散 列 ) , 513, 516-523 
lookup and( 查找 ) ，705 
phantom phenomenon and( 幻象 现象 ) ，698-701 
PostgreSQL and, 1130-1131 
prepared statement and( 预备 语句 ) , 162-164 
privilege and( 权限 ) 143-145 
transaction and( 事 务 ) 629, 653 
view and( 视图) ，124-125 
instance( 实例 ) ，8，904-905 
instead of trigger( instead of 触发 器 ) ，1161-1162 
Integrated Development Environment (IDE) ( 集成 
F £ HIB), 111, 307, 386, 397, 426, 
434, 932 
integrity constraint ( 完整 性 约束 ) 4, 58 
add( 添加) , 129 
alter table( alter table 命令 ) , 129 


assertion( fa), 135-136 
check clause( check #J) , 130, 134-136 
create table( create table 命令 ) , 129, 130 
deferred( 延迟 的 ) , 134 
example of( 例子 ) , 128 
foreign key( 外 码 ) , 131-133 
functional dependency and( 函数 依赖 ) ，129 
hashing and( 散 列 )，809-810 
not null( 非 空 )，129-130，133 
primary key( 主 码 ) 130-131 
referential( 参照 的 ) 11, 46-47, 131-136, 151, 
181-182, 628 
schema diagram and( 模式 图 ) , 46-47 
on single relation( 单 关系 ) 129 
unique( 唯一 性 ) ，130-131 
user-defined type and( 用 户 自 定义 类 型 ) 140 
violation during transaction (事务 中 的 违反 )， 
133-134 
XML and( 可 扩展 标记 语言 ) 1003-1004 
integrity manager( 完整 性 管理 器 ) ，21 
Intention-eXclusive (IX) mode (排他 型 意向 模 


式 ) ，680 
Intention-Shard (IS) mode (共享 型 意向 模 
式 ) ，680 


interconnection network( 互连网 络 ) ，780-781 
interesting sort order( 感 兴趣 的 排序 顺序 ) , 601 
Interface Description Language (IDL) (接口 描述 语 
言 ) 1054-1055 
interference( 冲突 ) 780 
internal node ( 内 部 结 点 ) 487 
International Organization for Standardization 
(ISO) ( 国际 标准 化 组 织 ) 57, 871, 1051 
Internet( 因特网 ) 31 
direct user access and( 直接 用 户 访问 ) 2 
wireless( 无 线 ) ，1081-1082 
interoperation parallelism ( 操作 间 并 行 ) 804, 813- 
814 
interquery parallelism ( 查询 间 并 行 ) ，802-803 
intersect( 相交 ) ，81-82 ，585 
intersect all( 全 部 相交 ) ，81-82 
intersection( 交 ) ，50 
intersection set( 交集 ) ，960 
interval( 间隔 ) ，1063-1064 
intraoperation parallelism ( 操作 内 并 行 ) 
aggregation and( 聚集 ) ，811 
degree of parallelism and( 并 行 度 ) 804 
duplicate elimination and( 去 重 ) 811 


operation evaluation cost and( 操作 计算 代价 ) 812 
parallel external sort-merge and( 并 行 外 排序 -归并 ) , 
806 
parallel join and( 并 行 连接 ) ，806-811 
parallel sort and( 并 行 排 序 ) ，805-806 
projection and( 投影) 811 
range-partitioning sort and( 范围 划分 排序 ) ，805 
selection and( 选择 ) ，811 
intraquery parallelism ( 查询 内 并 行 ) 803-804 
invalidation report( 失效 报告 ) ，1083 
inverse document frequency ( IDF ) 
率 ) 918 
I/O parallelism ( MO 并 行 ) 
hashing and( 散 列 )，799-800 
partitioning technique and( 划分 技术 ) ，798-800 
range scheme and( 范围 模式 ) ，800 
round-robin scheme and( 轮转 法 模式 ) ，799 
skew handling and( 偏 斜 处 理 ) 800-802 
is not null( 非 空 ) 83 
is not unknown( 非 未 知 ) ，84 
is_null( 为 空 ) ，83 
isolation ( 隔离 性 ) 4, 1094 
atomicity and( 原子 性 ) 646-648 
cascadeless schedule and( 无 级 联 的 调度 ) ，647-648 
concurrency control and ( 并 发 控制 )，631，636- 
637, 639, 650, 1137-1138 
defined( 定义 的 ) 628 
dirty read and( 读 脏 数 据 ) ，1137 
distributed transaction and( 分 布 式 事务 ) ，830-832 
factorial and( 阶乘 ) 639 
improved throughput and( 改 进 的 吞吐 量 ) 635-636 
inconsistent state and( 不 一 致 状态 ) 631 
level of( 级 别 )，648-653 
locking and( 封锁 ) ，651 
multiple version and (多 版 本 )，652- 653, 
1137-1138 
nonrepeatable read and( 不 可 重复 读 ) 1137 
Oracle and，1181-1182 
phantom read and( 读 幻 象 ) 1137-1138 
PostgreSQL and, 1137-1138, 1142 
read committed ( (#222) , 649, 1042 
read uncommitted ( 读 未 提交 ) , 648, 649 
recoverable schedule and( 可 恢复 调度 ) , 647 
repeated read( 重 复读 ) , 649 
resource allocation and( 资源 分 配 ) , 635-636 
row versioning and( 行 版 本 ) , 1244 
serializability and( 可 串 行 化 ) 640, 648-653 
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snapshot ( 快照 ) 652-653, 692-697, 704, 729- 
730, 1042, 1242, 1244 
timestamp and( 时 间 惟 ) , 651-652 
transaction and( $445) , 628, 635-640, 646-653 
utilization and( 利用 率 ) 636 
wait time and( 等 待 时 间 ) ，636 
is unknown( 未 知 ) 84 
item shipping( 项 传送 ) ，776 
iteration ( 迭代 ) ，176，188-190 


J++，1228，1253 

Jakarta Project( Jakarta 项 目 ) 386 

. jar file(. jar 文件 ) , 160 

Java, 14, 157, 169, 173, 387, 945 
DOM API( DOM 应 用 程序 接口 ) 1008-1009 
JDBC and( Java 数据 库 连 接 ) ，158-166 
metadata and( 元 数据 ) ，164-166 
persistent system and( 持久 系统 ) ，971-972 


SQLJ and，172 
Unified Modeling Language( UML) and( 统一 建 模 语 
A), 308 
Java 2 Enterprise Edition ( J2EE ), 386, 
1157-1158 
Java Database Object (JDO) (Java 数据 库 对 
象 ) 971 
JavaScript( Java 描述 语言 


application design and (应 用 程序 设计 )，389- 
391, 398 
Representation State Transfer (REST) and (表示 状 
SHB) , 395 
security and( 安全 性 ) , 402-411 
JavaScript Object Notation (JSON) (JavaScript 对 
象 表示 法 ) 395, 863-864 
JavaServer Faces (JSF) framework ( JSF 构 
32), 397 
Java Server Pages (JSP) 
application design and (应 用 程序 设计 )，377， 
383-391 
client-side scripting and( 客户 端 脚本 ) ，389-391 
security and( 安全 性 ) 405 
server-side scripting and( 服务 器 端 脚本 ) 386-388 
servlet and( Java 服务 器 端 程序 ) 383-391 
Web application framework and ( Web 应 用 构 
4), 399 
JBoss, 386, 399 
JDBC (Java Database Connectivity) ( Java 数据 库 
连接 ) 380, 1052, 1154 
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advanced SQL and( 高 级 SQL) , 158-159 

blob column( 二 进 制 大 对 象 列 ) 166 

caching and( 高 速 缓存 ) 400-401 

callable statement and( 可 调用 语句 ) ，164 

clob column( 字符 大 对 象 列 ) ，166 

connecting to database( 连接 到 数据 库 ) ，159-161 
E-R model and( 实体 关系 模型 ) 269, 275 
information protocol of( 信息 协议 ) 160-161 
metadata feature and( 元 数据 特性 ) ，164-166 
prepared statement and( 预备 语句 ) ，162-164 
query result retrieval and( 查询 结果 检索 ) ，161-162 
shipping SQL statement to( 传送 SQL 语句 到 ) 161 
updatable result set and( 可 更 新 结果 集 ) ，166 


join dependency ( 连接 依赖 ) 360 
join( 连接 ) 


complex( 复杂 的 ) ，563 

condition and( 条 件 )，114-115 

cost analysis and( 代价 分 析 ) , 555-557, 599-601 

distributed processing and( 分 布 式 处 理 ) ，855-857 

equi-join ( 等 值 连接 ) , 549-559, 563, 566, 571, 
807, 819 

filtering of( 过 滤 ) , 1187 

fragment-and-replicate( 分 片 -复制 ) , 808-809 

full outer( 全 外 ) , 117-120, 233-234, 565-566 

hash join ( M3 HEHE), 539-540, 557-562, 571- 
572, 602 

hybrid merge( 混合 归并 ) , 557 

IBM DB2 and, 1209-1210 

inner( Ñ), 117-120, 601 

inner relation and( AJB XR), 550 

left outer( 左 外 ) , 116-120, 233-235, 565-566 

lossless decomposition and (无损 分 解 ) , 345-346 

merge-join( 归并 连接 ) , 553-555 

minimization and( 最 小 化 ) 613 

natural ( 自然 )，71-74，87，113 (参见 natural 
join) 

nested-loop ( #% Æ AIR), 550-553 (参见 nested- 
loop join) 

Oracle and, 1168, 1187 

ordering and( 排序 ) , 588-589 

outer( 4h), 115-120, 232-235, 565-566, 597 

outer relation( 外 层 关 系 ) ，550 

parallel( 并 行 ) 806-811, 857 

partitioned( 划分 ) ，539-540 ，807-810 

PostgreSQL and, 1153 

prediction( 预测 ) ，1267 

query processing and (查询 处 理 )，549-566， 


855-857 
relational algebra and( 关系 代数 ) ，229-232 ，239 
right outer( 右 外 ) , 117-120, 233-235, 565-566 
semijoin strategy and ( 半 连 接 策略 ) , 856-857 
size estimation and( 大 小 估计 ) , 595-596 
sort-merge-join( 排序 -归并 -连接 ) , 553 
theta, 584-585 
type and( 类 型 ) 115-120 
view maintenance and( 视图 维护 ) 609 
join using( 条 件 连接 ) 74, 113-114 
journaling file system ( 日 志文 件 系 统 ) 439 
JPEG (Joint Picture Experts Group) (联合 图 像 专 
RA), 1077 
jukebox system( 自动 光盘 机 系统 ) 431 


k-d tree( k-d 树 ) 1071-1072 
kernel function( 内 核 函 数 ) ，901-902 
key( 码 ) 45-46 
constraint and( 约束 ) ，271-272 
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131-136, 151, 181-182, 628 
referral( 引用 ) 875 
reflexivity rule( 自 反 律 ) 339 
region quadtree( 区 域 四 叉 树 ) 1073 
regression( 回归 ) , 902-903, 1048-1049 
relational algebra (关系 代数 )，51-52，248- 
249, 427 
aggregate function( 聚集 函数 ) , 235-239 
assignment ( 赋值 ) ，232 
avg( 求 平 均 ) ，236 
Cartesian-product( -F JL) , 222-226 
composition of relational operation and ( 关系 运算 的 
组 合 ) 219-220 
count-distinct( count-dintinct 运算 ) , 236 
equivalence and( 等 价 ) , 582-588, 601-602 
expression transformation and (表达 式 转 换 )， 
582-590 
expressive power of language( 语言 表达 能 力 ) 244 
formal definition of ( 形式 化 定义 ) 228 
fundamental operation ( 基本 运算 ) 217-228 
generalized-projection( 广义 投影 ) 235 
join expression( 连接 表达 式 ) 239 
max ( RAIEK), 236 
min( 最 小 值 函 数 )，236 
multiset( LEHE), 238 
natural-join( 自然 连接 ) , 229-232 
outer-join( 外 连接 ) , 232-235 
project operation( 投影 运算 ) ，219 
query optimization and( 查询 优化 ) , 579-590 
query processing and( 查询 处 理 ) ，537-539 
rename( 更 名 ) 226-228 
select operation ( 选择 运算 ) ，217-219 
semijoin strategy and( 半 连接 策略 ) 856-857 
set-difference( 集合 差 ) 221-222 
set-intersection( 集合 交 ) ，229 
SQL and( 结 构 化 查询 语言 ) 219, 239 
sum( 求 和 ) ，235-236 
union operation( 并 运算 ) ，220-221 
relational database design( 关系 数据 库 设 计 ) 368 
atomic domain and( 原子 域 ) 327-329 
attribute naming( 属性 命名 ) ，362-363 
decomposition and( 分 解 )，329-338，348-360 
design process and( 设计 过 程 )，361-364 
feature of good( 良好 特性 ) ，323-327 
first normal form and( 第 一 范式 ) 327-329 
fourth normal form and( 第 四 范式 ) 356, 358-360 
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functional dependency and( KUK) , 329-348 

larger schema and( 更 大 模式 ) 324-325 

multivalued dependency and( 多 值 依 赖 ) 355-360 

normalization and( 规范 化 ) ，361-362 

relationship naming( 关系 命名 ) ，362-363 

second normal form and( 第 二 范式 ) 336n5, 361 

smaller schema and( 更 小 模式 ) ，325-327 

temporal data modeling and (时 态 数据 建 模 )， 
364-367 

third normal form and( 第 三 范式 ) ，336-337 

relational database ( 关系 数据 库 ) 

access from application program and (通过 应 用 程序 
访问 ) , 14-15 

Data-Definition Language and( 数 据 定义 语言 ) 14 

Data-Manipulation Language (DML) and( 数据 操纵 
语言 ) 13-14 

storage and( 存 储 ) ，1010-1014 

table and( 表 ) 12-13 

relational model ( 关系 模型 ) 9 

disadvantage of ( 缺点 ) , 30 

domain and( 域 ) , 42 

key and( 码 ) 45-46 

natural join and( 自然 连接 ) ，49-50 

operation and( 运算 ) ，48-52 

query language and( 查询 语言 ) ，47-48 ，50 

referencing relation and( 参照 关系 ) 46 

schema for( 模式 ) ，42-47 ，302-304 ，1012 

structure of( 结构 ) 39-42 

table for( Æ), 39-44, 49-51, 202-205 

tuple and( 元 组 ) , 40-42, 49-50 

relation instance ( 关系 实例 ) 42-45, 264 

relationship set( 联系 集 ) 

alternative notation for( 替代 记号 )，304-310 

atomic domain and( 原子 域 ) 327-329 

attribute placement and( 属性 布局 ) ，294-295 

binary vs. n-ary( JC} n JG), 292-294 

descriptive attribute( 描述 性 属性 ) ，267 

design issue and( 设计 问题 ) ，291-295 

entity-relationship diagram and (实体 联系 图 )， 
278-279 

entity-relationship (E-R) model and ( 实体 -联系 模 
型 )，264-267，286-290，296-297 

entity set and( 实体 集 ) ，291-292 

naming of( 命名 ) ，362-363 

nonbinary( 非 二 元 的 ) ，278-279 

recursive( 递归 ) ，265 

redundancy and( 宛 余 ) 288 


representation of( 表示 ) ，286-290 
schema combination and( 模式 组 合 ) ，288-290 
superclass-subclass( 超 类 - 子 类 ) ，296-297 
Unified Modeling Language (UML) and( 统一 建 模 语 
言 )，308-310 
Relative Distinguished Name( RDN) (相对 可 区 别名 
称 ) ，872 
relevance ( 相关 性 ) 
adjacency test and( 相 邻 测试 ) ，922-923 
hub and( 链接 中 心 ) 924 
PageRank and, 922-923, 925 
popularity ranking and( 流行 度 排 名 ) , 920-922 
ranking using TF-IDF (使 用 TF-IDF HF 4%), 917- 
920, 925 
search engine spamming and ( 48 # 5| Z E HK) , 
924-925 
similarity-based retrieval and ( 基于 相似 性 的 检索 ) ， 
919-920 
TF-IDF approach and ( TF-IDF 77%), 917-925, 
928-929 
using hyperlink and ( 使 用 超 链 接 ) , 3421 
Web crawler and( RJ Et ), 930-931 
relevance feedback( 相关 反馈 ) , 919-920 
remote backup system ( 远程 备份 系统 )，723， 
756-759, 850, 1095-1096 
Remote-Procedure-Call (RPC) mechanism ( 远程 
过 程 调用 机 制 ) 1096 
rename operation ( 更 名 运算 ) 75-76, 226-228 
repeat( 重复 ) ，176 
repeatable read( 可 重复 读 ) ，649 
repeat loop ( 重复 循环 ) 188, 341, 343, 490 
replication ( 复制 ) 
cloud computing and( 云 计算 ) 866-868 
distributed database and( 分 布 式 数据 库 ) 843-844 
Microsoft SQL Server and, 1251-1253 
system architecture and (系统 体系 结构 )，785， 
826, 829 
report generator ( 报表 生成 器 ) , 399-400 
Representation State Transfer (REST) ( 表示 状态 
转移 ) ，395 
request forgery ( 请 求 伪造 ) 403-405 
request operation ( 请 求 操作 ) 
deadlock handling and( 死 锁 处 理 ) ，675-679 
lock and( 锁 ) , 662-671, 675-680, 709 
lookup and( 查找 ) , 706 
multiple granularity and( 多 粒度 ) , 679-680 
multiversion scheme and( 多 版 本 机 制 ) 691 


snapshot isolation and( 快照 隔离 ) 693 
timestamp and( AYA] #k) ，682 
resource manager ( 资源 管理 器 ) , 1095 
response time ( 响应 时 间 ) 
application design and (应 用 程序 设计 )，400， 
1037，1046 
concurrency control and( 并 发 控制 ) ，688 
E-R model and( E-R 模型 ) 311 
Microsoft SQL Server and, 1261 
Oracle and, 1176-1177, 1190 
query evaluation plan and( 查 询 计算 计划 ) , 541 
query processing and( 查询 处 理 ) ，541 
storage and( 存储) 444, 1106, 1109-1110 
transaction and( 事务 ) 636 
system architecture and (系统 体系 结构 )，778， 
798, 800, 802 
restriction( 43), 149-150, 347 
ResultSet object ( 结果 集 对 象 ) 159, 161, 164- 
166, 393, 397-398, 490 
revoke ( 撤回 ) 145, 149 
right outer join ( Æ 5p # #), 117-120, 233-235, 
565-566 
Rijndael algorithm ( Rijndael 算法 ) 412-413 
robustness ( 健壮 性 ) , 847 
role( AE), 264-265 
authorization and( 424%), 145-146 
entity-relationship diagram( 实体 联系 图 ) 278 
Unified Modeling Language (UML) and( 统一 建 模 
语言 ) ，308-310 
rollback( E), 173 
ARIES and, 754-755 
cascading ( 级 联 ) , 667 
concurrency control and ( #+ & 7% Hl), 667, 670, 
674-679, 685, 689, 691, 709 
IBM DB2 and, 1218 
logical operation and ( 逻辑 运算 ) , 746-749 
PostgreSQL and, 1142-1144 
recovery system and( 恢复 系统 ) 729-734, 736 
remote backup system and (远程 备份 系统 )， 
758-759 
transaction and( #44) , 736 
timestamp and( 时 间 戳 ) 685-686 
undo and, 729-734 
rollback work( rollback work 语句 ) 127 
rollup( 上 卷 ) 201, 206-210, 1221-1222 
RosettaNet, 1055 
row trigger ( 行 触发 器 ) , 1161-1162 
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R-tree( R #t) , 1073-1076 
Ruby on Rails, 387, 399 
runstats ( runstats 命令 ) 593 


SAS ( Serial attached SCSI ) 
SCSI) , 434 
Sarbanes-Oxley Act( Sarbanes-Oxley £38) , 1248 
SATA (serial ATA) ( $47 ATA), 434, 436 
savepoint( 保存 点 ) 756 
scalar subquery ( 标量 子 查询 ) 97-98 
scaleup( 扩展 比 ) ，778-780 
scheduling ( 调度 ) 
Microsoft SQL Server and, 1254-1255 
PostgreSQL and, 1127 
query optimization and( 查询 优化 ) 814-815 
storage and( 存储 ) , 437 
transaction and( 事务 ) 641, 1099-1100, 1108 
schema definition ( 模式 定义 ) , 28 
schema diagram ( 模式 图 ) ，46-47 
schema( 模式 ) 8 
alternative notation for modeling data( 数据 建 模 的 替 
代 记 号 ) 304-310 
authorization on( 授权 ) , 147-148 
basic SQL query structure and (基本 SQL 查询 结 
H), 63-74 
canonical cover and( 正则 覆盖 ) , 342-345 
catalog and( Ase), 142-143 
combination of ( 结合 ) 288-290 
concurrency control and ( 并 发 控制 ) ，661-710 (& 
J, concurrency control ) 
Data-Definition Language (DDL) and( 数据 定义 语 
言 )，58，60-63 
data mining ( 数据 挖掘 ) 893-910 
data warehouse( 数据 仓库 ) 889-893 
entity-relationship (E-R) model and (实体 -联系 模 
型 ) , 262-313 
functional dependency and( 因数 依赖 ) , 329-348 
generalization and( 概 化 ) , 297-304 
larger( HK), 324-325 
locks and( 锁 ) , 661-686 
performance tuning of ( HERB VA) , 1038-1039 
physical-organization modification and ( 物理 组 织 修 
改 ) 28 
recovery system and( 恢复 系统 ) 721-761 
reduction to relational ( 转换 为 关系 模式 ) 283-290 
redundancy of ( 宛 余 ) 288 
relational algebra and( 关系 代数 ) ，217-239 
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relational database design and ( 关系 数据 库 设 计 ) ， 
323-368 
relational model and( 关系 模型 ) ，42-47 
relationship set and( 联系 集 ) ，286-288 
shadow-copy( 影子 拷贝 ) 727 
smaller( 更 小 ) 325-327 
strong entity set and( 强 实体 集 ) ，283-285 
timestamp and( 时间 惟 ) ，682-686 
tuple relational calculus( 元 组 关系 演算 ) 239-244 
version-numbering( 版 本 编号 ) ，1083-1084 
weak entity set( 弱 实 体 集 ) and, 285-286 
XML document( 可 扩展 标记 语言 文档 ) ，990-998 
scripting language ( 脚本 语言 ) 389 
scrubbing ( 擦洗 ) , 448 
search engine spamming ( # R 5| # 1 #), 
924-925 
search key ( 搜索 码 ) 
hashing and( 散 列 ) , 509-519, 524 
indexing and( 5|), 476-509, 524, 529 
nonunique( 不 唯一 ) 497-499 
storage and( 存储) , 457-459 
uniquifier and ( ME—1k) , 498-499 
secondary site( 辅助 站 点 ) 756 
second normal form( 第 二 范式 ) 361 
Secure Electronic Transaction ( SET) protocol ( 安 
全 电子 交易 协议 ) ，1105 
security( 安全 性 ) 5, 147 
abstraction and( 抽象) 6-8, 10 
application design and( 应 用 程序 设计 ) , 402-417 
audit trail and( 审 计 追 踪 ) ，409-410 
authentication and( 鉴 定 ) 405-407 
authorization and( 授权 ) ，11，21，407-409 
concurrency control and ( 并 发 控制 ) 661-710 (& 
见 concurrency control) 
cross site scripting and( 路 站 脚本 ) 403-405 
dictionary attack and( 字 典 攻 击 ) 414 
encryption and( 加 密 ) , 411-417, 1165-1166 
end-user information and( 最 终 用 户 信息 ) 407-408 
GET method and( GET 方法 ) 405 
integrity manager and( 完整 性 管理 器 ) 21 
isolation and( 隔离 性 ) 628, 635-640, 646-653 
key and( #4), 45-46 
lock and( 锁 ) , 661-686 (参见 lock) 
long-duration transaction and( 长 事务 ) 1109-1115 
man-in-the-middle attack and( 中 间 人 攻击 ) 406 
Microsoft SQL Server and, 1247-1248 
observable external write and( 可 见 的 外 部 写 ) 634- 


635 
Oracle and, 1165-1166 
password and( 密码 ) 142, 160, 168, 170, 376, 
382, 385, 393, 405- 407, 415, 463- 464, 
871 
person-in-the-middle attack and (中 E] A IX 
Í), 1105 
physical data independence and (物理 数据 独立 
性 ) 6 
privacy and ( 隐私 ) 402, 410-411, 418, 828, 
869-870, 1104 
remote backup system and (远程 备份 系统 )， 
756-759 
request forgery and ( 请 求 伪 造 ) ，403-405 
single sign-on system and ( 单 点 登录 系统 )， 
406-407 
SQL injection and( SQL 注入 )，402-403 
unique identification and( 唯一 标识 ) ，410-411 
virtual private database and (虚拟 专用 数据 
Æ), 1166 
Security Assertion Markup Language ( SAML) ( 安 
全 声明 标记 语言 ) 407 
seek time ( 寻 道 时 间 ) ，433 ，435-439，450-451 ， 
540 ，555 
select( select 子 句 ) ，363 
aggregate function and( 聚集 函数 ) 84-90 
attribute specification( 属性 说 明 ) ，77 
basic SQL query and( 基本 SQL 查询 ) ，63-74 
on multiple relation( 多 关系 ) 66-71 
natural join and( 自然 连接 ) ，71-74 
null value and( 空 值 ) 83-84 
privilege and( 权限 ) 143-145, 148 
ranking and( 分 级 ) ，194 
rename operation and( 更 名 运算 ) ，74-75 
set membership and( 集合 成 员 ) 90-91 
set operation and( 集合 运算 ) 79-83 
on single relation( 单 关系 ) 63-65, 63-66 
string operation and( 字符 串 运 算 ) , 76-79 
select all( select all 子 句 ) ，65 
select distinct ( select distinct 子 句 ) ，64-65 84- 
85, 91, 125 
select-from-where( select-from-where 语句 ) 
delete and( 删除 ) , 98-100 
function/procedure writing and ( 函数 /过 程 写 )， 
174-180 
inheritance and( 继承 ) ，949-956 
insert and( 插入) ，100-101 


join expression and (连接 表达 式 )，71-74，87， 
113-120 
natural join and( 自然 连接 ) 71-74, 87, 113-120 
nested subquery and( 役 套 子 查询 ) , 90-98 
transaction and( 事 务 ) 651-654 
type handling and( 类 型 处 理 ) , 949-963 
update and( 更 新 ) ，101-103 
view and( 视图) ，120-128 
selection ( 选择 ) 
comparison and( 比较 ) ，544-545 
complex( 复杂 的 ) 545-546 
conjunctive( 合 取 ) , 545-546 
disjunctive( 析 取 ) , 545-546 
equivalence and( 等 价 ) ，582-588 
file scan and ( X fF H H ), 541-544, 550, 
552, 570 
identifier and( 标识 ) , 546 
index and( #4|), 541-544 
intraoperation parallelism and ( 操作 内 并 行 ) , 
linear search and( 线性 搜索 ) 541-542 
relational algebra and( 关系 代数 ) ，217-219 
SQL and( 结构 化 查询 语言 ) ， 
view maintenance and( 视图 维护 ) 609-610 
Semantic Web( 语义 网 ) 927 
semistructured data model ( 半 结 构 化 数据 模型 ) ， 
9，27 
sensitivity( 灵敏 度 ) 903 
Sequel, 57 
sequence association ( 序列 关联 ) ，906-907 
sequence counter( 序号 计数 器 ) ，1043 
sequential-access storage (顺序 访问 存储 器 )， 
431, 436 
sequential file ( 顺序 文件 ) 459 
sequential scan( 顺序 扫描 ) , 1153 
serializability ( $474 ) 
blind write and( 85), 687 
concurrency control and (并 发 控制 )，662，666- 
667, 671, 673, 681- 690, 693- 697，701- 
704, 708 
conflict( 冲突 ) , 641-643 
distributed database and ( 分 布 式 数据 库 ) , 860-861 
isolation and( 隔离 性 ) 648-653 
Oracle and, 1181-1182 
order of ( 顺序 ) ，644-646 
performance tuning and( 性 能 调整 ) ，1042 
PostgreSQL and，1142-1143 
precedence graph and( 优先 图 ) ，644 
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predicate read and( 谓词 读 ) 701 
in the real world( 在 现实 世界 中 ) 650 
snapshot isolation and 快照 隔离 ) ，693-697 
topological sorting and( 拓扑 排序 ) 644-646 
transaction and( 事务 ) 640-646, 648, 650-653 
view, 687 
serializable schedule( 可 串 行 化 调度 ) ，640 
Server Programming Interface ( SPI) ( 服务 器 编程 
接口 ) 1136 
server-side scripting( 服务 器 端 脚 本 ) ，386-388 
server system ( 服务 器 系统 ) 
categorization of( 分 类 ) , 772-773 
client-server( 客户 -服务 器 ) 771-772 
cloud-based( 基于 云 的 ) ，777 
data server( 数据 服务 器 ) 773, 775-777 
transaction-server( 事务 服务 器 ) ，773-775 
servlet( java 服务 器 端 程序 ) 
client-side scripting and( 客户 端 脚本 )，389-391 
example of( 例子 ) 383-384 
life cycle and( 生命 周期 ) ，385-386 
server-side scripting and( 服务 器 端 脚本 ) 386-388 
session and( 会 话 ) 384-385 
support and( 支持 ) ，385-386 
set clause( set 子 句 ) 103 
set default( set default 语句 ) 133 
set difference( 集合 差 ) 50, 221-222, 585 
set-intersection ( 集合 交 ) , 2229 
set null( set null 语句 ) 133 
set operation( 集合 运算 ) 79, 83 
IBM DB2 and，1209-1210 
intersect( 交 ) 50, 81-82, 585, 960 
nested subquery and( K&T #M]), 90-93 
query optimization and( 查询 优化 ) ，597 
query processing and( 查询 处 理 ) , 564-565 
set comparison and( 集合 比较 ) ，91-93 
union( 并 ) 80-81, 220-221, 339, 585 
set role(set role 语句 ) 150 


set transaction isolation level serializable ( set 
transaction isolation level serializable if 
句 ) , 649 


shadow-copy scheme ( 影子 拷贝 模式 ) 727 

shadowing( 影子 ) 441-442 

shadow-paging( 影子 分 页 ) 727 

Shared and Intention-eXclusive ( SIX) mode( 共享 
意向 排他 模式 ) 680 

shared-disk architecture ( 共享 磁盘 体系 结构 )， 
781, 783, 789 
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shared-memory architecture( 共享 内 存 体系 结构 ) ， 
781-783 
shared-mode lock( 共享 型 锁 ) 661 
shared-nothing architecture (无 共享 体系 结构 )， 
781, 783-784 
shared scan( 共享 扫描 ) 614 
Sherpa/PNUTS, 866-867 
shredding ( 分 解 ) 1013, 1258-1259 
similarity-based retrieval ( 基于 相似 性 的 检索 )， 
919-920, 1079 
Simple API for XML (SAX) (XML 的 简单 应 用 程序 
接口 ) 1009 
Simple Object Access Protocol (SOAP) ( 简单 对 象 
HIHN), 1017-1018, 1056, 1249-1250 
single lock-manager ( 单 锁 管 理 器 ) , 839-840 
single-server model( 单 服务 器 模型 ) ，1092-1093 
single-valued attribute ( 单 值 属性 ) ，267-268 
site reintegration ( 站 点 重建 ) 850 
skew ( fa#}) , 512° 
attribute-value( 属性 值 ) 800-801 
parallel database and (并行 数 据 库 )，800-801， 
805-808, 812, 814, 819 
parallel system and( 并 行 系统 ) 780 
partitioning and( 划分 ) , 560, 800-801 
slicing( 切片 ) 201 
Small-Computer-System Interconnect (SCSI) (小 
计算 机 系统 互 连 接 ) 434 
snapshot isolation ( 快照 隔离 ) , 652-653, 704, 1042 
Microsoft SQL Server and, 1244 
recovery system and( 恢复 系统 ) 729-730 
serializability and( 可 串 行 化 ) , 693-697 
validation and( 有 效 性 检查 ) ，692-693 
snapshot replication ( 快照 复制 ) 1252-1253 
snapshot ( 快照 ) 
DML command and (数据 操纵 语言 命令 )， 
1138-1139 
Microsoft SQL Server and, 1242 
MultiVersion Concurrency Control ( MVCC) and( 多 
版 本 并 发 控制 ) 1137-1146 
PostgreSQL and, 1137-1146 
read committed ( #232) , 1242 
software RAID ( 软件 独立 磁盘 宛 余 阵列 ) 448 
Solaris, 1193 
sold-state drive ( 固态 驱动 器 ) 430 
some( some 子 句 ) 90, 92, 92n8 
sorting( 排序 ) ，546 
cost analysis of( 代价 分 析 ) , 548-549 


duplicate elimination and( 去 重 ) 563-564 
external sort-merge algorithm and ( 外 排序 -归并 算 
YE), 547-549 
parallel external sort-merge and( 并 行 外 排序 -归并 ) ， 
806 
PostgreSQL and, 1153 
range-partitioning ( 范围 划分 ) , 805 
topological ( 拓扑 的 ) 644-646 
XML and( 可 扩展 标记 语言 ) ，1106 
sort-merge-join ( 排序 -归并 -连接 ) ，553 
space overhead( 空间 开销 ) 476, 479, 486, 522 
spatial data( 空间 数据 ) 
computer-aided-design data and( 计算 机 辅助 设计 数 
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SQL( 结构 化 查询 语言 ) 1052-1053 
Wi-Max，1081 
XML( 可 扩展 标记 语言 
X/Open XA, 1053-1054 
Starburst, 1193 
start-up cost( 启动 代价 ) , 780 
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statement trigger( 语句 触发 器 ) 1161-1162 
state transition ( 状态 转换 ) ，1134 
state value ( 状态 值 ) 1134 
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step( 步 又)，1096 
stop word( 停 用 词 ) 918 
storage ( 存储 ) ，427 
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optical( 光盘 ) , 430-431, 449-450 

Oracle and, 1162-1172, 1186-1188 

parallel system and (并行 系统 ) , 777-784 
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123, 207, 235-236, 566- 


797 


7988 R 引 


1180-1181 


system error( 系统 错误 ) 721 
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tablespace ( 表 空 间 ) 1146, 1172-1173 
tag library ( 标签 库 ) 388 
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